과학연구

음소영향억제방법에 기초한 발성자개인성정보의 추출

 2021.10.11.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《첨단과학기술분야에서 세계적경쟁력을 가진 기술들을 개발하기 위한 투쟁을 힘있게 벌려야 합니다.》

음성신호로부터 발성자특징을 추출하는 과정은 발성자의 개인성정보를 얻어내는데서 가장 중요한 부분이며 발성자식별체계의 핵심부분으로서 발성자료에 포함된 언어정보를 약화시키면서 개인성정보를 유지하는 기능을 수행한다. 그러나 발성자료에 포함된 언어정보에서 개인성정보를 분리하는것은 매우 어려운 과제이다. 우리는 이 문제를 해결하기 위하여 영어, 중어, 조선어발성자료들을 비교하면서 음성기관들에서 발성자 고유의 형태학적특성에 뿌리는 두고있는 발성자개인정보에 대한 잠재적인 근원을 연구하였다.

최근년간 연구자들은 음성정보처리에 보편적으로 리용되고있는 MFCC특징의 제한성을 극복하기 위하여 발성자인식을 위한 생리적특징들을 개발하려고 시도하였다. Lu(2008)는 발성자개별정보에 미치는 성도의 형태학의 효과들을 조사하기 위하여 Fisher의 F-비를 도입하였다. 그러나 이 연구에서는 발성자개인성에 미치는 음소들의 효과들을 고찰하지 못하였다.

우리는 발성기관의 형태학적특성뿐아니라 음소들의 효과들을 연구하고 발성정보로부터 발성자정보를 분리하기 위한 방법을 제안하였다.

발성자개인성정보에 미치는 음소들의 효과들을 명백히 하기 위하여 매 음소들에 대하여 발성자내부 및 발성자들사이 분산특성을 분석하는 방법을 적용하였다. 이때 발성자정보추출의 관점으로부터 서로 다른 음소들에 의하여 일어나는 발성자내부분산을 억제할 필요가 있다. 이러한 리유로부터 주파수부분대역들에 대한 발성자정보의 일반적인 F-비(GF)점수를 도입하게 되는데 이 점수는 모든 음소들에 대응하는 F-비기여도의 무게평균으로 정의된다. GF가 개별적인 음소들에 따르는 F-비기여도차이를 감소시키고 발성자개인성에 미치는 음소효과들을 억제할수 있다는데로부터 음소영향억제(PES)효과를 가지는 표준화된 GF를 리용하여 발성자개인성정보분포를 설명하였다. 이 주파수분포는 발성자정보가 매 주파수령역에 어떻게 분포되는가를 표현하는데 여기서는 서로 다른 음소들의 영향이 감소되게 된다. 이것을 음소영향억제 발성자개인성분포(PES-SID)라고 부른다.

Lu(2008)에서 제안된 발성자개인성에 대한 전통적인 F-비기여도와 비교할 때 PES-SID는 두가지 고유한 특성을 가지고있다. 첫째로 PES-SID는 발성자분산으로부터 발성기관의 개성적차이를 분리한다. 둘째로 PES-SID는 매 음소들에 관하여 계산되였기때문에 발성자개성에 미치는 서로 다른 음소들의 영향을 억제한다. 또한 PES-SID는 주어진 언어에서 매 음소들의 출현가능성을 고려한다. 음소들의 발음과 출현빈도가 매 언어마다 다르기때문에 PES-SID는 언어의존성을 가지게 된다. 서로 다른 언어에서 음운체계가 일정한 정도로 차이나는것으로 하여 발성자개성에 대한 주파수부분대역의 기여도는 언어마다 다를수 있다.

언어에 따르는 화자개인성의 변화에 포함되는 요인들을 검토하기 위하여 서로 다른 음소구성을 가지고있는 세가지 언어 즉 조선어, 영어, 중어에서 PES-SID에 대한 조사를 진행하였다. 그림은 조선어에서 주파수부분대역들에 대한 PES-SID와 전통적인 F-비의 결과를 실례로 보여주었다.

이러한 고찰은 특수한 언어만을 취급하는 대부분의 이전 연구들과 구별된다. 이러한 연구로부터 여러가지 결과들이 얻어졌다. 첫째로 비음은 약 2.5kHz령역에서 발성자개성에 대한 높은 기여도를 보여주었다. 비음의 기여도는 중어에 대한 발성자개성분포(PES-SID)에서 특별히 크게 나타나지만 영어에서는 그리 뚜렷하지 않았다. 비음의 이러한 효과들은 선행연구들에서 언급되지 않은것으로서 발성자개인성에 대한 비음의 기여도가 언어의 종류에 의존한다는것을 보여준다. 모음과 유성자음에 대하여 발성자개인성은 500Hz와 3~5kHz 주파수령역에 응축되여있으며 무성자음에 대하여서는 3kHz 이상의 령역에서 관측되였다. 이 현상은 모든 3개의 언어들에서 일치하였다. 이러한 결과들은 음소들이 영향을 충분히 고려하지 않고 발성자개인성을 평가한다면 발성자정보의 추출효률을 저하시킬수 있다는것을 암시하고있다.

전통적인 F-비와 제안된 PES-SID사이의 주요한 차이는 발성자개인성정보에 대한 주파수령역들의 기여도곡선에서 나타난다. 전통적인 F-비에 포함되여있던 주파수분포의 예리한 봉우리들을 PES-SID에서는 찾아볼수 없다. 이러한 예리한 봉우리들이 비음이나 유성음, 무성음들에서의 특징을 맹목적으로 평균함으로써 산생된것이라고 볼수 있는데 이것은 전통적인 F-비에 기초한 방법이 발성자간분포에 대한 발성자내부분포의 평균비률에 대해서만 관심하는것으로 하여 음소들의 차이성분까지 포함하기때문이다. PES-SID 방법을 리용할 때에는 매 음소들을 개별적으로 처리하여 음소들사이 차이를 억제하게 되며 따라서 전통적인 F-비의 결함을 극복하고 보다 믿음직한 발성자정보를 제공한다.

제안된 방법은 서로 다른 언어들에 대하여 발성자인식을 진행하는 방법으로 평가되였다. MFCC특징추출방법과 비교해볼 때 제안된 방법에 기초한 PESFCC특징량은 발성자인식오유를 영어에서는 약 61.3%, 조선어에서는 67.3%, 중어에서는 32.1% 감소시켰다. 전통적인 F-비에 기초한 특징(FFCC)에 비하여서는 영어에서 약 31%, 조선어에서 27.3%, 중국어에서 6.6%의 인식오유를 감소시켰다. 따라서 제안된 방법이 다른 2개의 선행특징들보다 성능이 더 좋다는것이 확증되였다. 이 결과는 또한 제안된 방법이 서로 다른 언어들에 대한 발성자개인성정보를 표현하는 로바스트속성들을 추출할수 있다는것을 보여준다.

이 연구결과는 잡지 《Speech Communication》[57 87-100]에《Detection of speaker individual information using a phoneme effect suppression method》 (https://doi.org/10.1016/j.specom.2013.09.004) 의 제목으로 출판되였다.