과학연구

동시조음효과를 가지는 가변길이토막을 리용한 직결음성인식

 2021.12.10.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《첨단과학기술분야에서 세계적경쟁력을 가진 기술들을 개발하기 위한 투쟁을 힘있게 벌려야 합니다. 정보기술, 나노기술, 생물공학을 비롯한 핵심기초기술과 새 재료기술, 새 에네르기기술, 우주기술, 핵기술과 같은 중심적이고 견인력이 강한 과학기술분야를 주타격방향으로 정하고 힘을 집중하여야 합니다.》

우리는 말소리생성에서 나타나는 동시조음효과들을 고려하도록 가변길이토막들을 선택하고 그것들을 리용하여 심층쌍방향재귀신경망에 기초한 조선어직결음성인식체계를 실현하였다. DBRNN음향모형의 훈련은 결합식시간분류손실함수를 가지고 진행된다. 동시조음효과를 가지는 가변길이토막의 선택을 위하여 심층한방향재귀신경망에 의해 예측된 모음확인점들이 리용되며 직결인식을 위한 DBRNN의 훈련에서 그러한 가변길이토막들이 리용된다.

전통적인 DBRNN들이 리용될 때 자동음성인식체계의 복호기가 매 평가에서 전체 입구렬에 의존하면서 인식대기시간(latency)을 초래하기때문에 직결음성인식을 위하여 인식정확도와 대기시간사이의 균형을 맞추도록 주의깊게 선택된 고정길이를 가지는 문맥감수성토막(CSC: context-sensitive chunk)들이 리용된다. 하지만 고정길이의 CSC토막들을 리용하는 방법은 우측문맥길이의 영향을 심하게 받는다. 즉 높은 정확도를 얻기 위해서는 문맥길이를 크게 설정해야 하는데 그것은 인식대기시간의 증가를 초래한다.

우리의 방법에서는 조선어음절내부와 음절들사이에서 나타나는 동시조음효과들을 분석한데 기초하여 말소리흐름에서 모음확인점들사이의 구간을 직결인식을 위한 토막으로 선택한다. 모음확인점들의 예측을 위하여 CTC손실함수를 가지는 심층한방향재귀신경망(예측모형)을 리용한다. 그리고 동시조음구간의 선택을 위한 탐색공간을 줄이고 예측모형훈련의 통계적효률을 개선하기 위하여 조선어음소들을 조음방식과 조음위치에 따라 10개의 어음부류들로 분류하였다.

결과 예측모형의 출력표식자들의 개수는 47로부터 11개(부분모임표식자수+비음소표식자수)로 감소되고 동시조음구간의 예측정확도가 개선되였다.

인식체계의 복호화에서 무게붙은 유한상태변환기(WFST: Weighted Finite State Transducer)를 리용하여 CTC음향모형과 단어준위언어모형을 통합한다.

DBRNN을 리용하는 전통적인 직결인식방법들이 최소 300ms의 인식대기시간을 가지는 반면에 가변길이토막을 리용한 방법에서는 보다 개선된 인식정확도와 가변적인 인식대기시간을 제공한다. 즉 우리의 체계는 최소 1개의 음소지속만큼, 최대 3개의 련속적인 음소들의 지속만한 대기시간을 가진다.

우리는 실험을 통하여 동시조음효과를 가지는 가변길이토막들이 DBRNN-HMM혼성모형은 물론 CTC손실을 가지고 훈련된 DBRNN모형에 대하여 모두 의미있는 정확도감소가 없이 비직결모형만큼 우수한 직결인식성능을 제공한다는 결론을 얻었다.

우리의 연구결과는 《International Journal of Speech Technology》에