줄임형과 바뀜형 입말체토의 모방에 기초한 조선어자연발화음성언어코퍼스의 구축방법

김일성종합대학 정보과학부 리혁철

2022.4.2.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《현시대는 과학기술의 시대, 지식경제시대이며 과학기술의 발전수준에 의하여 국력이 결정되고 나라와 민족의 지위와 전도가 좌우되게 됩니다.》

대어휘련속음성인식(LVCSR)연구의 목표는 최근년간 전화대화, 강의, 회의와 같은 자연발화음성에로 확장되고있다. Switchboard와 Fisher코퍼스와 같은 대규모의 대화체전화음성(CTS)코퍼스들이 수집되였으며 많은 LVCSR기술들이 이 코퍼스들을 리용하여 개발되였다.

자연발화음성은 발성자들이 전문방송원도 설화자도 아니며 그들의 발성습성이 자연발생적이기때문에 랑독음성이나 방송보도음성과 구별되는 음향 및 언어적특성들을 가진다. 특히 빠른 발성속도, 불명확한 발음, 발음변동들이 자주 관측된다. 또한 장황한 표현들, 문법이 맞지 않는 문장들, 막힘과 교정과 같은 굴절현상들도 관측된다. 자연발화음성을 정확히 표기하자면 LVCSR체계에서 이러한 음향 및 언어적현상들을 모형화하여야 한다.

일부 자연발화음성인식과제들에서는 이러한 현상들을 반영한 LVCSR체계들을 구축하기 위하여 수백시간분의 적합한 학습자료들을 수집하고있다. 그러나 그러한 대규모코퍼스들을 수집하는것은 일반적으로 수동적인 표기화의 비용상문제로 하여 비현실적이다. 때문에 많은 LVCSR체계들에서는 강의록이나 신문과 같이 특정한 과제의 특징들을 나타내는 코퍼스들을 Switchboard코퍼스와 같은 자연발화음성의 특징들을 나타내는 코퍼스와 결합하고있지만 이 두가지 류형의 특성들을 옳게 조화시킬수 없는 본질적인 문제로 하여 여전히 애로를 받고있다. 실례로 이러한 혼합형식의 학습으로 화제단어들과 막힘들을 다같이 반영한 N-그람요소들을 추정하는것은 불가능하다. 또한 결과모형들에는 LVCSR에서 혼동을 일으키고 그로 하여 성능을 감퇴시킬수 있는 무관계한 N-그람요소들을 불가피하게 포함하게 된다.

코퍼스의 화제적응성과 자연발화특성문제들을 다같이 해결하기 위하여 일부 문헌들에서는 포괄적인 화제범위의 다량의 웨브페지들을 내리적재하고 내리적재한 웨브자료로부터 입말과 류사한 본문들을 선택한 다음 막힘과 휴지와 같은 전형적인 언어현상들을 추가하였다. 그러나 이러한 연구들은 글말과 구별적인 입말어휘들중의 일부인 막힘과 휴지만을 모방하는데 기본을 두었다.

김일성종합대학 정보과학부 지능과학연구소 음성정보처리연구실에서는 조선어자연발화음성언어모형을 구축하기 위하여 글말과 구별되는 입말어휘들중에서 대표적인 줄임형과 바뀜형토들을 모방한 입말체언어코퍼스의 자동생성방법을 개발하였다. 글말과 입말에서 서로 차이나는 토들의 문법적기능과 발음특성에 따라 분류를 진행하고 글말체토와 입말체토들의 대응규칙에 따라 글말체본문에서 토들을 줄임형과 바뀜형토들로 치환하여 입말체본문을 생성하였다. 실험에서는 제안모형이 합성단어 및 형태부단위의 기준모형들에 비하여 각각 0.46%, 0.51%의 절대적인 단어오유률(WER)개선을 이룩하였다.

이 연구결과는 국제잡지 《International Journal of Speech Technology》(2021)에 《A method for constructing Korean spontaneous spoken language corpus based on an imitation of abbreviated and transformed particles》(https://doi.org/10.1007/s10772-021-09937-6)제목으로 발표되였다.