과학연구

부분문자모형화를 리용하여 조선어문자분류기의 성능을 갱신

 2020.10.25.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《첨단과학기술분야에서 세계적경쟁력을 가진 기술들을 개발하기 위한 투쟁을 힘있게 벌려야 합니다.》

김일성종합대학 정보과학부 연구집단에서는 최근 조선어문자의 형태학적특징을 리용한 부분문자모형화방법을 실현하여 조선어문자의 인식성능을 개선하는 성과를 이룩하였다.

최근에 문자인식연구분야에 중첩신경망(CNN)을 리용하는 심층학습방법들이 도입되여 많은 성과들이 이룩되고있지만 언어적특성을 고려한 신경망의 특수한 구조를 필기문자인식에 도입하기 위한 시도는 거의나 없다.

시각적견지에서 조선어문자들과 그것들의 필기문자렬표본은 다른 언어의 문자들에 비하여 인식대상문자모임의 크기가 비교적 크고 구조적으로도 복잡하기는 하지만 불과 수십자종의 자소들에 의하여 수천종의 조선문자들이 구성되며 모음을 중심으로 하여 왼쪽 혹은 웃쪽에 자음이, 아래쪽에 받침이 결합되는 견고한 구조를 가진다.

또한 조선어문자는 자음, 모음, 받침의 명확한 필기순서를 가진다는 특성이 있다.

조선어필기문자들에서 흘려쓰기에 의한 외곡필기현상은 자음과 모음사이, 모음과 받침사이에서만 일어난다.

조선어문자의 이러한 구조적특성으로 하여 조선어필기문자인식에서는 옹근문자모형화방법에 비하여 자소정합에 기초한 부분문자모형화방법이 보다 효률적인것으로 평가할수 있다.

이로부터 우리는 자음과 모음, 모음과 받침의 결합으로 이루어지는 모형화단위를 택하고 이것을 부분문자모형화라고 명명하였다.

부분문자모형화방법에 기초한 CNN기반 문자분류기에서는 모형의 마지막부분 softmax 층을 자음-모음결합클라스와 모음-받침결합클라스들을 포함하는 2개의 softmax층으로 분할하고 매 층의 출력결과를 종합하여 문자인식결과를 얻어낼수 있다.

이렇게 구성된 softmax층들의 출력은 2개의 자소결합으로 주어지는데 이때 이 두 결과가 같은 모음을 공유해야 한다는 제약조건밑에서 결과문자를 구성한다면 불필요한 결합들이 고려되는것을 막을수 있다.

동시에 조선어필기문자에서 자음과 모음사이, 모음과 받침사이의 련결특성을 학습시킬수 있는것으로 하여 문자인식률을 높일수 있게 되며 심층학습과정에 절실하게 제기되는 학습자료부족문제를 원만히 해결할수 있게 한다.

이 모형은 총 11 173개의 출력세포를 포함하는데 원리적으로 가능한 문자를 다 표현할수 있으며 여기에 비문자세포가 포함된다.

제안된 문자분류기는 RNS-HWDB 필기문자화상자료기지의 검사본문모임으로부터 토막화된 문자표본들에서 96.8%의 정확도를 달성하였는데 이것은 일반 CNN분류기에 대하여 19.5%의 오유률을 갱신한것으로 된다.

개발집단은 앞으로 조선어문자의 구조적특성에 맞는 새로운 필기문자인식방법들에 대한 연구를 보다 심화시켜나갈것이다.