과학연구

Lucene을 리용한 번역기억검색방법

 2023.7.5.

경애하는 김정은동지께서는 다음과 같이 말씀하시였다.

《첨단과학기술분야에서 세계적경쟁력을 가진 기술들을 개발하기 위한 투쟁을 힘있게 벌려야 합니다.》

번역기억과 관련한 기술은 콤퓨터지원번역분야에서 널리 리용되고있는 핵심기술이다. 번역기억체계의 효률성을 담보하는데서 번역기억정합방법의 선택도 중요하지만 응당한 크기의 번역기억을 리용하는것 역시 못지 않게 중요하다.

우리는 벡토르모형에 기초한 류사도평가방법을 리용하여 대규모번역기억에 대한 고속검색을 실현할수 있는 방법을 제기하고 그 성능을 실험적으로 평가하였다.

대규모번역기억에 대한 검색에서는 먼저 번역기억속에서 입력문장과 관련이 있다고 보아지는 정합후보들을 찾아낸 다음(1차검색) 보다 세부적인 정합을 진행(2차검색)하는것이 대규모번역기억검색을 위한 합리적인 방법이다.

번역기억체계에서의 일반적인 번역기억검색단계
그림. 번역기억체계에서의 일반적인 번역기억검색단계

입력문장 S0과 번역기억속의 문장 Si의 벡토르표현을 위하여 정보검색분야에서 많이 리용되는 특징의 하나인 문장속에 들어있는 단어들의 TF-IDF무게를 리용하기로 한다.

입력문장 S0과 번역기억속의 문장 Si의 벡토르표현 VSiUS0이 주어진 조건에서 류사도평가함수로서 다음의 함수를 리용할수 있다.

류사도평가함수

여기서 tf (wj, S0), tf (wj, Si)는 문장 S0Si에서 용어 wj의 출현빈도수이고 idf (wj)는 용어 wj의 거꿀문서빈도수이다.

번역기억1차검색에서 동의어를 고려한 류사도평가를 진행하기 위하여 입력문장 S0을 그속에 들어있는 단어들의 동의어들도 포함하는 가상적인 문장 S'0로 확장하여 류사도를 평가하는 모형을 적용하기로 한다.

류사도평가모형

영어에 대하여 리용가능한 대표적인 동의어와 관련한 지식기지로서는 WordNet를 리용할수 있다. WordNet를 분석해본데 의하면 WordNet 3.0이 제공하는 동의어자료기지에는 11만 7 659개의 의미가 등록되여있으며 이와 련관된 단어의 개수는 14만 7 306개이다. 그중 하나의 의미만을 가지며 동의어가 등록되여있지 않는 단어가 4만 9754개였다.

자체로 설정한 동의어선택원칙에 근거하여 우리는 WordNet의 동의어자료기지에서 3만 6 185개의 의미와 련관된 9만 258개의 단어들을 추출하여 영어동의어사전을 구축하고 번역기억검색성능평가실험에 리용하였다.

원천공개형정보검색서고 Lucene을 리용한 실험결과에 의하면 500만개 문장규모의 번역기억에 대해서도 수십ms정도의 실시간적인 검색속도를 보장할수 있다는 결론을 얻었다. 번역기억속에 들어있는 임의의 문장들을 선택하여 진행한 검색적합성에 대한 자동평가결과 해당 문장이 검색결과목록의 제일 첫번째 순위에 놓였다는 사실로부터 정보검색엔진 Lucene은 모호정합은 물론 1대1정합을 위한 효과적인 수단으로도 리용할수 있다고 말할수 있다.

우리의 연구결과는 잡지 《Recent Advances in Natural Language Processing-2021》에 《Translation Memory Retrieval Using Lucene》(https://doi.org/10.26615/978-954-452-072-4_078)의 제목으로 발표되였다.