과학연구

Elasticsearch를 리용한 온톨로지고려의 검색 및 분석방법

 2024.6.5.

문자렬정합에 기초한 전통적인 정보검색(IR)은 최근년간 의미적인 정합을 목표로 하는 의미검색에로 확장되고있다.

의미검색을 위한 방법들은 크게 두가지 부류 즉 질문처리와 의미색인으로 갈라볼수 있다. 질문처리는 사용자의 질문(하나 또는 여러개의 용어)을 그대로 적용하지 않고 여러가지 의미처리를 진행하는 방법이라면 의미색인은 검색하려는 자료에 일련의 의미정보들을 추가하는 방법이다. 질문처리에는 질문확장, 질문정련, 질문모호해소 등이 있지만 그중에서 가장 널리 리용되는것은 질문확장방법으로서 코퍼스를 리용한 방법, 온톨로지를 리용하는 방법 등이 제안되였다. 한편 의미색인방법들로써는 매 용어에 WordNet와 같은 온톨로지로부터 추출한 의미정보를 추가하는 방법, 용어들에 대하여 련관된 용어들을 얻어 함께 색인하는 방법 등이 개발되였다.

질문처리방법은 실현이 비교적 간단하지만 원천자료를 가공하지 않으므로 의미지식을 충분히 반영할수 없다는 부족점을 가진다. 그리고 의미색인방법은 검색결과가 리용하는 지식기지에 크게 관계되며 현실적으로 모든 지식들을 모두 고려할수는 없다는 한계점을 가진다. 그러므로 검색의 의미적정확도를 보다 높이기 위해서는 두가지 방법을 결합하여 리용하는것이 보다 합리적이다.

Elasticsearch는 Lucene에 기초한 분산형실시간검색엔진으로서 전본문검색을 기본으로 하고있지만 구조화된 자료에 대해서도 풍부한 검색기능을 제공하며 여러가지 분석기능들을 지원한다. 이것의 기본특징은 사용하기 쉬우면서도 검색속도가 전통적인 자료기지들에 비해 훨씬 빠르며 대량의 자료에 대해서도 실시간 혹은 거의 실시간적인 성능을 낼수 있다는것이다. 검색결과는 함께 제공되는 Kibana를 리용하여 현시할수도 있고 자체의 대면부를 리용할수도 있다.

최근년간 여러가지 정보검색체계들에서 Elasticsearch를 많이 리용하고있는데 대다수는 본문검색기능을 기본으로 리용하며 일부 구조화된 검색 및 분석기능을 리용하는 연구들도 있다. 화상검색이나 본문자료에 대한 의미표식달기에 적용한 연구들도 있지만 의미검색을 실현하지는 못하고 그의 높은 본문검색성능을 활용하는데 그치였다.

사물인터네트체계에서 생성되는 방대한 자료에 대하여 제기되는 다양한 요구들에 효률적으로 대응하기 위해서는 Elasticsearch와 같은 분산형고속검색엔진을 토대로 하고 거기에 의미적인 정보를 반영하는것이 합리적이다.

김일성종합대학 정보과학부 사물인터네트기술연구소에서는 대자료에 대한 의미검색을 실현하기 위하여 Elasticsearch를 리용하여 온톨로지를 고려한 검색 및 분석을 실현하는 방법을 개발하였다. 의미색인과 질문확장수법을 결합하여 리용함으로써 구조화된 자료와 본문자료에 대하여 모두 계층관계와 같은 의미관계를 반영한 검색과 분석이 가능하게 하였다. 실험에서는 제안모형이 구조화된 검색 및 분석질문에 대하여 기준모형들에 비해 평균 2.6배의 속도개선을 달성하였다.

이 연구결과는 국제학술토론회 《2023 3rd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE)》에 《Ontology-aware Search and Analytics with Elasticsearch: Case study for Epidemiological Investigation》(https://doi.org/10.1109/ICACITE57410.2023.10182931)라는 제목으로 발표되였다.