[정보검색] 제8장 검색 성능 향상 전략 - 제5절 단락 검색

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

단락의 의미

  • 문헌의 장, 절, 문단, 문장 등과 같이 구조적으로 식별할 수 있는 텍스트의 특정 부분
  • 텍스트의 특정한 위치에서 시작하여 일정한 크기로 분할된 텍스트(window)

단락 검색 (Passage Retrieval)

  • 하나의 문헌을 여러 개의 단락으로 나눈 다음 질의와 각 단락과의 유사도를 산출하여 질의에 적합한 단락을 검색하거나 또는 검색된 단락을 이용하여 질의에 적합한 문헌을 검색하는 기법
  • 길이가 긴 문헌에서 질의가 적합한 부분만을 검색하기를 원하는 경우에 유용
  • 하나의 문헌이 여러 주제를 다루고 있을 때에도 질의 주제와 일치하는 부분만 검색 가능
  • 단락 검색은 질의에 적합한 단락만을 검색하거나 이러한 단락에 기반하여 질의에 적합한 문헌을 검색하는 것이므로 검색 성능의 향상 O

단락 검색에 있어 고려해야 할 점

  • 문헌 안에서 단락을 어떻게 식별할 것인가
  • 질의에 대한 각 단락의 유사도로부터 어떻게 문헌의 유사도를 산출할 것인가

단락 검색에서 단락을 식별하는 방법

  • 장, 절 제목이나 문단의 시작과 끝을 표지로 사용하여 단락을 분할하는 방법
  • 동적 단락 분할 방법
    • 질의에 따라 단락을 분할하는 것
    • 질의어와 일치하는 용어가 텍스트에 출현한 위치를 중심으로 일정한 크기의 단락을 형성하는 것
    • 예: 질의어와 일치하는 용어의 위치가 n번째 단어이고 단락의 크기가 p단어일 경우 단락의 시작 위치는 n이고 끝나는 위치는 n+p

단락 검색에서 문헌의 유사도를 산출하는 방법

  • 단락 검색 결과를 이용하여 적합한 문헌을 제시하는 경우 질의와 단락 간의 유사도에 기반하여 문헌의 유사도를 산출
    • 단락 수준의 유사도 가운데 가장 높은 값을 문헌의 유사도로 선택
    • 단락 수준의 유사도와 문헌 수준의 유사도를 결합

댓글남기기