[정보검색] 제8장 검색 성능 향상 전략 - 제5절 단락 검색
이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
단락의 의미
- 문헌의 장, 절, 문단, 문장 등과 같이 구조적으로 식별할 수 있는 텍스트의 특정 부분
- 텍스트의 특정한 위치에서 시작하여 일정한 크기로 분할된 텍스트(window)
단락 검색 (Passage Retrieval)
- 하나의 문헌을 여러 개의 단락으로 나눈 다음 질의와 각 단락과의 유사도를 산출하여 질의에 적합한 단락을 검색하거나 또는 검색된 단락을 이용하여 질의에 적합한 문헌을 검색하는 기법
- 길이가 긴 문헌에서 질의가 적합한 부분만을 검색하기를 원하는 경우에 유용
- 하나의 문헌이 여러 주제를 다루고 있을 때에도 질의 주제와 일치하는 부분만 검색 가능
- 단락 검색은 질의에 적합한 단락만을 검색하거나 이러한 단락에 기반하여 질의에 적합한 문헌을 검색하는 것이므로 검색 성능의 향상 O
단락 검색에 있어 고려해야 할 점
- 문헌 안에서 단락을 어떻게 식별할 것인가
- 질의에 대한 각 단락의 유사도로부터 어떻게 문헌의 유사도를 산출할 것인가
단락 검색에서 단락을 식별하는 방법
- 장, 절 제목이나 문단의 시작과 끝을 표지로 사용하여 단락을 분할하는 방법
- 동적 단락 분할 방법
- 질의에 따라 단락을 분할하는 것
- 질의어와 일치하는 용어가 텍스트에 출현한 위치를 중심으로 일정한 크기의 단락을 형성하는 것
- 예: 질의어와 일치하는 용어의 위치가 n번째 단어이고 단락의 크기가 p단어일 경우 단락의 시작 위치는 n이고 끝나는 위치는 n+p
단락 검색에서 문헌의 유사도를 산출하는 방법
- 단락 검색 결과를 이용하여 적합한 문헌을 제시하는 경우 질의와 단락 간의 유사도에 기반하여 문헌의 유사도를 산출
- 단락 수준의 유사도 가운데 가장 높은 값을 문헌의 유사도로 선택
- 단락 수준의 유사도와 문헌 수준의 유사도를 결합
댓글남기기