[정보검색] 제3장 텍스트의 자동색인 - 자동색인 개요
이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
1. 자동색인 개념
- 컴퓨터에 입력된 문헌의 텍스트를 분석한 후 문헌의 내용을 대표할 수 있는 단어나 단어구를 일정한 기준에 의해 추출하여 색인어로 선정하는 작업
- 자동색인 알고리즘
- 텍스트를 구성하는 단어들을 먼저 주제어와 비주제어로 구분한 후
- 주제어를 모두 색인어로 선택 또는 주제어들 가운데 핵심 주제어만을 색인어로 선정
- 비주제어는 특정한 문헌의 주제를 표현하기에 부적합한 용어들
- 흔히 불용어(stop words)로 처리
- 자동색인 대상
- 텍스트 : 논문의 표제 / 초록 / 전문 / 디스크립터
2. 자동색인 기본 가설
- 문헌에 출현한 단어들은 문헌의 내용 분석을 위해 사용될 수 있다
- 자동색인 기법 전반에 적용되는 가설
- 단어의 출현빈도가 주제어로서의 중요성을 측정하는 기준이 된다.
- 통계적 기법에 적용되는 가설
- 특정한 구문적 기능을 수행하는 단어나 단어구가 문헌의 내용을 대표한다.
- 언어학적 기법에 적용되는 가설
- 문헌 내 특정한 위치에 출현한 단어나 단어구가 문헌의 내용을 대표한다.
- 문헌구조적 기법에 적용되는 가설
3. 자동색인 알고리즘 구성요소
- 색인어 선정 기준
- 통계적 기준
- 언어학적 기준
- 문헌구조적 기준
- 색인어 가중치
- 선정된 색인어에 부여되는 가중치 = 색인어가 해당 문헌의 표현하는 정도= 색인어로서의 중요도
- 색인어 선정 시 사용
- 검색 시 문헌 벡터를 구성하는 각 용어의 가중치 (term weight) 로 사용
4. 전형적인 자동색인 과정
- 색인 대상 문헌집단에 출현한 단어들을 식별한다.
- 불용어 리스트(stop words list)를 사용하여 빈도가 높은 기능어 및 주제어로서 가치가 없는 기타 고빈도어들을 제거한다.
- 형태소 분석기나 어간/어근 분리 프로그램을 사용하여 단어의 어간어근을 분리하여 색인어로 채택한다.
- 문헌 $D_i$를 표현하는 어간/어근 형태의 각 단어 $t_{ij}$에 대해 가중치를 부여한다.
- 어간/어근 형태의 색인어와 가중치 쌍의 집합으로 각 문헌을 표현한다.
댓글남기기