[정보검색] 제3장 텍스트의 자동색인 - 자동색인 개요

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

1. 자동색인 개념

  • 컴퓨터에 입력된 문헌의 텍스트를 분석한 후 문헌의 내용을 대표할 수 있는 단어나 단어구를 일정한 기준에 의해 추출하여 색인어로 선정하는 작업
  • 자동색인 알고리즘
    • 텍스트를 구성하는 단어들을 먼저 주제어와 비주제어로 구분한 후
    • 주제어를 모두 색인어로 선택 또는 주제어들 가운데 핵심 주제어만을 색인어로 선정
    • 비주제어는 특정한 문헌의 주제를 표현하기에 부적합한 용어들
    • 흔히 불용어(stop words)로 처리
  • 자동색인 대상
    • 텍스트 : 논문의 표제 / 초록 / 전문 / 디스크립터

2. 자동색인 기본 가설

  1. 문헌에 출현한 단어들은 문헌의 내용 분석을 위해 사용될 수 있다
    • 자동색인 기법 전반에 적용되는 가설
  2. 단어의 출현빈도가 주제어로서의 중요성을 측정하는 기준이 된다.
    • 통계적 기법에 적용되는 가설
  3. 특정한 구문적 기능을 수행하는 단어나 단어구가 문헌의 내용을 대표한다.
    • 언어학적 기법에 적용되는 가설
  4. 문헌 내 특정한 위치에 출현한 단어나 단어구가 문헌의 내용을 대표한다.
    • 문헌구조적 기법에 적용되는 가설

3. 자동색인 알고리즘 구성요소

  • 색인어 선정 기준
    1. 통계적 기준
    2. 언어학적 기준
    3. 문헌구조적 기준
  • 색인어 가중치
    • 선정된 색인어에 부여되는 가중치 = 색인어가 해당 문헌의 표현하는 정도= 색인어로서의 중요도
    • 색인어 선정 시 사용
    • 검색 시 문헌 벡터를 구성하는 각 용어의 가중치 (term weight) 로 사용

4. 전형적인 자동색인 과정

  1. 색인 대상 문헌집단에 출현한 단어들을 식별한다.
  2. 불용어 리스트(stop words list)를 사용하여 빈도가 높은 기능어 및 주제어로서 가치가 없는 기타 고빈도어들을 제거한다.
  3. 형태소 분석기나 어간/어근 분리 프로그램을 사용하여 단어의 어간어근을 분리하여 색인어로 채택한다.
  4. 문헌 $D_i$를 표현하는 어간/어근 형태의 각 단어 $t_{ij}$에 대해 가중치를 부여한다.
  5. 어간/어근 형태의 색인어와 가중치 쌍의 집합으로 각 문헌을 표현한다.

5. 자동색인 기법 종류

  • 색인어를 선정하는 기준에 따라
    1. 통계적 기법
    2. 언어학적 기법
      • 어휘 분석 단계 > 형태소 분석 단계 > 통사/구문 분석 단계 > 의미 분석 단계
    3. 문헌구조적 기법
      • 문헌 속에 단어가 나타난 위치에 의해 색인어를 선정하는 기법
      • 특정 부분에 나타난 주제어들을 색인어로 선정하는 방법
      • 주제적 문장을 선택하여 이들 문장 속에 나타난 주제어를 색인어로 선정하는 방법

댓글남기기