[정보검색] 제3장 텍스트의 자동색인 - 언어학적 기법 & N-gram 색인 기법

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

1. 언어학적 기법

  • 단어사전 파일을 활용
  • 자연언어 처리 단계에 따라
    • 어휘 분석
    • 형태소 분석
    • 구문 분석
    • 의미 분석
  • 등 여러 수준에서 정의

불용어 제거 기법

  • 가장 간단한 어휘 분석 수준의 색인 기법
  • 텍스트 내의 각 어절을 분리한 다음 불용어 리스트와 비교하여 불용어를 제외한 나머지 단어들을 색인어로 선택하는 기법
  • 한국어의 경우 띄어쓰기를 기준으로 분리되는 어절에 “체언+조사” 형태가 포함되므로 조사, 의존명사, 대명사 등의 불용어를 분리하여 제거하기가 쉽지 X

형태소 분석 기법

  • 텍스트 내 단어들을 형태소 단위로 분리한 다음 색인어를 선정하는 기법
    • 어간/어근 분리 알고리즘을 사용하여 용언의 어미나 체언의 접사 등을 제거
    • 분리된 형태소인 어근/어간이 색인어 후보
  • 형태소 분석기
    • 영어 : 포터 스테머
    • 한국어 : KLT

구문 분석 기법 = 구문 / 통사 분석

  • 형태소를 분석한 후 문법을 이용하여 문장의 구조를 분석하는 작업
  • 완전한 구문 분석은 문법과 의미사전 / 의미규칙 등을 이용하여 문장을 완전히 분석하는 것
  • 복잡성에 비해 큰 효과 X

2. N-gram 색인 기법

N-gram

  • N-gram은 텍스트 문자열로부터 추출한 n글자의 하부문자열(substring)을 의미
    • 2-grams (bigrams) : _정, 정보, 보검, 검색, 색론, 론_
    • 3-grams (trigrams) : _정보, 정보검, 보검색, 검색론, 색론_

N-gram 방식에 의해 표현한 두 단어의 유사도 측정

  • 다양한 유사계수 공식 사용 가능
  • 다이스 계수 : $DC = \frac{2C}{(A + B)}$
    • $A$ : 첫번째 단어의 n-gram 개수
    • $B$ : 두번째 단어의 n-gram 개수
    • $C$ : 첫번째 단어와 두번째 단어의 공통된 n-gram 개수

N-gram 색인 & 단어 색인 비교

  • 형태소 분석이나 불용어 제거와 같은 언어학적 처리가 불필요
  • 특정 언어나 주제분야에 의존적 X
    • 다중언어처리를 필요로 하는 상황에 매우 적합
  • 텍스트에 출현한 단어들의 철자 오류를 수용 가능
  • 엄청난 컴퓨터 용량 및 속도 요구

댓글남기기