[정보검색] 제3장 텍스트의 자동색인 - 언어학적 기법 & N-gram 색인 기법
이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
1. 언어학적 기법
- 단어사전 파일을 활용
- 자연언어 처리 단계에 따라
- 어휘 분석
- 형태소 분석
- 구문 분석
- 의미 분석
- 등 여러 수준에서 정의
불용어 제거 기법
- 가장 간단한 어휘 분석 수준의 색인 기법
- 텍스트 내의 각 어절을 분리한 다음 불용어 리스트와 비교하여 불용어를 제외한 나머지 단어들을 색인어로 선택하는 기법
- 한국어의 경우 띄어쓰기를 기준으로 분리되는 어절에 “체언+조사” 형태가 포함되므로 조사, 의존명사, 대명사 등의 불용어를 분리하여 제거하기가 쉽지 X
형태소 분석 기법
- 텍스트 내 단어들을 형태소 단위로 분리한 다음 색인어를 선정하는 기법
- 어간/어근 분리 알고리즘을 사용하여 용언의 어미나 체언의 접사 등을 제거
- 분리된 형태소인 어근/어간이 색인어 후보
- 형태소 분석기
- 영어 : 포터 스테머
- 한국어 : KLT
구문 분석 기법 = 구문 / 통사 분석
- 형태소를 분석한 후 문법을 이용하여 문장의 구조를 분석하는 작업
- 완전한 구문 분석은 문법과 의미사전 / 의미규칙 등을 이용하여 문장을 완전히 분석하는 것
- 복잡성에 비해 큰 효과 X
2. N-gram 색인 기법
N-gram
- N-gram은 텍스트 문자열로부터 추출한 n글자의 하부문자열(substring)을 의미
- 예
- 2-grams (bigrams) : _정, 정보, 보검, 검색, 색론, 론_
- 3-grams (trigrams) : _정보, 정보검, 보검색, 검색론, 색론_
N-gram 방식에 의해 표현한 두 단어의 유사도 측정
- 다양한 유사계수 공식 사용 가능
- 다이스 계수 : $DC = \frac{2C}{(A + B)}$
- $A$ : 첫번째 단어의 n-gram 개수
- $B$ : 두번째 단어의 n-gram 개수
- $C$ : 첫번째 단어와 두번째 단어의 공통된 n-gram 개수
N-gram 색인 & 단어 색인 비교
- 형태소 분석이나 불용어 제거와 같은 언어학적 처리가 불필요
- 특정 언어나 주제분야에 의존적 X
- 다중언어처리를 필요로 하는 상황에 매우 적합
- 텍스트에 출현한 단어들의 철자 오류를 수용 가능
- 엄청난 컴퓨터 용량 및 속도 요구
댓글남기기