김채형 (Chaehyeong Kim)

김채형 (Chaehyeong Kim)

Archive

[정보검색] 제3장 텍스트의 자동색인 - 언어학적 기법 & N-gram 색인 기법

June 7, 2020

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

1. 언어학적 기법

단어사전 파일을 활용
자연언어 처리 단계에 따라
- 어휘 분석
- 형태소 분석
- 구문 분석
- 의미 분석
등 여러 수준에서 정의

불용어 제거 기법

가장 간단한 어휘 분석 수준의 색인 기법
텍스트 내의 각 어절을 분리한 다음 불용어 리스트와 비교하여 불용어를 제외한 나머지 단어들을 색인어로 선택하는 기법
한국어의 경우 띄어쓰기를 기준으로 분리되는 어절에 “체언+조사” 형태가 포함되므로 조사, 의존명사, 대명사 등의 불용어를 분리하여 제거하기가 쉽지 X

형태소 분석 기법

텍스트 내 단어들을 형태소 단위로 분리한 다음 색인어를 선정하는 기법
- 어간/어근 분리 알고리즘을 사용하여 용언의 어미나 체언의 접사 등을 제거
- 분리된 형태소인 어근/어간이 색인어 후보
형태소 분석기
- 영어 : 포터 스테머
- 한국어 : KLT

구문 분석 기법 = 구문 / 통사 분석

형태소를 분석한 후 문법을 이용하여 문장의 구조를 분석하는 작업
완전한 구문 분석은 문법과 의미사전 / 의미규칙 등을 이용하여 문장을 완전히 분석하는 것
복잡성에 비해 큰 효과 X

2. N-gram 색인 기법

N-gram

N-gram은 텍스트 문자열로부터 추출한 n글자의 하부문자열(substring)을 의미
예
- 2-grams (bigrams) : _정, 정보, 보검, 검색, 색론, 론_
- 3-grams (trigrams) : _정보, 정보검, 보검색, 검색론, 색론_

N-gram 방식에 의해 표현한 두 단어의 유사도 측정

다양한 유사계수 공식 사용 가능
다이스 계수 : $DC = \frac{2C}{(A + B)}$
- $A$ : 첫번째 단어의 n-gram 개수
- $B$ : 두번째 단어의 n-gram 개수
- $C$ : 첫번째 단어와 두번째 단어의 공통된 n-gram 개수

N-gram 색인 & 단어 색인 비교

형태소 분석이나 불용어 제거와 같은 언어학적 처리가 불필요
특정 언어나 주제분야에 의존적 X
- 다중언어처리를 필요로 하는 상황에 매우 적합
텍스트에 출현한 단어들의 철자 오류를 수용 가능
엄청난 컴퓨터 용량 및 속도 요구

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

[NLP] 허깅페이스 (HuggingFace) 텍스트 생성 (Text Generation) 방법

February 9, 2023

이 글은 HuggingFace 내 transformers 라이브러리를 활용하여 텍스트를 생성하는 방법에 관한 기록입니다.

[macOS] Homebrew를 이용하여 Anaconda 설치

November 12, 2021

이 글은 macOS에서 Homebrew를 이용하여 Anaconda를 설치하는 방법에 관한 기록입니다.

[macOS] 깃허브 블로그를 위한 Homebrew 및 Ruby 설치

November 11, 2021

이 글은 깃허브 블로그를 만들고자 Homebrew와 Ruby를 설치하는 방법에 관하여 정리한 기록입니다.

[macOS] CUDA를 사용하도록 PyTorch 설치

November 5, 2021

이 글은 macOS에서 CUDA를 사용할 수 있도록 PyTorch를 설치하는 방법에 관한 기록입니다.