김채형 (Chaehyeong Kim)

김채형 (Chaehyeong Kim)

Archive

[정보검색] 제3장 텍스트의 자동색인 - 자동색인 개요

June 5, 2020

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

1. 자동색인 개념

컴퓨터에 입력된 문헌의 텍스트를 분석한 후 문헌의 내용을 대표할 수 있는 단어나 단어구를 일정한 기준에 의해 추출하여 색인어로 선정하는 작업
자동색인 알고리즘
- 텍스트를 구성하는 단어들을 먼저 주제어와 비주제어로 구분한 후
- 주제어를 모두 색인어로 선택 또는 주제어들 가운데 핵심 주제어만을 색인어로 선정
- 비주제어는 특정한 문헌의 주제를 표현하기에 부적합한 용어들
- 흔히 불용어(stop words)로 처리
자동색인 대상
- 텍스트 : 논문의 표제 / 초록 / 전문 / 디스크립터

2. 자동색인 기본 가설

문헌에 출현한 단어들은 문헌의 내용 분석을 위해 사용될 수 있다
- 자동색인 기법 전반에 적용되는 가설
단어의 출현빈도가 주제어로서의 중요성을 측정하는 기준이 된다.
- 통계적 기법에 적용되는 가설
특정한 구문적 기능을 수행하는 단어나 단어구가 문헌의 내용을 대표한다.
- 언어학적 기법에 적용되는 가설
문헌 내 특정한 위치에 출현한 단어나 단어구가 문헌의 내용을 대표한다.
- 문헌구조적 기법에 적용되는 가설

3. 자동색인 알고리즘 구성요소

색인어 선정 기준
1. 통계적 기준
2. 언어학적 기준
3. 문헌구조적 기준
색인어 가중치
- 선정된 색인어에 부여되는 가중치 = 색인어가 해당 문헌의 표현하는 정도= 색인어로서의 중요도
- 색인어 선정 시 사용
- 검색 시 문헌 벡터를 구성하는 각 용어의 가중치 (term weight) 로 사용

4. 전형적인 자동색인 과정

색인 대상 문헌집단에 출현한 단어들을 식별한다.
불용어 리스트(stop words list)를 사용하여 빈도가 높은 기능어 및 주제어로서 가치가 없는 기타 고빈도어들을 제거한다.
형태소 분석기나 어간/어근 분리 프로그램을 사용하여 단어의 어간어근을 분리하여 색인어로 채택한다.
문헌 $D_i$를 표현하는 어간/어근 형태의 각 단어 $t_{ij}$에 대해 가중치를 부여한다.
어간/어근 형태의 색인어와 가중치 쌍의 집합으로 각 문헌을 표현한다.

5. 자동색인 기법 종류

색인어를 선정하는 기준에 따라
1. 통계적 기법
2. 언어학적 기법
  - 어휘 분석 단계 > 형태소 분석 단계 > 통사/구문 분석 단계 > 의미 분석 단계
3. 문헌구조적 기법
  - 문헌 속에 단어가 나타난 위치에 의해 색인어를 선정하는 기법
  - 특정 부분에 나타난 주제어들을 색인어로 선정하는 방법
  - 주제적 문장을 선택하여 이들 문장 속에 나타난 주제어를 색인어로 선정하는 방법

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

[NLP] 허깅페이스 (HuggingFace) 텍스트 생성 (Text Generation) 방법

February 9, 2023

이 글은 HuggingFace 내 transformers 라이브러리를 활용하여 텍스트를 생성하는 방법에 관한 기록입니다.

[macOS] Homebrew를 이용하여 Anaconda 설치

November 12, 2021

이 글은 macOS에서 Homebrew를 이용하여 Anaconda를 설치하는 방법에 관한 기록입니다.

[macOS] 깃허브 블로그를 위한 Homebrew 및 Ruby 설치

November 11, 2021

이 글은 깃허브 블로그를 만들고자 Homebrew와 Ruby를 설치하는 방법에 관하여 정리한 기록입니다.

[macOS] CUDA를 사용하도록 PyTorch 설치

November 5, 2021

이 글은 macOS에서 CUDA를 사용할 수 있도록 PyTorch를 설치하는 방법에 관한 기록입니다.