이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
0. 개요
Luhn (1957)
- 텍스트에 출현한 단어들의 통계적 특성에 의해 색인어를 선정
- 가설
- 문헌에 출현한 단어들은 문헌의 내용 분석을 위해 사용될 수 있다.
- 단어의 출현 빈도가 단어의 주제어로서의 중요성을 측정하는 기준이 된다.
- 최고 한계 빈도와 최저 한계 빈도 안에 속하는 중간 빈도의 단어들이 문헌 내용의 식별력이 크므로 중간빈도어를 색인어로 선정
- 고빈도의 단어는 너무 일반적인 단어이므로 주제어로서의 가치 X (예:- 기능어)
- 저빈도의 단어는 주제어로서의 의미가 X (예: 고유명사, 축약어)
- <그림 3.1> 단어의 빈도와 문헌식별력과의 관계 : 정규분포
Zipf’s Law
- 단어의 Frequency * 단어의 Rank = Constant : 일정
- 1000번 * 1위 = 1000
- 500번 * 2위 = 1000
- 350번 * 3위 = 1050
- 250번 * 4위 = 1000
- 200번 * 5위 = 1000
- 단어의 출현빈도 순위와 단어의 문헌 식별력은 반비례
통계적 기법
- 단어의 출현빈도에 근거하여 주제어로서의 중요도를 측정한 다음 색인어를 선정하는 색인 기법
- 주제어로서의 중요성을 측정하는 방법
- 출현빈도를 직접 이용하는 방법
- 단어의 빈도 산출 방식에 따라 단순빈도와 정규화빈도 사용
- 출현빈도나 출현확률에 근거하여 색인어로서의 가치를 측정하는 방법
- 단어의 문헌분리값 (Term Discrimination Value)
- 신호량가중치 (Signal Weight)
- 적합성 가중치 (Relevance Weight)
- 단어의 출현빈도에 따른 확률분포를 이용하는 방법
- 포아송 분포 모형
- 2-포아송 분포 모형
- 점유 분포에 기반한 단어집중도 모형
색인어 선정 기준으로 출현빈도를 직접 이용하는 통계적 기법의 처리 과정
- 텍스트를 구성하는 각 단어들을 분리한 후 불용어 리스트와 대조하여 비주제어를 제거
- 이떄 제거되는 불용어들은 대개 고빈도 기능어들
- 나머지 단어들을 그대로 또는 어간/어근 형태로 변환하여 각 단어의 출현빈도를 산출
- 각 단어를 출현빈도 가중치 순으로 배열한 후 일정한 기준(threshold) 이상의 값을 갖는 단어를 색인어로 선정
- 검색 결과를 순위화하는 검색 모형에서는 색인어에 가중치를 부여하여 검색 시 검색 문헌의 적합성 값을 산출하는 데에 사용
1. 단순빈도와 정규화빈도 가중치
단순빈도의 종류
- 대부분의 용어 가중치는 아래의 세가지 빈도로부터 산출
- 단어빈도 (Term Frequency ; TF)
- 색인 대상이 되는 각 문헌 $D_i$에 단어 $k$가 출현한 횟수 : $tf_{ik}$
- 특정 문헌에서 특정 단어가 출현한 횟수
- = 문헌 내 단어빈도 = 문헌 내 빈도 (within-document frequency)
- 문헌빈도 (Document Frequency ; DF)
- 단어 $k$가 출현한 문헌의 수
- 전체 문헌집단에서 특정 단어가 출현한 문헌의 수
- 장서빈도 (Collection Frequency ; CF)
- 단어 $k$가 전체 문헌집단에 출현한 총 빈도
- 전체 문헌집단에서 특정 단어가 출현한 횟수
- 이원 색인 (Binary Indexing)
- 가중치 없이 색인어를 선택하는 것
- 가중치 색인 (Weighted Indexing)
- 색인어에 가중치를 부여하는 것
정규화빈도
- 단어빈도를 문헌빈도, 장서빈도, 텍스트 길이 등에 의해 정규화 한 빈도
- 출현빈도를 정규화하지 않은 단순빈도는 문헌집단의 크기, 분석 대상 텍스트의 길이, 단어의 일반적인 사용 빈도 등을 고려하지 않은- 것이기 때문
- 역문헌빈도 (Inverse Document Frequency ; IDF)
- 단어빈도에 곱해지는 문헌빈도의 역의 값
- $IDF = \log \frac{N}{DF_i}$
- $N$ : 전체 문헌집단의 문헌 총 수
- $DF_i$ : 단어 i가 출현한 문헌 수 : 문헌빈도
- TF-IDF 가중치
- 단어빈도를 역문헌빈도에 의해 정규화 한 가중치
- $TF-IDF = TF \times IDF$
- 즉 전체 문헌집단에서는 적게 출현하면서 특정 문헌에서는 높게- 출현하는 것이 good
- 검색 실험에서 용어 가중치로 가장 많이 사용
색인어 = 용어 가중치 구성 요소
- 색인어 가중치는 세가지 요소의 결합으로 구성
- 단어빈도 (TF) 요소 : b / n / a / l
- 역문헌빈도 (IDF) 요소 : n / t
- 문헌길이 정규화 (Document Length Normalization) 요소 : n / c / b / u
- 용어 가중치는 각 요소를 영어 알파벳의 한 문자로 기호화하여 집합하는 코드체계에 의해 간단히 표현
요소 |
유형 |
코드 |
값 / 공식 |
단어빈도 요소 |
이진 TF |
b |
1 or 0 |
단어빈도 요소 |
단순 TF |
n |
실제 출현빈도 |
단어빈도 요소 |
로그 TF |
l |
$1 + \log tf$ |
단어빈도 요소 |
보정 TF |
a |
$\left( 1 - b \right) + b \left( \frac{tf}{max_{tf}} \right)$ |
역문헌빈도 요소 |
사용 O |
t |
$ \log \frac{N}{df} $ |
역문헌빈도 요소 |
사용 X |
n |
|
문헌길이 정규화 요소 |
코사인 정규화 |
c |
$w \ norm = \frac{w_i}{\sqrt{w_1^2 + w_2^2 + \cdots + w_t^2}}$ |
문헌길이 정규화 요소 |
최대_TF 정규화 |
a |
$\frac{w_i}{문헌 \ 벡터를 \ 구성하는 \ 각 \ 용어 \ 출현빈도 \ 중 \ 최대값}$ |
문헌길이 정규화 요소 |
바이트 크기 정규화 |
b |
|
문헌길이 정규화 요소 |
피벗 고유단어 정규화 |
u |
|
문헌길이 정규화 요소 |
사용 X |
n |
|
단어빈도 (TF) 요소
- 이진 (binary) TF : 코드 b
- 1 or 0
- 이원 색인 즉 단어의 문헌 내 출현여부만을 표현하는 경우 사용
- 단순 TF : 코드 n
- 로그 TF : 코드 l
- $1 + \log tf$
- 대규모 문헌집단에서 검색문헌들의 순위화에 있어 가장 좋은 성능
- 보정 TF : 코드 a
- $\left( 1 - b \right) + b \frac{tf}{max_tf}$
- 파라미터 $b$ 값으로 0.5 혹은 0.6 사용
- 단어빈도를 문헌 내 최대빈도로 정규화 한 효과
역문헌빈도 (IDF) 요소
- 역문헌빈도 요소를 사용할 경우 코드는 t
- btn : 이진 TF * IDF
- ntn : 단순 TF * IDF
- ltn : 로그 TF * IDF
- atn : 보정 TF * IDF
- $ IDF = \log \frac{N}{df} $
- 모든 문헌에서 출현한 단어의 경우 $df = N$이 되어 가중치 값이 0이 되므로 $IDF = 1 + \log \frac{N}{df}$을 사용하여 값의 범위 조정 가능
- 역문헌빈도는 문헌빈도가 낮은 단어 즉 적은 수의 문헌에 출현한 단어에 높은 중요도를 부여하는 것
- 많은 문헌에 출현하는 단어는 문헌들을 식별하는 능력이 낮다는 가설에 기초
- 즉 역문헌빈도는 하나의 문헌에서가 아니라 전체 문헌 집단 내에서 특정한 단어가 갖는 문헌 식별 능력을 측정하는 가중치
문헌길이 정규화 요소
- 단어빈도 * 역문헌빈도 로 일차적인 정규화 이후
- 문헌길이에 의한 이차적인 정규화가 필요한 이유
- “일반적으로 긴 문헌의 경우 단어의 출현빈도가 높아지므로 긴 문헌에 출현한 단어들의 가중치가 평균적으로 커지고 이로 인해 질의와의 유사도가 커진다.”
- “긴 문헌은 더 많은 수의 고유한 단어를 포함하므로 긴 문헌이 짧은 문헌보다 질의와의 유사도가 커지게 되고 따라서 긴 문헌이 검색될 확률이 높다.”
- 문헌길이 정규화 방법
- 코사인 정규화 (Cosine Normalization) : 코드 c
- 최대_TF 정규화 (Maximum TF Normalization) : 코드 a
- 바이트 크기 정규화 (Byte Size Normalization) : 코드 b
- 피벗 고유단어 정규화 (Pivoted Unique Normalization) : 코드 u
- 정규화 요소가 없을 경우 : 코드 n
- 코사인 정규화
- 해당 용어 가중치 / 문헌벡터를 구성하는 각 용어 가중치의 자승을 더한 값의 제곤근
- $w \ norm = \frac{w_i}{\sqrt{w_1^2 + w_2^2 + \cdots + w_t^2}}$
- 최대_TF 정규화
- $\frac{해당 \ 용어 \ 출현빈도}{문헌벡터를 \ 구성하는 \ 각 \ 용어 \ 출현빈도 \ 중 \ 최대값}$
- 피벗 정규화 (Pivoted Normalization ; PN)
- 문헌길이 정규화로 인해 긴 문헌의 검색 확률이 지나치게 낮아지는 점을 보완하기 위한 것
- 코사인 정규화를 적용할 경우 짧은 길이의 문헌은 긴 길이의 문헌에 비해 질의에 대한 실제 적합 확률보다 검색확률이 크다는 점을 보완하기 위한 것
- 짧은 길이의 문헌은 부적합 문헌일 경우에도 검색될 가능성이 더 크다는 점을 보완하기 위한 것
- 피벗 (pivot) : 문헌의 길이를 x축으로 하고 검색확률과 적합확률을 y축으로 하여 두 개의 확률 곡선을 그렸을 때 적합확률과 검색확률이 똑같아지는 x축의 중간 지점
- 문헌길이 정규화를 적용하였을 경우 길이가 긴 문헌은 실제 적합확률에 비해 검색확률이 낮아지는 경향이 있으므로
- 피벗 지점 이후에는 적합확률이 곡선이 검색확률 곡선의 위쪽에 위치
- 이렇게 검색확률과 적합확률이 차이가 나는 부분을 교정하기 위한 것이 피벗 정규화
예제
색인어 가중치 코드 = BTC : 이진 TF & IDF & 코사인 정규화
|
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
0 |
2 |
1 |
0 |
1 |
0 |
D2 |
2 |
0 |
0 |
1 |
2 |
0 |
D3 |
2 |
1 |
0 |
0 |
0 |
0 |
D4 |
0 |
0 |
2 |
0 |
0 |
2 |
B |
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
0 |
1 |
1 |
0 |
1 |
0 |
D2 |
1 |
0 |
0 |
1 |
1 |
0 |
D3 |
1 |
1 |
0 |
0 |
0 |
0 |
D4 |
0 |
0 |
1 |
0 |
0 |
1 |
|
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
IDF |
$\log \frac{4}{2}$ |
$\log \frac{4}{2}$ |
$\log \frac{4}{2}$ |
$\log \frac{4}{1}$ |
$\log \frac{4}{2}$ |
$\log \frac{4}{1}$ |
BT |
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
0 |
1 |
1 |
0 |
1 |
0 |
D2 |
1 |
0 |
0 |
2 |
1 |
0 |
D3 |
1 |
1 |
0 |
0 |
0 |
0 |
D4 |
0 |
0 |
1 |
0 |
0 |
2 |
BTC |
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
0 |
$\frac{1}{\sqrt{3}}$ |
$\frac{1}{\sqrt{3}}$ |
0 |
$\frac{1}{\sqrt{3}}$ |
0 |
D2 |
$\frac{1}{\sqrt{6}}$ |
0 |
0 |
$\frac{2}{\sqrt{6}}$ |
$\frac{1}{\sqrt{6}}$ |
0 |
D3 |
$\frac{1}{\sqrt{2}}$ |
$\frac{1}{\sqrt{2}}$ |
0 |
0 |
0 |
0 |
D4 |
0 |
0 |
$\frac{1}{\sqrt{5}}$ |
0 |
0 |
$\frac{2}{\sqrt{5}}$ |
색인어 가중치 코드 = NTC : 단순 TF & IDF & 코사인 정규화
|
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
0 |
2 |
3 |
0 |
1 |
0 |
D2 |
0 |
0 |
0 |
1 |
2 |
0 |
D3 |
3 |
1 |
0 |
0 |
0 |
0 |
D4 |
0 |
0 |
2 |
0 |
0 |
2 |
N |
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
0 |
2 |
3 |
0 |
1 |
0 |
D2 |
0 |
0 |
0 |
1 |
2 |
0 |
D3 |
3 |
1 |
0 |
0 |
0 |
0 |
D4 |
0 |
0 |
2 |
0 |
0 |
2 |
|
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
IDF |
$\log \frac{4}{1}$ |
$\log \frac{4}{2}$ |
$\log \frac{4}{2}$ |
$\log \frac{4}{1}$ |
$\log \frac{4}{2}$ |
$\log \frac{4}{1}$ |
NT |
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
$0 * \log \frac{4}{1}$ |
$1 * \log \frac{4}{2}$ |
$1 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{1}$ |
$1 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{1}$ |
D2 |
$1 * \log \frac{4}{1}$ |
$0 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{2}$ |
$1 * \log \frac{4}{1}$ |
$1 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{1}$ |
D3 |
$1 * \log \frac{4}{1}$ |
$1 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{1}$ |
$0 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{1}$ |
D4 |
$0 * \log \frac{4}{1}$ |
$0 * \log \frac{4}{2}$ |
$1 * \log \frac{4}{2}$ |
$0 * \log \frac{4}{1}$ |
$0 * \log \frac{4}{2}$ |
$1 * \log \frac{4}{1}$ |
NTC |
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
D1 |
$\frac{0}{\sqrt{14}}$ |
$\frac{2}{\sqrt{14}}$ |
$\frac{3}{\sqrt{14}}$ |
$\frac{0}{\sqrt{14}}$ |
$\frac{1}{\sqrt{14}}$ |
$\frac{0}{\sqrt{14}}$ |
D2 |
$\frac{0}{\sqrt{8}}$ |
$\frac{0}{\sqrt{8}}$ |
$\frac{0}{\sqrt{8}}$ |
$\frac{2}{\sqrt{8}}$ |
$\frac{2}{\sqrt{8}}$ |
$\frac{0}{\sqrt{8}}$ |
D3 |
$\frac{6}{\sqrt{37}}$ |
$\frac{1}{\sqrt{37}}$ |
$\frac{0}{\sqrt{37}}$ |
$\frac{0}{\sqrt{37}}$ |
$\frac{0}{\sqrt{37}}$ |
$\frac{0}{\sqrt{37}}$ |
D4 |
$\frac{0}{\sqrt{20}}$ |
$\frac{0}{\sqrt{20}}$ |
$\frac{2}{\sqrt{20}}$ |
$\frac{0}{\sqrt{20}}$ |
$\frac{0}{\sqrt{20}}$ |
$\frac{4}{\sqrt{20}}$ |
2. 단어의 문헌분리값
단어의 문헌분리값 (Term Discrimination Value)
- 한 문헌집단 속에서 특정한 단어가 상호 관련 없는 문헌들을 분리시키는 능력을 측정한 것
- “좋은 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 가능한 한 분리시킨다.”
- “나쁜 색인어는 문헌집단에서 서로 주제가 다른 문헌들을 무리짓게 한다.”
- 좋은 색인어일수록 문헌집단의 밀도를 낮춤으로써 즉 서로 멀리 떨어지게 함으로써
- 해당 색인어로 표현된 주제를 다루고 있는 문헌들을 그렇지 않은 이웃문헌들로부터 쉽게 구별되도록 하여
- 검색을 용이하게 한다는 것
- 특정한 단어의 문헌분리값 = 해당 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌들 간 평균 유사도의 차이
- 좋은 색인어는 이 단어를 문헌집단에서 제거했을 때 문헌들 간 평균 유사도를 증가시키는 결과 초래
문헌분리값 산출과정
- 문헌 $D_i$를 용어들의 벡터로 표현
- $D_i = (w_{i1}, w_{i2}, … w_{ik})$
- $w_{ik}$ : 각 단어의 가중치
- 각 문헌 쌍의 유사도 $S(D_i, D_j)$를 산출하여 평균 : 문헌집단의 평균유사도 $Q$
- 두 문헌의 주제적 관련성은 두 문헌벡터의 유사도에 의해 측정하기 때문
- 유사도 계산에는 다이스 계수 등이 사용
- 평균유사도 = $\frac{1}{n(n-1)} \sum_{i=1}^n \sum_{j=1}^n S(D_i, D_j) (i \neq j)$
- 평균유사도 : 문헌집단의 밀도
- 평균유사도가 클수록 문헌들이 밀집
- 문헌벡터로부터 단어 $k$를 제거한 후의 평균 유사도 $Q_k$와 단어 $k$를 색인어로 부여했을 때의 유사도 $Q$의 차이를 산출 : 단어 $k$의 문헌분리값
- 문헌분리값 = $Q_k - Q$
- 문헌분리값 = 양수 : $Q_k > Q$
- 단어 k는 좋은 색인어
- $Q_k$가 $Q$보다 크다는 것은 단어 $k$를 제거한 후 문헌이 밀집된다는 것 그리고 단어 $k$를 색인어로 부여하면 밀도를 낮출 수 있다는 것을 의미
- 문헌분리값 = 음수 : $Q_k < Q$
- 즉 문헌분리값이 큰 단어일수록 좋은 색인어
- 문헌분리값을 가중치로 사용
- 문헌분리값 자체는 한 문헌집단 내에서 특정한 단어가 색인어로 적합한지를 결정하는 기준
- 문헌분리값을 색인어 선정 기준으로 사용하기 위한 가중치
- $w_{ik} = TF_{ik} *$ 문헌분리값$k$
예제
문헌 - 문헌 유사도를 Dice Coefficient 공식을 이용하여 구하고, T3의 문헌분리값를 계산하고, 색인어로서의 가치를 평가하시오.
문헌 - 용어 행렬
|
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
t7 |
D1 |
1 |
0 |
0 |
1 |
1 |
1 |
0 |
D2 |
0 |
1 |
1 |
0 |
0 |
1 |
1 |
D3 |
1 |
1 |
1 |
1 |
0 |
0 |
1 |
D4 |
1 |
0 |
1 |
0 |
1 |
1 |
0 |
D5 |
0 |
1 |
1 |
1 |
0 |
0 |
1 |
문헌 - 문헌 유사도 : Q3 (T3 제외 후)
|
D1 |
D2 |
D3 |
D4 |
D5 |
D1 |
|
|
|
|
|
D2 |
$\frac{2}{7}$ |
|
|
|
|
D3 |
$\frac{4}{8}$ |
$\frac{4}{7}$ |
|
|
|
D4 |
$\frac{6}{7}$ |
$\frac{2}{6}$ |
$\frac{2}{7}$ |
|
|
D5 |
$\frac{2}{7}$ |
$\frac{4}{6}$ |
$\frac{6}{7}$ |
$\frac{0}{6}$ |
|
$ Q_3 = \frac{2}{7} + \frac{4}{8} + \frac{4}{7} + \frac{6}{7} + \frac{2}{6} + \frac{2}{7} + \frac{2}{7} + \frac{4}{6} + \frac{6}{7} + \frac{0}{6} = 0.46 $
문헌 - 문헌 유사도 : Q (T3 제외 전)
|
D1 |
D2 |
D3 |
D4 |
D5 |
D1 |
|
|
|
|
|
D2 |
$\frac{2}{8}$ |
|
|
|
|
D3 |
$\frac{2}{9}$ |
$\frac{6}{11}$ |
|
|
|
D4 |
$\frac{3}{8}$ |
$\frac{2}{8}$ |
$\frac{2}{9}$ |
|
|
D5 |
$\frac{1}{8}$ |
$\frac{3}{8}$ |
$\frac{4}{9}$ |
$\frac{1}{8}$ |
|
$Q = \frac{2}{8} + \frac{2}{9} + \frac{6}{11} + \frac{3}{8} + \frac{2}{8} + \frac{2}{9} + \frac{1}{8} + \frac{3}{8} + \frac{4}{9} + \frac{1}{8}$
T3의 문헌분리값 $= Q_3 - Q = -0.05 < 0$ 이므로 색인어로서의 가치 X
3. 신호량 가중치
Shannon
- 정보의 개념을 선택의 자유로 간주
- 이는 정보원이 생산할 수 있는 다양한 메시지로부터 하나의 메시지를 선택할 때 부여되는 선택의 자유를 의미
- 선택의 자유가 클수록 어느 메시지가 선택될 것인가에 대한 불확실성 증가
- 불확실성의 크기를 엔트로피로 측정
- 엔트로피는 선택 대상이 되는 메시지들이 갖는 평균정보량 표현
- 평균정보량 = 엔트로피 = 불확실성 = 선택의 자유
- $ H = - \sum_{i=1}^n p_i \log_2 p_i $
- $H$ : $n$개의 메시지가 갖는 평균정보량
- $p_i$ : 메시지 $i$의 발생 확률
- $\log_2 p_i$ : 메시지 $i$가 갖는 정보량
잡음
- 잡음 = 평균정보량 = 엔트로피
- n개의 문헌으로 구성된 문헌집단에서 특정한 단어 k가 갖는 잡음
- 잡음$k$ $= - \sum_{i=1}^n \frac{tf_{ik}}{CF_k} \log_2 \frac{tf_{ik}}{CF_k}$
- $TF_{ik}$ : 각 문헌 Di 내 단어 k의 출현빈도
- $CF_{k}$ : 전체 문헌집단 내 단어 k의 출현빈도 : 장서빈도
- $\frac{TF_{ik}}{CF_k} = P_{ik}$ : 단어 k의 각 문헌 내 출현확률
- 잡음은 단어 k가 전체 문헌집단 내에 고르게 분포되어 있을 때 즉 각 문헌 내 출현빈도가 똑같을 때 큰 값을 갖고
- 잡음이 큰 단어는 문헌들을 식별하는 능력이 적으므로
- 색인어로 적합하지 X
신호량 가중치
- 잡음 공식의 역함수를 취하여 색인어로서의 가치를 결정하는 기준으로 사용
- 신호량$k$ $= \log_2 CF_k -$ 잡음$k$
- 문헌집단에서의 총 출현빈도는 크면서 소수의 문헌에 집중적으로 출현한 단어가 큰 값의 신호량을 갖게 되어 색인어로 선정
- 신호량 가중치를 색인어 선정 기준으로 사용하기 위한 가중치
- $w_{ik} = TF_{ik} \times$신호량$k$
예제
T1의 신호량을 계산하시오.
|
T1 |
D1 |
2 |
D2 |
0 |
D3 |
1 |
D4 |
0 |
D5 |
4 |
D6 |
0 |
D7 |
4 |
D8 |
2 |
D9 |
0 |
D10 |
1 |
D11 |
0 |
D12 |
2 |
CF |
16 |
잡음 $= - [(\frac{2}{16} \times \log \frac{2}{16}) + (\frac{0}{16} \times \log \frac{0}{16}) + (\frac{1}{16} \times \log \frac{1}{16}) + (\frac{0}{16} \times \log \frac{0}{16}) + (\frac{4}{16} \times \log \frac{4}{16}) + (\frac{0}{16} \times \log \frac{0}{16}) + $
$(\frac{4}{16} \times \log \frac{4}{16}) + (\frac{2}{16} \times \log \frac{2}{16}) +(\frac{0}{16} \times \log \frac{0}{16}) + (\frac{1}{16} \times \log \frac{1}{16}) + (\frac{0}{16} \times \log \frac{0}{16}) + (\frac{2}{16} \times \log \frac{2}{16})]$
$= - [(\frac{1}{16} * \log \frac{1}{16}) \times 2 + (\frac{2}{16} \times \log \frac{2}{16}) \times 3 + (\frac{4}{16} \times \log \frac{4}{16}) \times 2] = \frac{21}{8}$
신호량 $= \log_2 16 - \frac{21}{8} = \frac{11}{8}$
4. 적합성 가중치
문헌분리값 & 신호량 가중치 & 적합성 가중치
- 문헌분리값 & 신호량 가중치
- 특정한 단어가 전체 문헌집단 내에서 출현한 빈도를 반영하여 해당 단어가 전체 문헌집단에서 색인어로서 어느 정도의 가치를 갖는지 측정
- 적합성 가중치
- 문헌집단을 구성하는 문헌들을 특정한 질의에 대해 적합문헌과 부적합문헌으로 구별한 후 각 집합에서의 출현빈도를 반영하여 산출
- 문헌의 적합성 정보를 이용
- 단어의 출현빈도 뿐만 아니라 단어가 출현한 문헌의 클래스 또한 고려
적합성 가중치
- 질의 $Q$를 구성하는 단어 $k$에 대하여
- $N$ = 문헌집단 내 문헌 총 수
- $n$ = 단어 $k$를 색인어로 갖는 문헌 수 = 검색 문헌 총 수 = DF
- $R$ = 질의 $Q$에 대한 문헌집단 내 적합 문헌 수 = 적합 문헌 총 수
- $r$ = 질의 $Q$에 대한 적합문헌 중 색인어 $k$가 부여된 문헌 수 = 검색 적합 문헌 총 수
- 문헌의 적합성 분포
|
적합 문헌 |
부적합 문헌 |
전체 |
색인어 k가 부여된 문헌 |
$r$ |
$n - r$ |
$n$ |
색인어 k가 부여되지 않은 문헌 |
$R - r$ |
$(N - n) - (R - r)$ |
$N - n$ |
전체 |
$R$ |
$N - R$ |
$N$ |
- $W1 = \log \frac{r⁄R}{n⁄N}$
- 적합 문헌 내 분포 & 전체 문헌집단 내 분포 비교
- $W2 = \log \frac{r⁄R}{(n-r)⁄(N-R)}$
- 적합 문헌 내 분포 & 부적합 문헌 내 분포 비교
- $W3 = \log \frac{r⁄(R-r)}{n⁄(N-n)}$
- 적합 문헌 내 분포 & 전체 문헌집단 내 분포 비교
- 높은 성능을 보이는 가중치
- $W4 = \log \frac{r⁄(R-r)}{(n-r)⁄(N-n-R+r)}$
- 적합 문헌 내 분포 & 부적합 문헌 내 분포 비교
- 가장 높은 성능을 보이는 가중치
적합성 가중치 초기값
- 초기 검색 이전에는 적합성 정보를 얻을 수 없으므로 적합성 가중치를 산출할 수 X
- 따라서 처음에는 모든 검색어가 적합 문헌에 출현할 확률이 똑같다고 가정하고 초기 값 산출
- $W4 = \log \frac{(N-df)}{df} = \log \frac{(N-n)}{n}$
- $W4 = \log \frac{N}{n}$
- 전체 문헌집단의 크기 $N$이 월등히 클 때 $n$ 무시 가능
- 역문헌빈도(IDF)와 동일
5. 2-포아송 분포 모형
포아송 분포 모형 & 2-포아송 분포 모형
- 확률색인은 기본적으로 주제어와 비주제어의 분포 패턴이 다르다는 가설에 근거
- 포아송 분포 모형
- 단어들이 문헌집단 속에 랜덤하게 분포되어 있는 현상을 설명하는 모형
- 전체 문헌집단에 랜덤하게 분포되어 있는 단어는 색인어로 부적합
- 비주제어(non-specialty word)의 분포 모형
- 2-포아송 분포 모형
- 두개의 포아송 분포를 결합한 것
- 주제어(specialty word)의 분포 모형
포아송 분포 모형
- 포아송 분포 모형은 문헌집단 내 총 출현빈도가 R인 단어가 A개의 문헌들 속에 랜덤하게 분포되어 있는 현상을 포아송 분포 함수로 나타낸 것
- 특정한 단어 w가 한 문헌에 k번 출현할 확률 $P(k) = \pi \frac{e^{-\lambda} \lambda^k}{k!}$
- $\lambda$ : 단어 $w$가 문헌집단 내 각 문헌에 출현한 평균빈도 = 문헌집단 내 총 출현빈도 / 문헌집단 내 문헌 총 수 = $R / A$
2-포아송 분포 모형
- 문헌집단을 특정한 주제에 적합한 클래스와 부적합한 클래스로 구분하면
- 각 클래스 내에서의 단어들의 출현빈도는 포아송 분포를 따른다는 것
- 특정한 주제어 w가 한 문헌에 k번 출현할 확률 $P(k) = \pi \frac{\lambda_1^k e^{-\lambda_1}}{k!} + (1 - \pi) \frac{\lambda_2^k e^{-\lambda_2}}{k!}$
- $\lambda_1$ : 적합문헌 클래스에서 단어 w의 평균 출현빈도
- $\lambda_2$ : 부적합문헌 클래스에서 단어 w의 평균 출현빈도
- $\pi$ : 적합문헌 클래스에 속하는 문헌의 비율
- $1 - \pi$ : 부적합문헌 클래스에 속하는 문헌의 비율
- 2-포아송 분포의 세 파라미터 $\pi$, $\lambda_1, \lambda_2$ 값은 샘플 문헌의 빈도 데이터로부터 샘플 모멘트를 계산한 다음 2-포아송 분포의 모멘트 산출 공식에 대입함으로써 추정할 수 O
- 두 문헌 클래스의 중복도를 측정하는 $z$ 값에 의해 색인어를 선정
- 두 문헌 클래스의 중복도 (degree of overlap) $z = \frac{(\lambda_1 - \lambda_2)}{(\sqrt{\lambda_1 + \lambda_2)}}$
- 단어 $w$의 색인어로서의 가치는 적합문헌 클래스와 부적합문헌 클래스를 가능한 한 멀리 분리시키는 능력에 의해 판정
- 적합문헌 클래스와 부적합문헌 클래스가 중복되는 정도가 적을수록
- 두 클래스의 분포함수의 평균인 $\lambda_1$과 $\lambda_2$의 차이가 클수록
- $\lambda_1$이 $\lambda_2$보다 훨씬 큰 값을 가질수록
- $z$ 값이 클수록
- 단어 $w$는 좋은 색인어로 판정
댓글남기기