[정보검색] 제7장 정보검색 모형 - 제8절 확률 검색
이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
확률 검색 (Probabilistic Retrieval)
- 확률 이론을 사용하여 질의에 대한 문헌의 적합성을 산출하는 검색 기법
- 확률 검색에서는 문헌과 질의 간 유사도를 문헌이 질의에 적합할 확률로써 계산
- 특정한 질문에 대해 각 문헌이 적합할 확률과 부적합할 확률을 산출하여 적합할 확률이 부적합할 확률보다 큰 문헌을 검색하는 것
확률 검색 모형 가정
- 각 문헌은 주어진 질의에 적합하거나 부적합하다.
- 한 문헌에 대한 적합성 판정은 다른 문헌의 적합성에 대해 아무런 영향을 미치지 않는다. (독립)
확률 검색 모형 종류
- Binary Independence Model
- 용어의 출현 여부(1 or 0)만 활용
- $RSV = \sum_{i=1}^n x_i \times \log \frac{p_i (1 - p_i) }{q_i (1 - q_i)}$
- Two-Poisson Independence Model
- 용어의 출현 빈도(TF)까지 고려
- $RSV = \sum_{i=1}^n x_i \times \log_2 \frac{u_i}{v_i}$
확률 검색 공식 유도
- 대부분의 확률 검색 모형은 적합문헌과 부적합문헌 내 색인어의 출현정보에 기초
- 문헌 $X$를 용어들의 이원벡터로 표현
- $X = (x1, x2, \cdots, xn)$
- $x_i$ : 용어 ti의 출현 여부를 표현 (1 or 0)
- 문헌 X는 특정한 질문에 대해 적합하거나 부적합할 두가지 경우 중 하나에 해당
- 결과적으로 검색 결정규칙 $P(rel \mid X) > P(nonrel \mid X)$을 만족시키는 문헌이 검색
- 실제로 두 확률을 직접 산출하기 어려우므로 베이즈 정리를 이용하여 검색 결정규칙을 변형
- $\frac{P(X \mid rel)}{P(X \mid nonrel)} > \frac{P(nonrel)}{P(rel)}$
- $P(rel \mid X)$ : 문헌 $X$가 적합할 확률
- $P(nonrel \mid X)$ : 문헌 $X$가 부적합할 확률
- $P(rel)$ : 적합할 사전확률
- $P(nonrel)$ : 부적합할 사전확률
- $\frac{P(X \mid rel)}{P(X \mid nonrel)} > \frac{P(nonrel)}{P(rel)}$
- 문헌의 적합성 값을 산출하기 위해 적합성 함수 표현
- 결과적으로 검색되는 각 문헌에는 이에 따라 적합성 순위 부여
- $g(X) = \log \frac{P(X \mid rel)}{P(X \mid nonrel)}$
- 문헌 $X$가 적합문헌일 때 색인어 ti가 부여될 확률 : $p_i = P(x_i = 1 \mid rel)$
- 문헌 $X$가 적합문헌일 때 색인어 ti가 부여되지 않을 확률 : $1 - p_i$
- 문헌 $X$가 부적합문헌일 때 색인어 ti가 부여될 확률 : $q_i = P(x_i = 1 \mid nonrel)$
- 문헌 $X$가 부적합문헌일 때 색인어 ti가 부여되지 않을 확률 : $1 - q_i$
- $g(X) = \sum_{i=1}^n x_i \times \log \frac{ p_i (1 - p_i) }{ q_i (1 - q_i) }$
적합성 정보가 준비되어 있지 않은 경우의 초기검색 전략
- 초기검색에서 모든 질의어는 적합문헌에서 발생할 확률 $p_i$가 동일하다고 가정하고 적합성 함수를 수정하여 사용
- $g(X) = \sum_{i=1}^n x_i \times \log \frac{N - n_i}{n_i}$
- $n_i$ : 색인어 $t_i$가 부여된 문헌의 수
- $n_i$ 값이 작을 경우 각 검색어의 초기 가중치 $\log \frac{N-n_i}{n_i}$는 역문헌빈도 값과 유사
- 초기 가중치를 이용하여 검색한 다음 적합성 판정을 통해 각 문헌의 적합성 가중치를 다시 산출하여 검색문헌을 재순위화
예제) 문헌 A ,B, C, D에 두개의 용어 t1, t2가 아래와 같이 출현하고 p1=1/3, q1=0.2, p2=q2=0.1일 때, 문헌 C의 가중치(RSV: Retrieval Status Value)를 구하시오.
t1 | t2 | |
---|---|---|
A | 0 | 0 |
B | 0 | 1 |
C | 1 | 0 |
D | 1 | 1 |
$RSVc = x_1 \times \log_2 \frac{p_1/(1-p_1)}{q_1/(1-q_1)} + x_2 \times \log_2 \frac{p_2/(1-p_2)}{q_2/(1-q_2)} = 1 * \log_2 \frac{0.33/0.67}{0.2/0.8} + 0 \times \log_2 \frac{0.1/0.9}{0.1/0.9} = 1$
예제) 문헌 A ,B, C, D에 두개의 용어 t1, t2가 아래와 같이 출현하고 u1=2, v1=1, u2=2, v2=1일 때, 문헌 D의 가중치(RSV: Retrieval Status Value)를 구하시오.
t1 | t2 | |
---|---|---|
A | 1 | 0 |
B | 0 | 3 |
C | 1 | 2 |
D | 2 | 1 |
$RSVd = \sum_{i=1}^n x_i \times \log_2 \frac{u_i}{v_i} = x_1 \times \log_2 \frac{u_1}{v_1} + x_2 \times \log_2 \frac{u_2}{v_2} = 2 \times \log_2 \frac{2}{1} + 1 \times \log_2 \frac{2}{1} = 3$
예제) 다음과 같이 t1, t2의 문헌출현빈도가 주어졌을 때 이진독립모형과 2-포아송독립모형을 활용하여 문헌 H의 가중치(RSV)를 구하시오.
이진독립모형
클래스 | t1 | t2 | |
---|---|---|---|
A | 적합문헌 | 1 | 0 |
B | 부적합문헌 | 0 | 0 |
C | 부적합문헌 | 0 | 0 |
D | 적합문헌 | 1 | 0 |
E | 적합문헌 | 0 | 1 |
F | 부적합문헌 | 1 | 0 |
G | 부적합문헌 | 0 | 1 |
H | 적합문헌 | 1 | 1 |
$p_i$ = 용어 i의 적합문헌 클래스의 출현 문헌 수 / 적합문헌 클래스의 문헌 수
$q_i$ = 용어 i의 부적합문헌 클래스의 출현 문헌 수 / 부적합문헌 클래스의 문헌 수
$p_1 = 3 / 4$
$q_1 = 1 / 4$
$p_2 = 2 / 4$
$q_2 = 1 / 4$
$RSVh = \sum_{i=1}^n xi \times \log_2 \frac{p_i/(1-p_i)}{q_i/(1-q_i)} = x_1 \times \log_2 \frac{p_i/(1-p_1)}{q_1/(1-q_1)} + x_2 \times \frac{p_2/(1-p_2)}{q_2/(1-q_2)}$
$= 1 \times \log_2 \frac{0.75/0.25}{0.25/0.75} + 1 \times \log_2 \frac{0.5/0.5}{0.25/0.75} = 3 \log_2 3$
2-포아송독립모형
클래스 | t1 | t2 | |
---|---|---|---|
A | 적합문헌 | 3 | 0 |
B | 부적합문헌 | 0 | 0 |
C | 부적합문헌 | 0 | 0 |
D | 적합문헌 | 3 | 0 |
E | 적합문헌 | 0 | 2 |
F | 부적합문헌 | 2 | 0 |
G | 부적합문헌 | 0 | 1 |
H | 적합문헌 | 2 | 2 |
$u_i$ = 용어 i의 적합문헌 클래스에서의 출현 횟수 / 적합문헌 클래스의 문헌 수
$v_i$ = 용어 i의 부적합문헌 클래스에서의 출현 횟수 / 부적합문헌 클래스의 문헌 수
$u_1 = 8 / 4 = 2$
$u_2 = 4 / 4 = 1$
$v_1 = 2 / 4 = 1 / 2$
$v_2 = 1 / 4$
$RSVh = \sum_{i=1}^n x_i \times \log_2 \frac{u_i}{v_i} = x_1 \times \log_2 \frac{u_1}{v_1} + x_2 \times \log_2 \frac{u_2}{v_2} = 2 \times \log_2 \frac{2}{1/2} + 2 \times \log_2 \frac{1}{1/4} = 8$
언어모형(Language Model) 기반 확률 검색
- 문헌들로부터 질의를 생성하는 과정에 초점
- 색인어로 표현된 문헌 모형으로부터 특정 질의를 생성할 확률을 산출하여 문헌들을 순위화시키는 것
- 용어 가중치에 기반한 문헌 검색을 다양한 수학적 공식에 의해 표현하는 새로운 접근방법
-
질의는 $Q$, 문헌 $d$의 모형은 $M_d$일 때 질의 생성 확률 $P(Q M_d)$을 산출하는 것
단일 질의어로 구성된 질의의 생성 확률
- 최우추정법에 의하여 단일 질의어 $t$로 구성된 질의에 대한 $P(Q \mid M_d)$ 산출
- $P_{MLE}(t,d) = \frac{tf(t,d)}{\left\vert d \right\vert}$
- $tf(t,d)$ : 질의어 $t$가 문헌 $d$에서 출현한 빈도
- $\left\vert d \right\vert$ : 문헌 $d$의 길이 = 문헌 $d$에 출현한 모든 단어의 수
복수 질의어로 구성된 질의의 생성 확률
- 질의를 구성하는 각 질의어에 대해 문헌이 적합할 확률을 모두 곱한 값
- $P(Q \mid M_d) = \prod P_{MLE}(t,d)$
- 문헌에 출현하지 않은 질의어가 있을 경우 미출현 질의어에 대한 확률은 0이 되어 결국 질의 생성 확률이 0이 되는 문제 발생
- 따라서 각 질의어에 대한 $P(t \mid d)$ 산출 시 단어의 문헌 내 출현빈도(TF)에 장서빈도(CF)를 추가하여 질의 생성 확률이 0이 되는 것을 방지하는 값 조정(smoothing) 방법을 사용
Jelinek-Mercer 방법
- $P(t \mid d) = \frac{ (1 - \lambda) tf(t,d) }{ \left\vert d \right\vert} + \lambda P(t \mid C)$
- $P(t \mid C)$ : 질의어 t의 장서빈도(Cf)를 장서 내 모든 용어의 수로 나눈 값
- $\lambda$ : 두 항의 비중을 나타내는 가중치
전통적인 확률 검색 vs. 언어모형 기반 확률 검색의 차이점
- 기준 : 검색 과정을 보는 관점
- 전통적인 확률 검색 : 질의에 대해 문헌이 적합할 확률을 산출하여 문헌들을 순위화하는 과정
- 언어모형 기반 확률 검색 : 문헌으로부터 질의를 생성할 확률을 산출하여 문헌들을 순위화하는 과정
댓글남기기