[정보검색] 제7장 정보검색 모형 - 제11절 검색 성능 평가 척도
이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
정보검색시스템의 평가
- 정보검색시스템의 평가는 검색 성능(retrieval performance)이 가장 중요한 평가 기준
- 검색 성능
- 검색의 효율성 (efficiency) : 검색 속도 또는 응답 속도
- 검색의 효과성 (effectiveness) : 검색 결과의 정확성
검색 성능 척도 종류
적합문헌 | 부적합문헌 | ||
---|---|---|---|
검색된 문헌 | a | b | a+b |
검색되지 않은 문헌 | c | d | |
a+c | b+d | a+b+c+d |
- 재현율
- $\frac{a}{a+c}$
- 정확률
- $\frac{a}{a+b}$
- 누락률 (Snobbery Ratio)
- 검색되지 않은 적합문헌의 비율 = 1 - 재현율
- $1 - \frac{a}{a+c}$
- 잡음률 (Noise Factor)
- 검색된 부적합문헌의 비율 = 1 - 정확률
- $1 - \frac{a}{a+b}$
- 부적합률 (Fallout Ratio)
- 전체 부적합문헌 중 검색된 문헌의 비율 = 1 - 배제율
- $\frac{b}{b+d}$
- 배제율 (Correct-rejection Ratio)
- 전체 부적합문헌 중 검색되지 않은 문헌의 비율 = 1 - 부적합률
- $\frac{d}{b+d}$
- 보편율
- $\frac{a+c}{a+b+c+d}$
평균재현율 & 평균정확률
- 검색시스템의 성능 평가를 위해서는 충분한 수의 질의에 대해 검색을 수행한 후 각각의 검색 결과로부터 재현율과 정확률의 평균값을 구하는 것이 필요
- 평균값을 구하기 위한 두가지 접근방법
- 매크로 평가 (Macro Evaluation)
- 마이크로 평가 (Micro Evaluation)
매크로 평가 (Macro Evaluation)
- 질의의 수가 $n$개일 때 각 질의에 대한 재현율과 정확률을 각각 따로 계산한 다음 이들을 모두 더하여 $n$으로 나누어준 값을 평균재현율과 평균정확률로 사용
- 평균재현율 = $\frac{1}{n} \sum_{i=1}^n \frac{검색된 \ 적합문헌의 \ 수}{적합문헌의 \ 수}$
- 평균정확률 = $\frac{1}{n} \sum_{i=1}^n \frac{검색된 \ 적합문헌의 \ 수}{검색문헌의 \ 수}$
- 질의지향적 방법
- 질의 단위로 평균을 내는 것이기 때문
- 이용자가 시스템에 기대할 수 있는 검색 성능
- 일반적으로 흔히 사용
마이크로 평가 (Micro Evaluation)
- 먼저 $n$개의 질의에 대한 적합문헌의 수, 검색문헌의 수, 검색된 적합문헌의 수 등을 다 더한 다음 합한 값이 각각 재현율과 정확률 공식의 분자와 분모가 되도록 하여 평균재현율과 평균정확률을 구하는 방법
- 평균재현율 = $\frac{ \sum_{i=1}^n 검색된 \ 적합문헌의 \ 수 }{ \sum_{i=1}^n 적합문헌의 \ 수 }$
- 평균정확률 = $\frac{ \sum_{i=1}^n 검색된 \ 적합문헌의 \ 수 }{ \sum_{i=1}^n 검색문헌의 \ 수 }$
- 문헌지향적 방법
- 문헌 단위로 평균을 구하는 것이기 때문
- 시스템 입장에서 본 검색 성능
예제) 매크로 평가에서의 평균재현율과 평균정확률, 마이크로 평가에서의 평균재현율과 평균정확률을 각각 구하시오.
질의 | 적합문헌의 수 | 검색문헌의 수 | 검색된 적합문헌의 수 |
---|---|---|---|
1 | 10 | 3 | 2 |
2 | 3 | 3 | 2 |
매크로 평가
평균재현율 = $\frac{1}{2} \times ( \frac{2}{10} + \frac{2}{3}) = 0.43$
평균정확률 = $\frac{1}{2} \times ( \frac{2}{3} + \frac{2}{3}) = 0.67$
마이크로 평가
평균재현율 = $\frac{2+2}{10+3}$
평균정확율 = $\frac{2+2}{3+3}$
F 척도 (F-measure)
- 재현율과 정확률은 보통 한 쌍이 함께 사용되어 검색 성능을 나타내므로 두 개 이상의 시스템의 성능을 비교할 경우 어느 시스템의 성능이 확실하게 더 나은지를 판단하기 어려울 수 O
- 재현율과 정확률을 복합적으로 반영하는 단일가 척도인 F 척도 사용
- F 척도는 E 척도에 기반
- $F = 1 - E$
- $E = 1 - \frac{1}{\alpha \times \frac{1}{P} + (1-\alpha) \times \frac{1}{R} } = 1 - \frac{(\beta^2+1) P R}{\beta^2 P + R}$
- $R$ : 재현율
- $P$ : 정확률
- $\alpha, \beta$ : 이용자가 정확률과 재현율에 부여하는 상대적인 중요도를 나타내는 파라미터
- $\beta = \frac{1}{2}$ : 재현율의 중요도가 정확률의 1/2배가 되는 경우
- $\beta = 2$ : 재현율의 중요도가 정확률의 2배가 되는 경우
- $\beta = 1$ : 재현율과 정확률에 동일한 중요도를 부여한 경우
- E 척도는 값이 작을수록 높은 성능
- F 척도는 값이 클수록 높은 성능 ($F = 1 - E$)
- 일반적으로 많이 사용되는 F 척도
- 재현율과 정확률에 동일한 중요도를 부여한 경우 ($\beta = 1$)
- $F = \frac{2 P R }{P + R}$
11-지점 평균정확률 (11-point Average Precision)
- 검색결과가 순위화되지 않는 시스템에서는 일반적으로 재현율과 정확률을 한 쌍으로 하여 검색 성능을 측정하지만
- 검색된 문헌이 적합성 점수에 따라 순위화되어 제공되는 시스템에서는 적합문헌을 상위에 출력할수록 검색 성능이 높게 평가
- $0.1, 0.2, \cdots , 1.0$ 등 표준적인 재현율 수준에서의 정확률을 산출하여 성능 곡선을 그려 서로 비교
- 각 수준에서의 정확률을 더한 다음 평균을 산출하여 비교
- 11-지점 평균정확률
- 11개의 표준 재현율 수준에서의 정확률 값을 구해 평균을 낸 것
- (질의 Q에 대하여) 문헌 순위에 따른 재현율-정확률
문헌순위 | 문헌번호 | 적합/부적합 | 재현율 | 정확률 |
---|---|---|---|---|
1 | 25 | 적합문헌 | 0.2 | 1.0 |
2 | 130 | 적합문헌 | 0.4 | 1.0 |
3 | 29 | 부적합문헌 | 0.4 | 0.67 |
4 | 14 | 적합문헌 | 0.6 | 0.75 |
5 | 372 | 부적합문헌 | 0.6 | 0.60 |
6 | 48 | 적합문헌 | 0.8 | 0.67 |
7 | 55 | 부적합문헌 | 0.8 | 0.57 |
8 | 43 | 부적합문헌 | 0.8 | 0.50 |
9 | 123 | 부적합문헌 | 0.8 | 0.44 |
10 | 8 | 부적합문헌 | 0.8 | 0.40 |
11 | 35 | 부적합문헌 | 0.8 | 0.36 |
12 | 117 | 부적합문헌 | 0.8 | 0.33 |
13 | 21 | 적합문헌 | 1.0 | 0.38 |
14 | 5 | 부적합문헌 | 1.0 | 0.36 |
- 재현율 수준이 표준화되어 있지 X
- 한 개의 재현율 값이 여러 개의 정확률 값을 갖는 경우가 O
- 11개의 표준 재현율 수준에서 고유한 정확률 값을 갖도록 보간법을 사용
- 재현율 수준 $i$에서의 정확률은 $i$나 $i$보다 큰 실제 재현율 수준에서 가장 큰 정확률 값으로 선택
- 평균정확률
- 질의 $n$개에 대해 재현율 수준 $r$에서의 평균정확률 $P_{AVE}(r)$은 각 질의 i에 대한 정확률 $P_i(r)$을 모두 더한 다음 질의의 수 $n$으로 나누어 산출
- $P_{AVE}(r) = \frac{\sum_{i=1}^n P_i(r)}{n}$
- 11-지점 평균정확률
- 각 재현율 수준에서의 평균정확률 $P_{AVE}(r)$를 더해 11로 나누어 산출
n-순위 정확률
- 검색 결과가 순위화되는 시스템에서는 가능한 한 적합문헌이 상위 수준에 오도록 순위화하는 능력이 중요
- 적합문헌이 상위 수준에 검색되도록 하는 성능을 평가하고자 할 때에는 n개의 문헌이 검색된 다음 정확률을 산출
- n 순위에서의 정확률을 산출하는 것
적합문헌 평균정확률 (Mean Average Precision ; MAP)
- 적합문헌을 상위에 오도록 검색하는 능력을 평가하는 척도
- 각 적합문헌이 검색될 때마다 측정한 정확률의 평균
- 모든 적합문헌에 대한 정확률의 평균을 낸 것
R-정확률 (R-Precision)
- 대규모 문헌집단을 대상으로 한 검색실험에서 적합문헌의 수가 매우 많을 때 유용한 검색 성능 척도
- R은 질의에 대해 적합한 문헌의 수로서 R-정확률은 R개의 문헌이 검색된 후 측정한 정확률
- 예시) 질의에 대한 적합문헌의 수가 20개일 경우 상위 20개의 문헌이 검색된 다음 정확률을 산출
정확률 히스토그램 (Precision Histogram)
- 적합문헌 평균정확률과 R-정확률
- 검색 알고리즘의 비교를 위한 척도일 뿐만 아니라
- 질의 별 성능을 비교하기 위한 척도로 또한 적합
- 정확률 히스토그램
- 질의 별 성능을 비교하는 방법
- 각 질의 별로 산출한 평균정확률 혹은 R-정확률의 차이를 그래프로 나타내는 것
- 비교 대상이 되는 알고리즘이 여러 개일 경우 평균 성능을 산출한 다음 각 알고리즘의 성능에서 평균 성능을 뺀 값으로 각 알고리즘의 성능을 평가할 수도 O
댓글남기기