[정보검색] 제7장 정보검색 모형 - 제3절 불리언 검색
이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.
불리언 검색 개념
- 불 대수(Boolean Algebra)를 이용하여 질의를 만족시키는 문헌들을 검색하는 기법
- 불리언 검색문
- 불리언 검색에서 사용하는 질의
- 키워드 형태의 검색어와 검색어들 간의 논리적 관계로 구성
- 불리언 연산자
- 검색어들 간의 관계를 표현
- AND, OR, NOT
도치색인 = 역색인 (Inverted Index)
- 불리언 검색에서는 도치색인/역색인을 사용하여 불리언 검색문을 처리
- 도치색인은 사전파일과 문헌번호파일로 구성
- 문헌번호파일에 수록된 단어번호는 검색어들이 인접해서 출현한 경우에만 검색하도록 하는 인접검색(Proximity Searching)을 가능하도록 O
- Proximity Operator : WITH / SAME / ADJ
- A with B : 같은 문단에 출현한 경우
- A same B : 같은 문장에 출현한 경우
- A adj B : A와 B 사이에 단어가 3개 이내인 경우
불리언 검색 처리 과정
- K1 리스트 = D1, D2, D3, D4
- K2 리스트 = D1, D2
- K3 리스트 = D1, D2, D3
- K4 리스트 = D1
- 검색문 = (K1 AND K2) OR (K3 AND (NOT K4))
- K1 AND K2 => {D1, D2} 생성
- K3 AND (NOT K4) => {D2, D3} 생성
- OR => {D1, D2, D3}이 최종 검색문헌 집합
불리언 검색 장점
- 쉬운 구현
- 질의 처리 시간 측면에서 매우 효율적
- 상용 시스템에서 가장 보편적으로 채택
- 높은 검색 성능
- 검색 논리를 만족시키는 문헌만을 검색하기 때문
불리언 검색 문제점
- 불리언 검색에서는 검색어가 표현하는 개념 간의 상대적인 중요도를 나타낼 수 없다. 즉 질의를 구성하는 모든 검색어는 1이라는 동일한 가중치를 갖게 되므로 질의를 구성하는 한 개념이 다른 개념에 비해 더욱 중요하게 다루어진 문헌만을 검색하는 일이 불가능하다는 것이다.
- 검색된 문헌들을 질의에 대한 적합성 정도에 따라 순위화할 수 없다. 전통적인 불리언 검색에서는 색인어에 가중치를 주지 않아도 되기 때문에 검색된 문헌들은 모두 동일한 적합성을 갖게 된다. 따라서 적합성 값에 따른 순위화가 불가능하다. 그러나 최근에는 온라인 데이터베이스 서비스나 웹 검색엔진 등과 같은 불리언 검색 시스템들도 적합성 순위에 따라 검색결과를 출력하고 있다. 적합성 값은 주로 검색문헌에 출현한 용어의 출현빈도, 출현위치, 그리고 검색어가 둘 이상인 경우 용어 출현의 인접성 등을 이용하여 부여한다.
- 불리언 검색문과 완전히 일치하는 문헌들만 검색된다. 즉 검색 결과 문헌집단은 검색논리를 만족시키는 문헌들의 집합과 그렇지 않은 문헌들의 집합으로 양분되므로 질의를 부분적으로 만족시키는 문헌들은 검색되지 않는다.
댓글남기기