[정보검색] 제7장 정보검색 모형 - 제3절 불리언 검색

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

불리언 검색 개념

  • 불 대수(Boolean Algebra)를 이용하여 질의를 만족시키는 문헌들을 검색하는 기법
  • 불리언 검색문
    • 불리언 검색에서 사용하는 질의
    • 키워드 형태의 검색어와 검색어들 간의 논리적 관계로 구성
  • 불리언 연산자
    • 검색어들 간의 관계를 표현
    • AND, OR, NOT

도치색인 = 역색인 (Inverted Index)

  • 불리언 검색에서는 도치색인/역색인을 사용하여 불리언 검색문을 처리
  • 도치색인은 사전파일과 문헌번호파일로 구성
  • 문헌번호파일에 수록된 단어번호는 검색어들이 인접해서 출현한 경우에만 검색하도록 하는 인접검색(Proximity Searching)을 가능하도록 O
    • Proximity Operator : WITH / SAME / ADJ
    • A with B : 같은 문단에 출현한 경우
    • A same B : 같은 문장에 출현한 경우
    • A adj B : A와 B 사이에 단어가 3개 이내인 경우

불리언 검색 처리 과정

  • K1 리스트 = D1, D2, D3, D4
  • K2 리스트 = D1, D2
  • K3 리스트 = D1, D2, D3
  • K4 리스트 = D1
  • 검색문 = (K1 AND K2) OR (K3 AND (NOT K4))
    • K1 AND K2 => {D1, D2} 생성
    • K3 AND (NOT K4) => {D2, D3} 생성
    • OR => {D1, D2, D3}이 최종 검색문헌 집합

불리언 검색 장점

  • 쉬운 구현
  • 질의 처리 시간 측면에서 매우 효율적
  • 상용 시스템에서 가장 보편적으로 채택
  • 높은 검색 성능
  • 검색 논리를 만족시키는 문헌만을 검색하기 때문

불리언 검색 문제점

  • 불리언 검색에서는 검색어가 표현하는 개념 간의 상대적인 중요도를 나타낼 수 없다. 즉 질의를 구성하는 모든 검색어는 1이라는 동일한 가중치를 갖게 되므로 질의를 구성하는 한 개념이 다른 개념에 비해 더욱 중요하게 다루어진 문헌만을 검색하는 일이 불가능하다는 것이다.
  • 검색된 문헌들을 질의에 대한 적합성 정도에 따라 순위화할 수 없다. 전통적인 불리언 검색에서는 색인어에 가중치를 주지 않아도 되기 때문에 검색된 문헌들은 모두 동일한 적합성을 갖게 된다. 따라서 적합성 값에 따른 순위화가 불가능하다. 그러나 최근에는 온라인 데이터베이스 서비스나 웹 검색엔진 등과 같은 불리언 검색 시스템들도 적합성 순위에 따라 검색결과를 출력하고 있다. 적합성 값은 주로 검색문헌에 출현한 용어의 출현빈도, 출현위치, 그리고 검색어가 둘 이상인 경우 용어 출현의 인접성 등을 이용하여 부여한다.
  • 불리언 검색문과 완전히 일치하는 문헌들만 검색된다. 즉 검색 결과 문헌집단은 검색논리를 만족시키는 문헌들의 집합과 그렇지 않은 문헌들의 집합으로 양분되므로 질의를 부분적으로 만족시키는 문헌들은 검색되지 않는다.

댓글남기기