[정보검색] 제2장 색인 및 시소러스 - 제1절 색인 개요

이 글은 정영미 교수님의 정보검색연구를 바탕으로 연세대학교 문성빈 교수님의 수업을 공부한 기록입니다.

1. 색인 개요

색인 정의

  • 색인 (Indexing) : 개개의 정보자료의 특성을 표현하는 데이터 요소를 추출하여 각 정보자료를 표현하는 작업
  • 색인어 (Index Term) = 메타데이터 : 색인 결과 추출된 데이터 요소

색인 종류

  • 어떠한 유형의 데이터 요소를 표현하는지에 따라
    • 주제색인어
      • 정보자료의 주제를 나타내는 색인어
      • 키워드, 디스크립터 / 주제명
    • 비주제색인어
      • 정보자료의 주제를 직접적으로 표현하지 않는 색인어
      • 저자명, 기관명, 출판년, 언어 등
  • 검색작업에서는 주제색인어와 비주제색인어 모두 검색어로 이용

색인어

  • 온라인 데이터베이스
    • 데이터베이스 레코드를 구성하는 거의 모든 필드의 데이터로부터 색인어를 추출하여 검색어로 사용
    • 즉 데이터베이스 검색 시 표제, 초록, 디스크립터 필드에 출현한 키워드를 비롯하여 저자명, 디스크립터, 회의명, 저널명, 출판물 유형 등이 검색어로 사용
  • 온라인 목록
    • 온라인 목록의 서지 데이터 항목
  • 메타데이터
    • 전자적 정보자원의 특성을 기술하기 위해 정의되는 메타데이터 요소
  • 주제색인어는 사람의 지적 작업이나 자동색인 프로그램에 의해 선정
  • 웹 검색엔진을 포함한 거의 모든 정보검색 시스템
    • 표제, 초록/요약, 또는 전문으로부터 자동색인 과정에 의해 키워드를 색인어로 추출
  • 대부분의 온라인 데이터베이스나 온라인 목록
    • 키워드 이외에 시소러스나 주제명표로부터 색인전문가가 선정한 디스크립터나 주제어를 추가적인 주제색인어로 수록

2. Title-Term Indexing

  • 색인어가 표제인 것
  • 표제는 주제를 굉장히 명확하게 표현
  • 따라서 title-term을 이용할 경우, 검색 문헌은 소수 but 검색된 적합 문헌은 다수
    • 높은 정확률
    • 낮은 재현율
  • title-term을 이용할 경우의 효율성
    • Terminalogical Consistency = $\frac{1}{n}$
    • 개념의 개수 = $1$
    • 하나의 개념을 표현하는 단어의 수 = $n$
    • Terminological Consistency가 높을수록 Title-Term Indexing의 효율성 증가
  • title-term을 이용할 경우의 효율성은 주제분야마다 다를 수 O
    • 효율성이 높은 주제분야 : hard science (이공계열)
    • 효율성이 낮은 주제분야 soft science (인문사회계열)

3. 자연언어 색인과 통제언어 색인

  • 색인어 선택 시 용어에 통제가 가해졌는지 여부에 따라
  • 자연언어 색인과 통제언어 색인으로 구분

자연언어 (Natural Language) 색인

  • 색인어 선택 시 용어에 통제 X
  • 자연언어 중 불용어(stop word)를 제거한 전부를 색인어로 사용
  • 자동색인 기법에 의해 텍스트에 나타난 형태 그대로의 용어를 색인어로 채택
  • 색인전문가가 임의로 색인어를 선택
  • 자연 언어 형태의 색인어 : 키워드
  • 용어 색인 (Term Indexing)
    • 색인 대상이 개념이라기보다는 텍스트에 출현한 용어이기 때문
  • 검색 시 하나의 특정 용어를 검색어로 사용했을 때 질의와 관련된 모든 정보자료를 찾아낼 수 X
    • 동일한 개념이라도 색인하고자 하는 여러 텍스트에서 서로 다른 용어로 표현되어 있을 경우 각각 다른 색인어가 선택되기 때문
    • 같은 어근/어간을 갖는 용어들이라도 형태가 다를 경우 각기 다른 용어로 간주되기 때문
  • 이용자는 용어절단 검색 기법, 동의어/유의어 사전을 이용하여 검색효율을 높일 수 O

통제언어 (Controlled Language) 색인

  • 색인어 선택 시 용어에 통제 O
  • 통제어휘(controlled vocabulary)를 참조하여 동일한 개념은 항상 하나의 색인어로 표현
  • 통제어휘 (Controlled Vocabulary)
    • 시소러스, 주제명표 등
    • 색인자와 이용자의 개념을 하나의 단어로 통일시켜주는 역할
  • 시소러스를 통제어휘로 사용하는 경우의 색인어 : 디스크립터
  • 주제명표를 통제어휘로 사용하는 경우의 색인어 : 주제명
  • 개념 색인 (Concept Indexing)
    • 색인 대상이 각 개념이기 때문
  • 검색 시 특정 용어를 검색어로 사용했을 때 질의와 관련된 모든 정보자료를 검색할 수 O
    • 특정한 개념은 항상 같은 용어에 의해 색인이 가능하기 때문
  • 검색어로 통제어를 사용하는 경우 이용자가 적절한 검색어 즉 디스크립터를 선정할 수 있도록 온라인 시소러스 제공
  • 검색어로 자연어를 입력한 경우 에는 컴퓨터에 내장된 사전파일을 이용하여 해당되는 통제 색인어로 자동 변환한 후 검색어로 사용

댓글남기기