[텍스트 전처리] 한국어 형태소 분석기 비교 - Komoran & Kokoma & TwitterKorean & MeCab

한국어 형태소 분석기의 형태소 분석 속도 및 결과를 비교해보고자 한다. 이에 Komoran, KokomaKorean, TwitterKorean, MeCab 총 네 가지 한글 형태소 분석기를 대상으로 삼았고, 텍스트 데이터는 ‘호텔델루나’를 질의어로 입력한 네이버 뉴스 기사 검색 결과 중 임의로 하나를 선택하였다.

1. 형태소 분석 속도

Komoran KokomaKorean TwitterKorean MeCab
3.721669 7.319314 6.828469 0.008866

위 표는 Komoran, KokomaKorean, TwitterKorean, MeCab 네가지 형태소 분석기의 형태소 분석 속도를 보여주는데, 소수점 일곱번째자리에서 반올림하여 나타내었다. 이에 따르면 MeCab이 다른 형태소 분석기에 비해 현저하게 빠른 속도를 보여주는 것을 볼 수 있다. 가장 느린 형태소 분석기는 KokomaKorean인데, TwitterKorean 또한 이와 크게 다르지 않은 속도를 보여준다.

2. 형태소 분석 결과

대체로 Komoran과 KokomaKorean의 형태소 분석 결과가 유사하고, TwitterKorean과 MeCab의 형태소 분석 결과가 유사함을 볼 수 있다. Komoran과 KokomaKorean이 TwitterKorean과 Mecab에 비해 높은 형태소 분석 품질을 보여준다. 이를 실제로 확인하기 위해 형태소 분석 결과 중 일부를 살펴보고자 한다.

단어 Komoran KokomaKorean TwitterKorean MeCab
앞두고 앞두, 고 앞두, 고 앞두고 앞두고
넓혀가고 넓히, 어, 가, 고 넓히, 어, 가, 고 넓혀가고 넓혀가고
넓히며 넓히, 며 넓히, 며 넓히며 넓히며
드러내며 드러내, 며 드러내, 며 드러내며 드러내며
쌓아가며 쌓, 아, 가, 며 쌓, 아, 가, 며 쌓아가며 쌓아가며
꿰차며 꿰, 어, 차, 며 꿰차, 며 꿰차, 며 꿰차, 며

위 표를 보면, Komoran와 KokomaKorean은 용언의 활용형에 대해 적극적으로 어간, 선어말어미, 어미 등을 분리해내는 데에 반해 TwitterKorean과 MeCab은 이를 분리하지 않음을 볼 수 있다. 어말어미 ‘고’, ‘며’ 등을 항상 분리하는 Komoran과 KokomaKorean과 달리 TwitterKorean과 MeCab에서는 이를 분리하지 않는 경우가 압도적으로 많다. 흥미로운 점은 ‘꿰차며’는 ‘꿰차다’의 활용형인데, Komoran에서 이를 제대로 분석하지 못한 것을 볼 수 있다.

단어 Komoran Kokoma TwitterKorean MeCab
지난 지나, ㄴ 지나, ㄴ 지난 지난
남다른 남다르, ㄴ 남다르, ㄴ 남다른 남다른
등장한 등장, 하, ㄴ 등장, 하, ㄴ 등장, 한 등장, 한
종영한 종영, 하, ㄴ 종영, 하, ㄴ 종영, 한 종영, 한
방송된 방송, 되, ㄴ 방송, 되, ㄴ 방송, 된 방송, 된
기대되는 기대, 되, 는 기대, 되, 는 기대, 되는 기대, 되는
주목하는 주목, 하, 는 주목, 하, 는 주목, 하는 주목, 하는
남기는 남기, 는 남기, 는 남기는 남기는
드러내는 드러내, 는 드러내, 는 드러내는 드러내는
찍은 찍, 은 찍, 은 찍은 찍은
오는 오, 는 오, 는 오는 오는

Komoran과 KokomaKorean은 어말어미 ‘ㄴ’, ‘은’, ‘는’ 등을 분리해내는 반면 TwitterKorean과 MeCab은 이를 분리해내지 않는다. 이들은 ‘등장’, ‘종영’, ‘방송’ 등과 같이 명사 뒤에 ‘하다’ 등의 접사가 결합된 경우에만 이들을 분리해내고, 전반적인 용언에 있어서는 접사 혹은 어말어미를 분리해내지 않는 것을 볼 수 있다.

단어 Komoran Kokoma TwitterKorean MeCab
사로잡았다 사로잡, 았, 다 사로잡, 았, 다 사로잡았다 사로잡았다
이끌었다 이끌, 었, 다 이끌, 었, 다 이끌었다 이끌었다
활약했다 활약, 하, 았, 다 활약, 하, 었, 다 활약, 했다 활약, 했다

Komoran과 KokomaKorean은 과거형 선어말어미를 어간과 분리하는 반면 TwitterKorean과 MeCab은 그렇지 않음을 볼 수 있다. 앞서와 마찬가지로, TwitterKorean과 Mecab에서 ‘활약했다’만 ‘활약’과 ‘했다’로 분리한 것은 명사와 ‘하다’가 결합한 형태이기 때문인 것으로 보인다. ‘활용했다’에 대한 결과를 보면, Komoran과 KokomaKorean 모두 ‘하다’의 활용형을 제대로 분석하지 못하는 것을 짐작할 수 있다.

단어 Komoran Kokoma TwitterKorean MeCab
대해 대하, 아 대하, 어 대해 대해
통해 통하, 아 통하, 어 통해 통해

‘대해’와 ‘통해’는 ‘대하여’와 ‘통하여’의 준말이고, ‘대하여’와 ‘통하여’는 각각 ‘대하다’와 ‘통하다’에 ‘여’가 붙은 것이다. 앞서 살펴본 ‘활용했다’의 형태소 분석 결과를 떠올려보면, Komoran은 ‘하다’의 활용에 대해 일괄적으로 ‘아’를, KokomaKorean은 일괄적으로 ‘어’를 규칙으로 삼는 것은 아닐지 추측해볼 수 있다.

단어 Komoran Kokoma TwitterKorean MeCab
허울 허울 허, 울, ㄹ 허울 허울
비주얼 비주얼 비주얼 비주, 얼 비주, 얼
두각 두각 두각 두, 각 두, 각
영화계의 영화, 계, 의 영화계, 의 영화계, 의 영화계, 의
대표작 대표작 대표작 대표, 작 대표, 작

Komoran과 KokomaKorean의 결과가 TwitterKorean과 MeCab에 비해 훨씬 뛰어난 것을 볼 수 있는데, TwitterKorean과 MeCab이 자체적으로 가지고 있는 명사의 개수가 적은 게 아닐까 하는 생각이 든다. 왜냐하면 ‘비주얼’과 ‘두각’을 전혀 인지하지 못하기 때문이다. 또한 ‘대표작’을 보면, Komoran과 KokomaKorean은 이를 ‘대표작’으로 인식한 데에 반해 TwitterKorean과 MeCab에서는 ‘대표’, ‘작’으로 분석하는 것을 볼 수 있는데, 이는 TwitterKorean과 MeCab에 ‘대표작’이 없고 ‘대표’만 있기 때문이 아닐까 하고 조심스레 생각해본다.

단어 Komoran Kokoma TwitterKorean MeCab
(드라마)에서도 에서, 도 에서, 도 에서도 에서도
없이도 없이, 도 없이, 도 없이도 없이도

Komoran과 Kokoma는 조사와 접사를 분리해내는 반면 TwitterKorean과 MeCab은 이를 하나로 분석하는 것을 볼 수 있다.

3. 결론

빠르고 직관적인 형태소 분석 결과를 원할 때에는 MeCab이 가장 적합하다고 여겨진다. 일단 다른 형태소 분석기에 비해 분석 속도가 월등하게 빠르고, 분석 결과가 문법적으로 세밀하지 않아 비교적 인간이 보고 이해하기에 용이하기 때문이다. 반면 보다 정교한 형태소 분석 결과와 높은 품질을 기대한다면, KokomaKorean 혹은 Komoran이 유용할 것이다. 특히 여타 다른 형태소 분석기와 비교해봤을 때 용언의 활용형에 대해 term variation을 보다 확실하게 잡을 수 있다. 일정 수준 이상의 분석 품질과 속도를 모두 필요로 한다면, Komoran이 가장 적합할 것으로 생각된다.

댓글남기기