꼬꼬마 한국어 형태소 분석기
성능 검증

꼬꼬마처럼 띄어쓰기를 고려한 성능 검증을 위해서는 기존의 지표와는 다른 방식의 정확도 산출이 필요하였다. 이를 위해서 사용자가 띄어쓰기 오류를 수정하고 태그를 부착한 정답 데이터셋을 만들었고, 형태소 분석기에 의해서 분석된 결과가 사용자가 부착한 결과와 얼마나 차이가 나는지를 기준으로 답을 산출하였다. 이때 단순히 어절 단위로 정답을 확인하지 않고, 해당 정답이 되기 위한 편집 거리 (Edit distance)를 이용하여 정확도를 산출하였다.
Accuracy =   #OfMorphemesInAnalyzedResult - edit distance
#OfMorphemesInAnalyzedResult
유형 글수 문장수 평균 정확도
뉴스 10 1057 0.81
블로그 10 2199 0.75
상품평 10 2414 0.70

성능 검증 데이터

꼬꼬마는 지속적인 성능 검증을 위해서 직접 그 성능을 확인할 수 있는 테스트 데이터 집합을 마련했다. 이는 꼬꼬마 팀원이 직접 결과를 확인하면서 태그를 부착한 것으로 많은 노력이 투입된 작업이다. 테스트 집합은 문서의 특성을 반영하기 위해서 얼마나 더 자유롭게 쓰였느냐에 따라서, ‘신문기사’, ‘블로그 게시글’, ‘상품평’의 세가지 유형으로 구성된다. 신문기사는 극소수의 비문을 포함하고 있으며, 대체적으로 띄어쓰기가 잘 된 것으로 일반적으로 수행하는 형태소 분석기의 성능 검증에 쓰이는 데이터라고 볼 수 있다. 블로그 게시글은 게시글을 올리는 작성자가 많은 부분 검증하고 퇴고를 거치고 올리는 것이라 일부를 제외하고는 문법적 오류나 비문을 많이 포함하지 않는다. 그러나 신문 기사에 비해서는 문법적 오류나 비문의 사용이 빈번하다. 상품평의 경우는 문법적 오류가 매우 빈번하고 띄어쓰기가 안되어 있거나, 심지어는 구어체까지도 매우 빈번하게 출현하여 일반적으로 형태소 분석의 성능이 매우 낮게 되는 데이터이다. 최종적으로 상품평과 같이 비문을 많이 포함한다고 하더라도 필요한 정보를 얻어 낼 수 있는 수준의 성능을 보이도록 하고자 한다.

News
Blogs

Reviews

Copyright ⓒ 2009 Team 꼬꼬마(KKMA). All rights reserved.
꼬꼬마 세종 말뭉치 활용 시스템은 현재 세종 말뭉치 2010년 배포판을 이용하고 있습니다.