꼬꼬마 프로젝트!
꼬꼬마 프로젝트는 서울대학교 IDS (Intelligent Data Systems) 연구실에서 자연어 처리를 하기 위한 다양한 모듈 및 자료를 구축하기 위한 과제로 크게 '형태소 분석기 및 자연어 처리 모듈 개발' 부분과 '세종 말뭉치 활용 시스템'으로 구분된다. 꼬꼬마 형태소 분석기
꼬꼬마 세종 말뭉치 활용 시스템
국어와 관련된 연구를 수행할 때, 대량의 말뭉치를 필요로 하는 경우가 종종 있다. 세종 말뭉치는 질과 양 모든 면에서 매우 우수한 말뭉치이기는 하지만, 컴퓨터 프로그래밍 능력이 없는 사람은 이를 활용하기가 어렵다. 또한, 컴퓨터 프로그래밍에 익숙하다고 하더라도, 말뭉치의 구조를 파악하고 말뭉치를 처리할 수 있는 형태로 가공하는 과정이 필요하기 때문에 말뭉치를 활용하는데 어려움이 있다. 따라서 ‘꼬꼬마’팀에서는 세종 말뭉치를 다양한 용도로 활용할 수 있도록 1) 말뭉치를 구조화 하여 데이터베이스에 저장하고, 2) 저장된 말뭉치로부터 다양한 통계 데이터를 생성하고, 3)저장된 말뭉치 및 생성된 통계 정보를 다양한 방법으로 조회할 수 있는 시스템을 구현하였다.
꼬꼬마 세종 말뭉치 활용 시스템의 기능은 크게
말뭉치 통계 정보 조회,
말뭉치 검색,
그리고 한국어 쓰기 학습의 세 가지로 구분된다.
말뭉치 통계 정보 조회 기능은 구축된 말뭉치에서 품사, 형태소, 문어 및 구어 등의 다양한 기준에 의한 출현 빈도를 추출하여 조회할 수 있게 하는 기능이며,
말뭉치 검색은 형태소를 기준으로 형태소가 쓰인 문장을 조회하고 이에 대한 품사 부착, 의미 분석, 구문 분석 결과를 확인하는 기능이다.
한국어 쓰기 학습 기능은 한국어를 공부하는 학생이나 교수자가 사용할 수 있는 기능으로, 단어가 포함된 용례나 양식에 따른 용례를 조회할 수 있다.
Last modified: 2011-01-06.
|
||||||
Copyright ⓒ 2009 Team 꼬꼬마(KKMA). All rights reserved. 꼬꼬마 세종 말뭉치 활용 시스템은 현재 세종 말뭉치 2010년 배포판을 이용하고 있습니다. |