꼬꼬마 프로젝트!

꼬꼬마 프로젝트는 서울대학교 IDS (Intelligent Data Systems) 연구실에서 자연어 처리를 하기 위한 다양한 모듈 및 자료를 구축하기 위한 과제로 크게 '형태소 분석기 및 자연어 처리 모듈 개발' 부분과 '세종 말뭉치 활용 시스템'으로 구분된다.

꼬꼬마 형태소 분석기

  • 꼬꼬마 형태소 분석기는 다운로드 페이지에서 형태소 분석기 라이브러리와 사전 데이터를 배포한다.
  • 꼬꼬마 형태소 분석기(버전 2.0)의 저작권은 GPL 2.0을 따른다. 단, GPL 2.0을 따르지 않고 상업적 이용 등을 하고자 할 때는 별도의 협의를 할 수 있다.
  • 이후 개선된 버전은 저작권자가 정한 라이센스에 따라 배포된다.
  • 소스 코드 다운로드 요청 및 기타 문의: kkma_at_europa.snu.ac.kr

  1. 심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보과학회논문지 : 소프트웨어 및 응용 제31권 제1호 pp.89-99, 2004. 1
  2. 강미영, 정성원, 권혁철, "어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템", 정보과학회논문지 : 소프트웨어 및 응용 제33권 제11호, 2006. 11
  3. 심광섭, "MADE : 형태소 분석기 개발 환경", 인터넷정보학회논문지 제8권 제4호, 2007. 8
  4. http://snowball.tartarus.org
꼬꼬마 세종 말뭉치 활용 시스템

국어와 관련된 연구를 수행할 때, 대량의 말뭉치를 필요로 하는 경우가 종종 있다. 세종 말뭉치는 질과 양 모든 면에서 매우 우수한 말뭉치이기는 하지만, 컴퓨터 프로그래밍 능력이 없는 사람은 이를 활용하기가 어렵다. 또한, 컴퓨터 프로그래밍에 익숙하다고 하더라도, 말뭉치의 구조를 파악하고 말뭉치를 처리할 수 있는 형태로 가공하는 과정이 필요하기 때문에 말뭉치를 활용하는데 어려움이 있다. 따라서 ‘꼬꼬마’팀에서는 세종 말뭉치를 다양한 용도로 활용할 수 있도록 1) 말뭉치를 구조화 하여 데이터베이스에 저장하고, 2) 저장된 말뭉치로부터 다양한 통계 데이터를 생성하고, 3)저장된 말뭉치 및 생성된 통계 정보를 다양한 방법으로 조회할 수 있는 시스템을 구현하였다.

꼬꼬마 세종 말뭉치 활용 시스템의 기능은 크게 말뭉치 통계 정보 조회, 말뭉치 검색, 그리고 한국어 쓰기 학습의 세 가지로 구분된다. 말뭉치 통계 정보 조회 기능은 구축된 말뭉치에서 품사, 형태소, 문어 및 구어 등의 다양한 기준에 의한 출현 빈도를 추출하여 조회할 수 있게 하는 기능이며, 말뭉치 검색은 형태소를 기준으로 형태소가 쓰인 문장을 조회하고 이에 대한 품사 부착, 의미 분석, 구문 분석 결과를 확인하는 기능이다. 한국어 쓰기 학습 기능은 한국어를 공부하는 학생이나 교수자가 사용할 수 있는 기능으로, 단어가 포함된 용례나 양식에 따른 용례를 조회할 수 있다.

  1. '2009 한글 및 한국어 처리 시스템 경진 대회' 제출 메뉴얼
  2. 한국어 쓰기 학습 사용 살명서
  3. 이동주, 연종흠, 황인범, 이상구, 꼬꼬마: 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구, 2010, 정보과학회논문지: 컴퓨팅의 실제 및 레터 (Journal of KIISE: Computing Practices and Letters), Volume 16, No.11, Page 1046-1050
Last modified: 2011-01-06.
Copyright ⓒ 2009 Team 꼬꼬마(KKMA). All rights reserved.
꼬꼬마 세종 말뭉치 활용 시스템은 현재 세종 말뭉치 2010년 배포판을 이용하고 있습니다.