꼬꼬마 세종 말뭉치 활용 시스템

꼬꼬마 프로젝트!

꼬꼬마 프로젝트는 서울대학교 IDS (Intelligent Data Systems) 연구실에서 자연어 처리를 하기 위한 다양한 모듈 및 자료를 구축하기 위한 과제로 크게 '형태소 분석기 및 자연어 처리 모듈 개발' 부분과 '세종 말뭉치 활용 시스템'으로 구분된다.

꼬꼬마 형태소 분석기

배포 및 저작권

꼬꼬마 형태소 분석기는 다운로드 페이지에서 형태소 분석기 라이브러리와 사전 데이터를 배포한다.

꼬꼬마 형태소 분석기(버전 2.0)의 저작권은 GPL 2.0을 따른다. 단, GPL 2.0을 따르지 않고 상업적 이용 등을 하고자 할 때는 별도의 협의를 할 수 있다.

이후 개선된 버전은 저작권자가 정한 라이센스에 따라 배포된다.

소스 코드 다운로드 요청 및 기타 문의: kkma_at_europa.snu.ac.kr

참고 문헌

심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보과학회논문지 : 소프트웨어 및 응용 제31권 제1호 pp.89-99, 2004. 1

강미영, 정성원, 권혁철, "어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템", 정보과학회논문지 : 소프트웨어 및 응용 제33권 제11호, 2006. 11

심광섭, "MADE : 형태소 분석기 개발 환경", 인터넷정보학회논문지 제8권 제4호, 2007. 8

http://snowball.tartarus.org

꼬꼬마 세종 말뭉치 활용 시스템

국어와 관련된 연구를 수행할 때, 대량의 말뭉치를 필요로 하는 경우가 종종 있다. 세종 말뭉치는 질과 양 모든 면에서 매우 우수한 말뭉치이기는 하지만, 컴퓨터 프로그래밍 능력이 없는 사람은 이를 활용하기가 어렵다. 또한, 컴퓨터 프로그래밍에 익숙하다고 하더라도, 말뭉치의 구조를 파악하고 말뭉치를 처리할 수 있는 형태로 가공하는 과정이 필요하기 때문에 말뭉치를 활용하는데 어려움이 있다. 따라서 ‘꼬꼬마’팀에서는 세종 말뭉치를 다양한 용도로 활용할 수 있도록 1) 말뭉치를 구조화 하여 데이터베이스에 저장하고, 2) 저장된 말뭉치로부터 다양한 통계 데이터를 생성하고, 3)저장된 말뭉치 및 생성된 통계 정보를 다양한 방법으로 조회할 수 있는 시스템을 구현하였다.

꼬꼬마 세종 말뭉치 활용 시스템의 기능은 크게 말뭉치 통계 정보 조회, 말뭉치 검색, 그리고 한국어 쓰기 학습의 세 가지로 구분된다. 말뭉치 통계 정보 조회 기능은 구축된 말뭉치에서 품사, 형태소, 문어 및 구어 등의 다양한 기준에 의한 출현 빈도를 추출하여 조회할 수 있게 하는 기능이며, 말뭉치 검색은 형태소를 기준으로 형태소가 쓰인 문장을 조회하고 이에 대한 품사 부착, 의미 분석, 구문 분석 결과를 확인하는 기능이다. 한국어 쓰기 학습 기능은 한국어를 공부하는 학생이나 교수자가 사용할 수 있는 기능으로, 단어가 포함된 용례나 양식에 따른 용례를 조회할 수 있다.

참고 자료

'2009 한글 및 한국어 처리 시스템 경진 대회' 제출 메뉴얼

한국어 쓰기 학습 사용 살명서

이동주, 연종흠, 황인범, 이상구, 꼬꼬마: 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구, 2010, 정보과학회논문지: 컴퓨팅의 실제 및 레터 (Journal of KIISE: Computing Practices and Letters), Volume 16, No.11, Page 1046-1050

Last modified: 2011-01-06.

Copyright ⓒ 2009 Team 꼬꼬마(KKMA). All rights reserved.
꼬꼬마 세종 말뭉치 활용 시스템은 현재 세종 말뭉치 2010년 배포판을 이용하고 있습니다.

꼬꼬마 프로젝트!

꼬꼬마 프로젝트는 서울대학교 IDS (Intelligent Data Systems) 연구실에서 자연어 처리를 하기 위한 다양한 모듈 및 자료를 구축하기 위한 과제로 크게 '형태소 분석기 및 자연어 처리 모듈 개발' 부분과 '세종 말뭉치 활용 시스템'으로 구분된다.

꼬꼬마 형태소 분석기

배포 및 저작권

꼬꼬마 형태소 분석기는 다운로드 페이지에서 형태소 분석기 라이브러리와 사전 데이터를 배포한다.
꼬꼬마 형태소 분석기(버전 2.0)의 저작권은 GPL 2.0을 따른다. 단, GPL 2.0을 따르지 않고 상업적 이용 등을 하고자 할 때는 별도의 협의를 할 수 있다.
이후 개선된 버전은 저작권자가 정한 라이센스에 따라 배포된다.
소스 코드 다운로드 요청 및 기타 문의: kkma_at_europa.snu.ac.kr

참고 문헌

심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보과학회논문지 : 소프트웨어 및 응용 제31권 제1호 pp.89-99, 2004. 1
강미영, 정성원, 권혁철, "어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템", 정보과학회논문지 : 소프트웨어 및 응용 제33권 제11호, 2006. 11
심광섭, "MADE : 형태소 분석기 개발 환경", 인터넷정보학회논문지 제8권 제4호, 2007. 8
http://snowball.tartarus.org

꼬꼬마 세종 말뭉치 활용 시스템

국어와 관련된 연구를 수행할 때, 대량의 말뭉치를 필요로 하는 경우가 종종 있다. 세종 말뭉치는 질과 양 모든 면에서 매우 우수한 말뭉치이기는 하지만, 컴퓨터 프로그래밍 능력이 없는 사람은 이를 활용하기가 어렵다. 또한, 컴퓨터 프로그래밍에 익숙하다고 하더라도, 말뭉치의 구조를 파악하고 말뭉치를 처리할 수 있는 형태로 가공하는 과정이 필요하기 때문에 말뭉치를 활용하는데 어려움이 있다. 따라서 ‘꼬꼬마’팀에서는 세종 말뭉치를 다양한 용도로 활용할 수 있도록 1) 말뭉치를 구조화 하여 데이터베이스에 저장하고, 2) 저장된 말뭉치로부터 다양한 통계 데이터를 생성하고, 3)저장된 말뭉치 및 생성된 통계 정보를 다양한 방법으로 조회할 수 있는 시스템을 구현하였다.

꼬꼬마 세종 말뭉치 활용 시스템의 기능은 크게 말뭉치 통계 정보 조회, 말뭉치 검색, 그리고 한국어 쓰기 학습의 세 가지로 구분된다. 말뭉치 통계 정보 조회 기능은 구축된 말뭉치에서 품사, 형태소, 문어 및 구어 등의 다양한 기준에 의한 출현 빈도를 추출하여 조회할 수 있게 하는 기능이며, 말뭉치 검색은 형태소를 기준으로 형태소가 쓰인 문장을 조회하고 이에 대한 품사 부착, 의미 분석, 구문 분석 결과를 확인하는 기능이다. 한국어 쓰기 학습 기능은 한국어를 공부하는 학생이나 교수자가 사용할 수 있는 기능으로, 단어가 포함된 용례나 양식에 따른 용례를 조회할 수 있다.

참고 자료

Last modified: 2011-01-06.