꼬꼬마 한국어 형태소 분석기
라이브러리 내려받기 및 사용하기

꼬꼬마 한글 형태소 분석기는 Java 라이브러리로써 jar 파일 형태로 배포한다. 배포하는 jar 파일을 내려받아 형태소 분석기를 사용할 프로젝트의 classpath에 이 파일을 추가하면 형태소 분석기를 사용할 수 있다. Java1.5 이상의 가상 머신 (Virtual Machine)에서 무리 없이 동작한다. 그러나 기분석 사전을 이용하기 때문에, 사전을 메모리에 적재하기 위한 충분한 힙메모리를 지정해주어야 한다. 따라서 512MB이상의 메모리를 지정할 것을 권장한다.

배포된 jar파일 내에는 형태소 분석을 간단히 시험해볼 수 있는, GUI기반의 테스트기가 포함되어 있는데, 아래와 같이 이를 실행해볼 수 있다.

SET JAVA_HOME=C:\Program Files\Java\jdk1.6.0_16 "%JAVA_HOME%\bin\java" -mx512m -classpath org.snu.ids.ha.jar org.snu.ids.ha.TesterGUI
예제 코드

아래는 형태소 분석과 색인어 추출을 하기 위한 코드의 일부이다. 이같은 프로세스로 간단히 라이브러리를 사용할 수 있다. 전체 예제 코드는 코드 보기에서 확인할 수 있다.

형태소 분석하기
// import necessary classes
...
import java.util.List;
...
import org.snu.ids.ha.ma.MExpression;
import org.snu.ids.ha.ma.MorphemeAnalyzer;
import org.snu.ids.ha.ma.Sentence;
...


// string to analyze
String string = null;

// init MorphemeAnalyzer
MorphemeAnalyzer ma = new MorphemeAnalyzer();

// create logger, null then System.out is set as a default logger
ma.createLogger(null);

// analyze morpheme without any post processing 
List ret = ma.analyze(string);

// refine spacing
ret = ma.postProcess(ret);

// leave the best analyzed result
ret = ma.leaveJustBest(ret);

// divide result to setences
List stl = ma.divideToSentences(ret);

// print the result
for( int i = 0; i < stl.size(); i++ ) {
	Sentence st = stl.get(i);
	System.out.println("===>  " + st.getSentence());
	for( int j = 0; j < st.size(); j++ ) {
		System.out.println(st.get(j));
	}
}

ma.closeLogger();

색인어 추출하기
// import necessary classes
...
import java.util.List;
...
import org.snu.ids.ha.index.Keyword;
import org.snu.ids.ha.index.KeywordExtractor;
import org.snu.ids.ha.index.KeywordList;
...


// string to extract keywords
String strToExtrtKwrd = null;

// init KeywordExtractor
KeywordExtractor ke = new KeywordExtractor();

// extract keywords
KeywordList kl = ke.extractKeyword(strToExtrtKwrd, true);

// print result
for( int i = 0; i < kl.size(); i++ ) {
	Keyword kwrd = kl.get(i);
	System.out.println(kwrd.getString() + "\t" + kwrd.getCnt());
}
Copyright ⓒ 2009 Team 꼬꼬마(KKMA). All rights reserved.
꼬꼬마 세종 말뭉치 활용 시스템은 현재 세종 말뭉치 2010년 배포판을 이용하고 있습니다.