2013-08-21 5 views
4

프로젝트 작업 중이고 주어진 단어의 근원을 알아야합니다 (형태소 분석). 아시다시피 사전을 사용하지 않는 형태소 분석 알고리즘은 정확하지 않습니다. 또한 WordNet을 시도했지만 프로젝트에 좋지 않습니다. phpmorphy 프로젝트를 찾았지만 API는 Java에 포함되어 있지 않습니다.다른 형식의 영어 단어 데이터베이스 또는 텍스트 파일 찾기

현재 데이터베이스 또는 다른 형식의 영어 단어 텍스트 파일을 찾고 있습니다. 예를 들면 :

실행 실행 실행 된 ... 는 가 ...

여러분의 도움에 감사드립니다 나 조언을 ... 포함 포함 포함한다.

답변

8

이진 파일 english.dict과 함께 제공되는 LanguageTool (면책 조항 : 저는 관리자입니다)을 다운로드 할 수 있습니다. The LanguageTool Wiki 텍스트 파일로 해당 파일을 덤프하는 방법을 설명

java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict 

run 들어, 파일이 포함 :

ran run VBD 
run run NN 
run run VB 
run run VBN 
run run VBP 
running run VBG 
runs run NNS 
runs run VBZ 

첫번째 열은 굴곡 형태이며, 두 번째는 기본 형태를 세 번째 부분은 (약간 확장 된) Penn Treebank tagset에 따른 품사 태그입니다.

+0

'13 이후 도구가 크게 변경된 것 같습니다. 동일한 출력을 달성하기 위해 현재 동일한 매개 변수가 있습니까? 형태소 분석 매개 변수를 찾을 수 없습니다. 아직 거기 있니? 또한, 나는 genitive case가 예를 들어 'orthography's'는' orthographic [orthography/NN, B-NP-singular | E-NP-singular] '['/ POS] s [s/POS,]로 인식됩니다. 그 맞습니까? –

+1

[위키] (http://wiki.languagetool.org/developing-a-tagger-dictionary#toc2)에는 LanguageTool 3.9와 함께 저에게 맞는 명령이 있습니다 :'java -cp languagetool.jar org.languagetool.tools. DictionaryExporter -i org/languagetool/resource/en/english.dict -info org/languagetool/resource/ko/english.info -o dictionary.dump' –