2013-05-14 4 views
2

내가 검색하지만, 이는 내가 원하는 것을 못 찾았 :wiktionary 한 언어 양식을 추출하는 최선의 방법은 무엇입니까?

최고의 모든 이탈리아어 단어, 어원 및 음성의 부품 위키 낱말 사전에서 복수의 단어의 양식 (AMICO, amichi)를 포함하여 추출 할 가장 효율적인 . 나는 그것을 CSV (어쩌면 너무 커서) 또는 순수 텍스트 (blob)가 아닌 MySQL 데이터베이스에 넣고 싶다.

나는 영어로 각 이탈리아어 단어에 대한 필수 기록을 원합니다.

mwdumper도 계속 충돌합니다.

어떤 조언을 환영합니다!

답변

2

en.wiktionary XML 덤프 here에서 음성의 일부 (동사, 마운드, 형용사, adn 등)를 추출하는 작은 Java 프로그램을 만들었지 만 TSV를 사용하지만 쉽게 적용 할 수 있습니다.

+0

Jackopo, 나는 그것을 컴파일을 시도하고이 오류를 가지고 : POSfromDump.java : 20 : 오류 : 클래스 GeneraDatabasePOS가 공개, GeneraDatabasePOS.java라는 이름의 파일에 선언해야 공용 클래스 GeneraDatabasePOS는 { 가 (미안 컴파일 적이을 java before) – esponapule

+0

클래스, 즉 GeneraDatabasePOS.java라는 파일에 저장해야합니다. 또한 파일 경로를 포함하는 코드 행을 변경해야합니다. – Jacopofar

+0

또한 "generazione"폴더에 넣고'java generazione.GeneraDatabasePOS'로 실행해야합니다. – Jacopofar