2016-07-24 6 views
1

내 검색 엔진 용 데이터베이스에서 동의어의 기본 목록을 추출하고 싶습니다. Shaun 대 Shawn, Muhammad의 다양한 변종, UN (유엔) 또는 SARS (중증 급성 호흡기 증후군)와 같은 지명 된 단체의 머리 글자 어 같은 일반적으로 철자가있는 이름이 여기에 포함됩니다.Wordnet에서 단어 목록 추출

추출 후이 동의어 목록은 서버에 저장되어 관련 용어/동의어 문자열로 저장됩니다.

Example

나는 조우 API를 사용하고 내가 입력 한 특정 단어의 동의어를 얻는 것을 처리했다. 이것은 제가 시도한 예제 중 하나입니다. NASA의

동의어 :

  1. 국립 항공 우주국 : 항공 및 우주 비행을 담당하는 미국 정부의 독립 기관입니다.

다음은 내가 사용한 코드입니다.

/** 
* Main entry point. The command-line arguments are concatenated together 
* (separated by spaces) and used as the word form to look up. 
*/ 
public static void main(String[] args) 
{ 
    arg[0]="NASA"; 
    if (args.length > 0) 
    { 
     // Concatenate the command-line arguments 
     StringBuffer buffer = new StringBuffer(); 
     for (int i = 0; i < args.length; i++) 
     { 
      buffer.append((i > 0 ? " " : "") + args[i]); 
     } 
     String wordForm = buffer.toString(); 
     // Get the synsets containing the wrod form 
     WordNetDatabase database = WordNetDatabase.getFileInstance(); 
     Synset[] synsets = database.getSynsets(wordForm); 
     // Display the word forms and definitions for synsets retrieved 
     if (synsets.length > 0) 
     { 
      System.out.println("The following synsets contain '" + 
        wordForm + "' or a possible base form " + 
        "of that text:"); 
      for (int i = 0; i < synsets.length; i++) 
      { 
       System.out.println(""); 
       String[] wordForms = synsets[i].getWordForms(); 
       for (int j = 0; j < wordForms.length; j++) 
       { 
        System.out.print((j > 0 ? ", " : "") + 
          wordForms[j]); 
       } 
       System.out.println(": " + synsets[i].getDefinition()); 
      } 
     } 
     else 
     { 
      System.err.println("No synsets exist that contain " + 
        "the word form '" + wordForm + "'"); 
     } 
    } 
    else 
    { 
     System.err.println("You must specify " + 
       "a word form for which to retrieve synsets."); 
    } 
} 

그러나이 방법을 사용하려면 쿼리하려는 모든 단어를 수동으로 입력해야합니다. 단어 목록 (텍스트 형식)에 모든 다양한 단어와 동의어를 저장하기 위해 사전 전체를 반복하는 방법이 있습니까?

내가 내 프로젝트에 대해 같은 보트에있어

답변

0

주셔서 감사합니다,하지만 난 이미 다양한 워드 넷의 추출했던 사람을 발견했다 : 이후, https://sourceforge.net/projects/wordnetport/files/?source=navbar

그것은 나에게 큰 도움이되지 못했습니다을 WordNet 동의어 그룹은 매우 얕지 만 잘하면 (또는 누군가 동의어) 트릭을 할 것입니다.