내 검색 엔진 용 데이터베이스에서 동의어의 기본 목록을 추출하고 싶습니다. Shaun 대 Shawn, Muhammad의 다양한 변종, UN (유엔) 또는 SARS (중증 급성 호흡기 증후군)와 같은 지명 된 단체의 머리 글자 어 같은 일반적으로 철자가있는 이름이 여기에 포함됩니다.Wordnet에서 단어 목록 추출
추출 후이 동의어 목록은 서버에 저장되어 관련 용어/동의어 문자열로 저장됩니다.
나는 조우 API를 사용하고 내가 입력 한 특정 단어의 동의어를 얻는 것을 처리했다. 이것은 제가 시도한 예제 중 하나입니다. NASA의
동의어 :
- 국립 항공 우주국 : 항공 및 우주 비행을 담당하는 미국 정부의 독립 기관입니다.
다음은 내가 사용한 코드입니다.
/**
* Main entry point. The command-line arguments are concatenated together
* (separated by spaces) and used as the word form to look up.
*/
public static void main(String[] args)
{
arg[0]="NASA";
if (args.length > 0)
{
// Concatenate the command-line arguments
StringBuffer buffer = new StringBuffer();
for (int i = 0; i < args.length; i++)
{
buffer.append((i > 0 ? " " : "") + args[i]);
}
String wordForm = buffer.toString();
// Get the synsets containing the wrod form
WordNetDatabase database = WordNetDatabase.getFileInstance();
Synset[] synsets = database.getSynsets(wordForm);
// Display the word forms and definitions for synsets retrieved
if (synsets.length > 0)
{
System.out.println("The following synsets contain '" +
wordForm + "' or a possible base form " +
"of that text:");
for (int i = 0; i < synsets.length; i++)
{
System.out.println("");
String[] wordForms = synsets[i].getWordForms();
for (int j = 0; j < wordForms.length; j++)
{
System.out.print((j > 0 ? ", " : "") +
wordForms[j]);
}
System.out.println(": " + synsets[i].getDefinition());
}
}
else
{
System.err.println("No synsets exist that contain " +
"the word form '" + wordForm + "'");
}
}
else
{
System.err.println("You must specify " +
"a word form for which to retrieve synsets.");
}
}
그러나이 방법을 사용하려면 쿼리하려는 모든 단어를 수동으로 입력해야합니다. 단어 목록 (텍스트 형식)에 모든 다양한 단어와 동의어를 저장하기 위해 사전 전체를 반복하는 방법이 있습니까?
내가 내 프로젝트에 대해 같은 보트에있어