2014-02-26 8 views
-2

사실 내 문제는 문서에 단어가 포함 된 단어를 추출하여 문서에있는 단어 만 가져 오는 것입니다. 하지만 결과는 여전히 비어 있습니다. 왜냐하면 단어가 다른 형식이기 때문입니다.WordNet 단어의 결과를 프로젝트에 투사하는 방법

문서의 단어를 기본 양식으로 변경하려면 어떻게해야합니까?

예를 들어 "car"라는 단어가 있고 wordnet을 통해 해당 하이퍼 단어가 발견되면 문서에서 찾은 단어를 어떻게 유지해야합니까?

답변

0

스탠포드에는 실제로 정보 검색 과정에 사용 된 자바로 작성된 사전 처리기가 있지만 실제로는 작동하지 않습니다. download it here을 사용할 수 있으며 사용하기 전에 설명서를 읽으시기 바랍니다.

이제 색인 생성을하기 전에 표기기를 단어로 보내면됩니다. 같은 보조 정리 (루트 형식)로 줄이는 단어는 사전의 같은 위치에 색인을 생성해야합니다.

+0

처음에는 답을 많이 쓰지만 아직도 나에게 명확하지 않습니다. 네가 분명히 내 질문에 대해 충분히 이해할 수 있는지 모르겠다. wordNet 결과를 문서에 투영하는 방법을 알고 싶습니다 (문자열 형식 임). WordNet 결과에서 어떤 단어가 문서에 있는지 찾아 내기 위해서. 나는 자바 클래스에서 그것을 조작하려고한다. – hela

+0

@Hela 한 단어에는 수백 개의 상위어가있을 수있다. 코퍼스를 모두 검색하려고하면 프로그램이 느려집니다. 당신이 코퍼스를 구축하는 동안 단어를 음소거 한 다음 검색어를 lemmatize하십시오. 그렇게하면 검색 할 용어가 하나뿐입니다. 현대 정보 검색 시스템이 역 색인을 사용하는 이유이기도합니다. 거꾸로 된 색인에서 동일한 보조 정리에 속하는 두 단어는 동일한 위치에 색인을 생성합니다. WordNet은 한 단어를 사용하고 많은 결과로 확장됩니다. 많은 결과를 한 단어로 줄일 필요가 있습니다 (정반대). 그런 이유로, 나는 lemmatizer를 제안했다. – Rainbolt

+0

예 나는 당신의 제안을 지금 당장 견해에있어 그것을 시도 할 것입니다. WordNet에서 관계의 일부분과 원인을 추출하는 방법을 알고 계신가요? 두 가지 개념이 있습니다. WordNet과 관련된 관계를 알 수는 없습니다. 그렇지 않으면 어떤 생각을 해줄 수 있니? 미리 답변 해 주셔서 감사합니다. – hela