2014-09-25 13 views
3

나는 서로 다른 개념 들간의 관련성 계산을 포함하는 프로젝트를 진행 중이다.의미 론적 유사성과 다른 단어들 사이의 관계를 찾는다

예 : "착륙"- 관련 "도착; 와서"과 "땅", "전화"- 관련 "전자, 전기"와 "이야기, 의사 소통을" " 영화 "- 관련 :"이동, 변경 "및"그림, 이미지 " , 등등.

WordNet 프레임 워크와 WordNet :: Similarity Perl 모듈을 확인했지만 어떤 경우에는 사용할 수 없습니다. 특히 명사를 동사 (예 : 명사 "개"및 동사 " 짖는 소리 "). 또한 WordNet은 모든 synset을 계층 적 구조 (예 : computer -> machine -> device -> instrumentation)로 구성하고 있으며 이는 실제로 프로젝트에서 필요하지 않습니다 (물론 잘못된 것일 수 있습니다).

질문은 - 어떤 프레임 워크 또는 데이터베이스입니까? 문제를 해결하기 위해 어떤 방법을 사용해야합니까? 어디서부터 시작해야합니까?

나에게 조언을 해줄 수 있다면 정말 도움이 될 것입니다.

+0

필요성의 유사성, 관계 및 의미를 체계화해야합니다. 나는 "착륙"과 "토지"사이의 관계와 "착륙"과 "착수"사이의 관계가 다른 의미의 관계라고 생각한다. 메만 틱과 단어들 사이의 관계를 다룰 수있는 프레임 워크가 필요할 수도 있습니다. –

+0

명사와 동사를 연결하기 위해 WordNet의 "파생 적으로 관련있는 양식"을 악용해야합니다. 그러나 ... 개념 관련성을 이해하는 * 실제 * (즉, research'y) 방법은 큰 데이터 집합에 대한 분포 유사성을 사용하여 단어를 모델링하는 것입니다. –

답변

3

word2vec 삽입은 작업에 도움이 될 수 있습니다. 그것은 wordnet보다 훨씬 더 부드러운 유사성을 제공합니다. 여기에서 연결된 사전 훈련 된 임베딩을 얻을 수 있습니다 https://code.google.com/p/word2vec/.