같은 여러 텍스트 분석 소프트웨어를 시도하는 당신을 추천 할 것입니다, 나는 확장 된 워드 넷 도메인 (XWN) http://adimen.si.ehu.es/web/XWND 불리는이 프로젝트를 얻었다.
"WordNet 도메인을 자동으로 향상시키는 것을 목표로하는 지속적인 연구"에 따르면 Wordnet 도메인은 XWN과 동일한 목적을 수행하지만 wordnet 2.0 사전 파일로 제한되는 또 다른 프로젝트입니다. XWN은 Wordnet 3.0에서 작동합니다. 테스트를 마쳤지 만 단어에 적합한 도메인을 선택하기위한 기준을 파악할 수 없었습니다. 또 다른 문제는 메모리에서 오프셋을 사용하여 도메인을로드하는 데 많은 시간이 걸리는 것입니다. 이는 각 도메인의 전체 오프셋이 약 1 천 9 백만이기 때문입니다. 또한 XWN에는 약 180 개의 도메인이 포함되어 있습니다. 각 도메인에는 동일한 가중치가 있지만 각기 다른 가중치가 있습니다.
예를 들어, 바이러스가 computer_science에서 0.00007899, 생물학에서 0.08766, 음향에서 7.9866, 법에서 4.97655의 가중치를 갖는 단어를 예로들 수 있습니다. 또한 가중치는 오름차순이며 각 도메인의 처음 몇 단어는 해당 도메인과 밀접한 관련이 있음을 알았습니다. 따라서 도메인을 선택하는 기준을 찾지 못했지만 모든 도메인에 대해 검색된 단어와 관련된 단어 만 의미를 검색하므로 사용하지는 않았지만 최적으로 사용하지 못했습니다.
나는 이것이 누군가를 돕고 다른 누군가가 내가 말한 기준을 이해하기를 바랍니다. 하지만 지금은 도메인과 단어를 매칭시키는 데 사용 된 저자가 같은 방향으로 Wordnet Domain http://wndomains.fbk.eu을 개선 할 것을 제안했습니다.
당신은 꽤 많은 지식을 갖고있는 것처럼 보입니다. 더 자세히 설명해 주시겠습니까? 나는 또한 비슷한 문제에 대해 연구하고 더 많은 것을 알고 싶다. – Ahmedov
@Ahmedov 정확히 알고 싶습니다. 무슨 일을하고 있니? – antorqs
나는 데이터 세트의 큰 코퍼스에 대해 연구 중이다. 근본적으로 나의 문제는 "건초 더미에서 바늘"을 찾는 것입니다. 그래서 나는 동의어 찾기 접근법뿐만 아니라 훌륭한 모호성 제거 알고리즘이 필요합니다. – Ahmedov