2016-07-15 3 views
1

WordNet을 사용하여 한 단어에 대해 컨텍스트 기반 검색을 구현할 가능성을 살펴 보았습니다. 이 아이디어는 다음과 같습니다.컨텍스트 기반 검색 개선

사용자가 바이러스를 검색하면 검색된 단어의 컨텍스트/응용 프로그램이 반환되어야합니다. 여기서는 건강 및 컴퓨팅입니다. 이제 사용자가 컨텍스트를 선택하면 선택한 컨텍스트에 따라 의미가 검색됩니다. WordNet을 사용할 가능성을 확인했지만 WordNet에이 기능이없는 것 같습니다. 나는 또한 단어 감각의 모호성을 보았다. 그러나 그 문장은 한 마디도 아니다. 이것을 어떻게 성취합니까? 이것을 달성 할 수있는 사전이 있습니까? 다른 아이디어에 대한 아이디어가 있습니까?

답변

0

같은 여러 텍스트 분석 소프트웨어를 시도하는 당신을 추천 할 것입니다, 나는 확장 된 워드 넷 도메인 (XWN) http://adimen.si.ehu.es/web/XWND 불리는이 프로젝트를 얻었다.

"WordNet 도메인을 자동으로 향상시키는 것을 목표로하는 지속적인 연구"에 따르면 Wordnet 도메인은 XWN과 동일한 목적을 수행하지만 wordnet 2.0 사전 파일로 제한되는 또 다른 프로젝트입니다. XWN은 Wordnet 3.0에서 작동합니다. 테스트를 마쳤지 만 단어에 적합한 도메인을 선택하기위한 기준을 파악할 수 없었습니다. 또 다른 문제는 메모리에서 오프셋을 사용하여 도메인을로드하는 데 많은 시간이 걸리는 것입니다. 이는 각 도메인의 전체 오프셋이 약 1 천 9 백만이기 때문입니다. 또한 XWN에는 약 180 개의 도메인이 포함되어 있습니다. 각 도메인에는 동일한 가중치가 있지만 각기 다른 가중치가 있습니다.

예를 들어, 바이러스가 computer_science에서 0.00007899, 생물학에서 0.08766, 음향에서 7.9866, 법에서 4.97655의 가중치를 갖는 단어를 예로들 수 있습니다. 또한 가중치는 오름차순이며 각 도메인의 처음 몇 단어는 해당 도메인과 밀접한 관련이 있음을 알았습니다. 따라서 도메인을 선택하는 기준을 찾지 못했지만 모든 도메인에 대해 검색된 단어와 관련된 단어 만 의미를 검색하므로 사용하지는 않았지만 최적으로 사용하지 못했습니다.

나는 이것이 누군가를 돕고 다른 누군가가 내가 말한 기준을 이해하기를 바랍니다. 하지만 지금은 도메인과 단어를 매칭시키는 데 사용 된 저자가 같은 방향으로 Wordnet Domain http://wndomains.fbk.eu을 개선 할 것을 제안했습니다.

1

모호성 제거는 계산상의 큰 문제입니다. 비교적 간단한 것을 할 의향이 있다면 BabelNetBabelfy을 가리킬 것입니다.

첫 번째 것은 거대한 백과 사전이며, 두 번째는 BabelNet 팀에서 개발 한 모호성 제거 시스템입니다.

BabelNet을 사용하면 카테고리와 같은 단어에 대한 몇 가지 메타 데이터가 있으며 자바 API도 있습니다. 어쩌면 당신은 그것에서 무언가를 할 수 있습니다.

또한, 나는 내가 이것을 달성하는 방법을 알아 냈 MeaningCloud

+0

당신은 꽤 많은 지식을 갖고있는 것처럼 보입니다. 더 자세히 설명해 주시겠습니까? 나는 또한 비슷한 문제에 대해 연구하고 더 많은 것을 알고 싶다. – Ahmedov

+0

@Ahmedov 정확히 알고 싶습니다. 무슨 일을하고 있니? – antorqs

+0

나는 데이터 세트의 큰 코퍼스에 대해 연구 중이다. 근본적으로 나의 문제는 "건초 더미에서 바늘"을 찾는 것입니다. 그래서 나는 동의어 찾기 접근법뿐만 아니라 훌륭한 모호성 제거 알고리즘이 필요합니다. – Ahmedov