나는 판다 (Pandas)에 2 개의 열을 가지고 있습니다 : A와 B는 각각 용어의 문자열을 포함하고 있습니다. 내 목표는 열 A와 가장 유사한 B 열의 항목을 찾는 것입니다. 이미이 작업을 수행하기 위해 TF-IDF를 사용하고 있지만 경우에 따라 분명히 일치하지 않는 동의어가있는 경우가 있습니다. 돈과 통화.파이썬 텍스트 매칭 - 동의어
동의어를 포함하는 일치를 어떻게 찾을 수 있습니까?
나는 판다 (Pandas)에 2 개의 열을 가지고 있습니다 : A와 B는 각각 용어의 문자열을 포함하고 있습니다. 내 목표는 열 A와 가장 유사한 B 열의 항목을 찾는 것입니다. 이미이 작업을 수행하기 위해 TF-IDF를 사용하고 있지만 경우에 따라 분명히 일치하지 않는 동의어가있는 경우가 있습니다. 돈과 통화.파이썬 텍스트 매칭 - 동의어
동의어를 포함하는 일치를 어떻게 찾을 수 있습니까?
개별 단어 쌍으로 작업하는 경우 TF-IDF가 어떻게 사용되는지 잘 모르겠습니다.
어쨌든, 여기에는 두 가지 분명한 해결책이 있습니다.
전통적인 지식 기반을 사용하면이 사용 사례에 대해 Wordnet을 권장하며 널리 업계 표준으로 간주됩니다.
두 번째 옵션은 기계 학습 알고리즘 인 Word2Vec (또는 Glove와 같은 변형)을 사용하는 것입니다. Google News과 같이 이미 훈련 된 모델을 사용하면 이것이 가장 쉬운 솔루션이라고 말할 수 있습니다. 모델을로드하고 유사점을 계산하려면 Gensim's implementation을 조사하십시오.