2017-05-07 9 views
0

저는 문장 분석을하고 있습니다. 문장을 이해하고 키 값 쌍에 대한 정보를 해독합니다. 예를 들어의미로 단어를 정규화하십시오.

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "cost": "200 usd" } 

{ "product" : "chair" , "price": "200 usd" } 

지금이 JSON 넣어 위해 같은 내가 그것을 정상화하지 않는 한 사용하기 쉬운 일이 아니다. 돈을 의미하는 모든 단어를 일반화 된 단어로 정규화하고자합니다.

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

는 이제 모두

돈, 비용, 가격은 모두 실제로 돈을 의미 의미한다.

정상화하는 방법이 있나요? nltk에서 검색 한 것은 형태소 분석기와 구형 기호가 있다는 것입니다. 그러나 그것은 내 뜻대로되지 않습니다. 누군가 가이드 할 수 있습니까?

답변

1

NLTK를 사용하고 WordNet synonym set에서 각 키를보고 정식 항목 (예 : 첫 번째 항목)을 가져올 수 있습니다.

코퍼스가 상당히 일반적이라면 충분히 잘할 것입니다. 그러나 기술적 인 언어가 많을 경우이 문제를 해결하기 위해 자신 만의 단어 임베딩 또는 클러스터를 생성해야 할 수도 있습니다.

+1

좋습니다. OP는 특정 도메인에서 작동하고 있으므로 대상에 "정식 항목"목록이 이미있을 수 있습니다. – alexis