다음 두 세트가 있습니다. 아이디어는 내가 제공 한 몇 가지 메타 태그를 기반으로 뉴스 기사를 분류 할 수있게하는 것입니다. 예를 들어 나는 다음은 범죄 이야기로 분류해야한다 "판사" "5 년"을 가지고 기사를 얻을 때NLTK 분류 및 텍스트 블롭이있는 WordNet
train = [
('Honda', 'cars'),
('Ford', 'cars'),
('Volkswagen', 'cars'),
('Courthouse', 'crime'),
('Police', 'crime'),
('Taurus', 'cars'),
('Chevrolet', 'cars'),
('Sonic', 'cars'),
('Judge', 'crime'),
('Jail', 'crime')
]
test = [
('Porsche', 'cars'),
('Toyota', 'cars'),
('Arrest', 'crime'),
('Prison', 'crime')
]
cl = NaiveBayesClassifier(train)
문제는 내가 실행할 때이 있다는 것입니다 :
for a, b in test:
print a, cl.classify(a)
그것은 분류 모든 것 "자동차"
나는 여기서 의미 론적 유사성 비교를 놓치고 있다고 확신한다. 나는 텍스트 BLOB를 통해 WordNet을 사용하여 시도했다.
나는word = Word("Volkswagen")
for each in word.definitions:
print each
를 실행하지만 그것은 나에게 어떤 결과를 제공하지 않습니다.
문제는 지금 :
가 어떻게 폭스 바겐은 Hyndai 또한 자동차는 것을 깨닫고 올바르게 분류 할 수 있도록 분류에 그 통합, 자동차이라고 말할 워드 넷을받을 수 있나요?