2017-09-13 5 views
2
>>> t = Tokenizer(num_words=3) 
>>> l = ["Hello, World! This is so&#$ fantastic!", "There is no other world like this one"] 
>>> t.fit_on_texts(l) 
>>> t.word_index 
{'fantastic': 6, 'like': 10, 'no': 8, 'this': 2, 'is': 3, 'there': 7, 'one': 11, 'other': 9, 'so': 5, 'world': 1, 'hello': 4} 

나는 상위 단어 3 개만을 갖기를 기대했다. 내가 도대체 ​​뭘 잘못하고있는 겁니까?Keras Tokenizer num_words가 작동하지 않는 것 같음

+0

이 문제도 참조하십시오. https://github.com/fchollet/keras/issues/7836 – petezurich

+1

감사합니다. 다음은 https://github.com/fchollet/keras/issues/7551에도 도움이되었습니다. –

답변

2

당신이하는 일에 아무런 문제가 없습니다. word_index은 나중에 가장 많이 사용되는 단어가 몇 개인지라도 (예 : here 참조) 동일한 방식으로 계산됩니다. 따라서 변환 방법을 호출 할 때 - Tokenizer은 세 가지 가장 일반적인 단어 만 사용하며 동시에 모든 단어의 카운터를 유지합니다. 나중에 사용하지 않을 것이라는 점은 분명합니다.