2017-04-18 43 views
0

wiki (한국어)를 사용하는 사전 교육 된 '빠른 텍스트 모델'이 왜 제대로 작동하지 않는지 궁금합니다. :(두 문장 사이에 pretrained fasttex 모델의 cosine_similarity가 높은 이유는 무엇입니까?

모델 = fasttext.load_model ("./ fasttext/wiki.ko.bin")

model.cosine_similarity ("테스트 테스트 이건 테스트 문장", "지금 아무 관계없는 글 정말로 정말로") model.cosine_similarity (영어)

0.99 .... ?? 는 그 문장이 아닌 ("모든 관련 문서 정말 정말 지금", "시험 시험이 시험 문장") 모든 의미에서 상대적인 것입니다. 따라서 나는 코사인 그러나 이건 0.997383 ...

고독한 문장을 빠른 텍스트와 비교하는 것은 불가능합니까? 그래서 doc2vec를 사용하는 유일한 방법입니까?

답변

0

어떤 '빠른 텍스트'코드 패키지를 사용하고 있습니까?

cosine_similarity()은 원시 문자열을 취하고 각 예제의 단어를 자동으로 토큰 화/결합하여 문장 수준의 유사성을 부여합니까? (해당 기능이 문서 또는 예제를 통해 암시되어 있습니까? 아니면 사전에 토큰 화 된 단어 목록이 필요합니까?)