2017-10-25 8 views
0

만약 내가 word2vec 모델을 가지고 있고 그것을 기차 및 테스트 세트에 모든 단어를 포함시키기 위해 사용한다면. 그러나 적절한 단어를 사용하면 word2vec 모델에 포함되지 않습니다. 그리고 벡터를 모든 적절한 단어에 대한 포함으로 무작위로 추출 할 수 있습니다. 할 수있는 경우, 몇 가지 팁과 참고 문헌을 제공해주십시오. 감사합니다.단어 삽입시 누락 된 단어

답변

0

당신이 무엇을 요구하고 있는지 명확하지 않습니다. 특히 "적절한 단어"는 무엇을 의미합니까?

그러나 훈련 후, 당신은 모델이 될 것으로 기대 단어가 모델에없는 경우, 그는 보통 다음 두 경우에 발생한다 :

(1) 전처리 방법에 문제가/당신의 신체를 토큰 화, 그래서 당신이 생각한 단어는 제공되지 않았습니다. 따라서 어떤 데이터를 훈련에 전달하는지 다시 확인하십시오.

(2) 매개 변수와 기대의 불일치. 예를 들어 min_count (일부 word2vec 라이브러리의 기본값)으로 학습을 수행하면 5 회 미만의 단어는 무시되어 단어 벡터를받지 못합니다. (일반적으로 저음역 단어는 좋은 단어 벡터를 얻을 수 없지만 다른 단어와 섞여 있으면 다른 단어의 훈련을 가볍게 방해 할 수 있기 때문에 전반적인 단어 - 벡터 품질에 좋은 점입니다.)

일반적으로 입력을 이중으로 확인하고 문제의 의심스러운 지표를 로깅하고 관찰 할 수 있으며 사후 교육 모델에 포함 된 내용을주의 깊게 검토하면 문제가 무엇인지 추론 할 수 있습니다.

+0

나는이 질문의 저자는 사전 배선 된 단어 삽입이 Amazon에서 판매되는 제품과 같은 데이터에 적용되는 경우 미리 짜 넣어 진 임베딩에서 누락 된 많은 단어가 무엇인지 의미합니다. – neurite

+1

알려지지 않은 단어를 무시하는 것은 임의의 벡터를 제공하는 것보다 낫습니다. 그러나 알려지지 않은 단어의 예가 많은 코퍼스가 있다면, 자신 만의 벡터를 훈련시킬 수 있습니다. (실제로 충분히 큰 경우 일부 코퍼스에서 빌린 단어 벡터보다 도메인 자체의 단어 벡터가 더 좋을 수 있습니다.) Facebook의 FastText 변형 word2vec는 이전에 비해 훨씬 더 나은 벡터를 합성 할 수 있습니다 단어 조각 벡터에서 보이지 않는 단어 - 공유 된 단어 뿌리 또는 맞춤법 오류로 인해 '새로운'단어 의미를 나타낼 수 있습니다. – gojomo

+0

다음은 [FastText out-of-vocabulary words] (https://github.com/facebookresearch/fastText#obtaining-word-vectors-for-out-of-vocabulary-words) – neurite