2017-10-20 9 views
1

저는 TensorFlow 튜토리얼을 사용하여 Word2Vec에 대해 배우고 있습니다. Word2Vec에 대해 실행중인 코드는 TensorFlow 자습서 (https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec_optimized.py)에서도 제공됩니다. 15 개 에포크의 코드를 실행했을 때 테스트 정확도는 약 30 %였습니다. 100 개의 신기원을 실행했을 때, 테스트 정확도는 약 39 %까지 올라갔습니다. 저는 교육을 위해 Text8 데이터 세트를 사용하고 평가를 위해 words.txt를 사용하고 있습니다.Word2Vec 교육 일정은 얼마나됩니까? 권장 교육 데이터 세트 란 무엇입니까?

더 많은 신기원을 실행해야합니까? 다른 데이터 세트를 사용해야합니까? 테스트 정확도를 어떻게 향상시킬 수 있습니까?

답변

0

더 큰 데이터 세트가 더 좋습니다. text8은 아주 작아서 단어 벡터의 비유 해소력을 보여주기에 충분하지만 다른 목적으로는 충분하지 않습니다.

반복을 더 많이 수행하면 작은 데이터 집합에서 약간 강한 벡터가 축소되지만 반환 값은 줄어 듭니다. 약한 데이터 집합에 대한 추가 반복 횟수는 더 크고 다양한 자료가 제공 할 수있는 동일한 풍부한 상호 관계를 추출 할 수 없습니다. text8에서 10 배 이상의 반복을 수행하는 것보다 더 나은 평가 결과를 얻을 수 있습니다.

Google이 한 번 공개 한 300 만 개의 사전 훈련 된 벡터 인 GoogleNews 세트는 1000 억 단어 상당의 뉴스 기사의 코퍼스에서 3 개의 패스 만 사용하여 훈련되었습니다.

단어 벡터 품질에 대한 단일 표준이 없음을 유의하십시오. questions-words.txt 비유 해결은 단지 하나의 편리한 평가 일 뿐이지 만 자신의 도메인 별 분석에서는 최상의 단어 벡터가 적합하지 않을 수 있습니다. 마찬가지로 뉴스 기사에서 설정 한 GoogleNews처럼 텍스트의 한 도메인에서 학습 한 단어 벡터는 도메인과 더 잘 일치하는 텍스트 (예 : 포럼 게시물, 과학 기사 등)와 비교할 때 실적이 저조 할 수 있습니다. 모두 다른 방식으로 다른 단어를 사용합니다).

따라서 코퍼스/매개 변수 선택을 조정하는 데 도움이되도록 자신 만의 코퍼스와 목표 별 정량 평가를 사용하는 것이 가장 좋습니다.

+0

고마워요! 나는 더 큰 데이터 세트를 시도 할 것이다. –

+0

큰 데이터 세트는 테스트 정확도를 높였습니다. 데이터 세트와 테스트를 주제 자료와 일치시키는 것이 좋습니다. –