2016-06-16 6 views
1

doc2vec function에는 size이라는 매개 변수가 있습니다.gensim doc2vec의 크기 매개 변수는 무엇입니까?

은 출력 벡터의 크기이고, size=400 인 경우 size=100보다 더 좋은 내용을 캡처합니다.

그러나 나는 이해하지 못한다. size은 무엇을 의미 하는가? Doc2Vec이 단어에서 얼마나 멀리 훑어보고 다음 단어를 예측할 것인가? 또는 그것이 무엇을 의미합니까?

고마워요,

답변

1

size는 작성된 벡터의 차원의 수이다. 따라서 size=100은 각 문서 (실제로는 document-tag)가 교육에서 100 차원 벡터를 받았다는 것을 의미합니다.

더 많은 차원이 더 나은 것은 아닙니다. 더 느린 교육과 더 큰 모델을 의미합니다. 그리고 작은 데이터 세트로 작업하는 경우 너무 많은 차원이 지나치게 위험 해져서 모델이 데이터의 일반화 가능한 패턴을 나타내지 못하게됩니다.