MySentences 클래스를 사용하여 디렉토리의 모든 파일에서 문장을 추출하고이 문장을 word2vec 모델에 사용합니다. 내 데이터 세트의 라벨이 지정되지 않았습니다. class MySentences(object):
def __init__(self, dirname):
self.dirname = dirname
def __it
이 내 팬더 데이터 프레임이 같은 같습니다 Movieid review movieRating wordEmbeddingVector
1 "text" 4 [100 dimensional vector]
나는 doc2vec 구현을 실행하려고하고 내가 영화 IDS에 의해 그룹에 수 있어야합니다 및 는 wordEmbeddingVector의 벡터의 합을 타고
gensim 0.11.1 버전의 Doc2Vec에서 보이지 않는 문서의 벡터를 가져 오는 방법이 있습니까? 예를 들어, 내가 백만에 모델을 훈련 가정 - 나는 그 1000 개 문서에 대한 의 DoC 벡터받을 수 있습니까? 보이지 않는 문서의 문서 벡터를 얻으려면 같은 어휘에서 가져온 방법이 있습니까? 첫 번째 글 머리를 들어
doc2vec function에는 size이라는 매개 변수가 있습니다. 은 출력 벡터의 크기이고, size=400 인 경우 size=100보다 더 좋은 내용을 캡처합니다. 그러나 나는 이해하지 못한다. size은 무엇을 의미 하는가? Doc2Vec이 단어에서 얼마나 멀리 훑어보고 다음 단어를 예측할 것인가? 또는 그것이 무엇을 의미합니까? 고마워요,