word2vec

0열

1답변

나는 gensim library for word2vec을 사용하고 있습니다. 예를 들어, "고양이는 갈색입니다. 몇시에요?"와 같이 관련없는 텍스트 예제를 모델로 훈련시키고 싶습니다. 그러나 나는 모델이 같은 맥락에서 "무엇을" "갈색"하고 있다고 가정인지 궁금하네요, [["The", "cat", "is", "brown"], ["What", "time",

3열

2답변

Tensorflow 모델이 올바르게로드되지 않습니다.

현재 회사의 word2vec 모델을 교육하려고합니다. 나는 https://github.com/tensorflow/models에있는 코드, 특히 https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec.py을 사용했습니다. 독일어 위키피디아 덤프를 다운로드하고 텍스트 정보를 추

1열

1답변

Word2Vec 교육 일정은 얼마나됩니까? 권장 교육 데이터 세트 란 무엇입니까?

저는 TensorFlow 튜토리얼을 사용하여 Word2Vec에 대해 배우고 있습니다. Word2Vec에 대해 실행중인 코드는 TensorFlow 자습서 (https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec_optimized.py)에서도 제공됩니다. 15 개 에포크의 코드

2열

1답변

미리 훈련 된 skip-gram과 skip-n-gram의 벡터

나는 skip-gram 모델의 미리 훈련 된 벡터가 필요한 프로젝트를하고 있습니다. 더 나은 결과를 제공하는 skip-n-gram 모델이라는 변형도 있다고 들었습니다. 내가 직접 모델을 훈련해야하는 이유가 궁금합니다. 내 모델에 대한 임베디드 레이어를 초기화하는 데 필요하기 때문에. 나는 충분히 조사했지만 좋은 예제를 얻지 못했다. 나는 너에게 제안이 필요

1열

1답변

부정 샘플링이 포함 된 Doc2vec 및 word2vec

현재 doc2vec 코드는 다음과 같습니다. # Train doc2vec model model = doc2vec.Doc2Vec(docs, size = 100, window = 300, min_count = 1, workers = 4, iter = 20) 다음과 같이 word2vec 코드도 있습니다. # Train word2vec model model

2열

2답변

word2vec - 무엇이 가장 좋습니까? 단어 벡터를 추가, 결합 또는 평균합니까?

나는 반복적 인 언어 모델을 연구 중이다. 내 언어 모델을 초기화하는 데 사용할 수있는 단어 삽입을 학습하려면 gensim의 word2vec 모델을 사용하고 있습니다. 학습 후 word2vec 모델에는 단어 포함 (입력 행/숨겨진 행 행) 및 컨텍스트 삽입 (숨겨진/출력 행렬 열)이라는 어휘의 각 단어에 대해 두 개의 벡터가 있습니다. 두 매립 벡터에 결합

-1열

1답변

Word2Vec : 값이 낮은 차원으로 매핑되는 방식

크기가 500000 인 어휘를 가지고 있는데, 100-300 사이의 차원 크기를 선택하면이 거대한 드문 드문 한 행렬이 어떻게 100x100 밀도로 변환됩니까? 매트릭스. 기사를 많이 읽었지만 숫자 값이 100 X 100 매트릭스로 어떻게 전달되는지 이해할 수 없었습니다. 나는 CBOW에 대해 읽고 어떻게 작동하는지 이해하는 이론적 그램을 생략하고,하지만

0열

1답변

단어 삽입시 누락 된 단어

만약 내가 word2vec 모델을 가지고 있고 그것을 기차 및 테스트 세트에 모든 단어를 포함시키기 위해 사용한다면. 그러나 적절한 단어를 사용하면 word2vec 모델에 포함되지 않습니다. 그리고 벡터를 모든 적절한 단어에 대한 포함으로 무작위로 추출 할 수 있습니다. 할 수있는 경우, 몇 가지 팁과 참고 문헌을 제공해주십시오. 감사합니다.

-1열

1답변

기계 학습을 위해 이메일 데이터 세트를 사용할 때 이메일 헤더를 무시해야합니까?

기계 학습을위한 이메일 데이터 세트를보고 이메일 내용에 이메일 헤더 정보가 포함되어 있음을 확인했습니다. 이메일 헤더를 무시하거나 건너 뛰고 이메일 내용에 중점을 두는 것이 가장 좋습니다. 또는 헤더를 포함해야합니까? 이것은 당신이하려는 일에 달려 있습니까? 교육용 Word2Vec의 경우 머리글을 사용해야합니까? 이메일을 스팸 또는 비 스팸으로 분류하려면

0열

1답변

부하 사전 교육을받은 단어 묻어

나는 구글 뉴스 model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) print (model.wv.vocab) 에서 사전 교육을받은 단어 묻어을로드 할하지만 오류가 표시되고 : UnicodeEncodeError: '