word2vec

1열

1답변

python에서 유사도 전파를 사용하여 word2vec 벡터 클러스터링 (sklearn)

친화도 전파를 사용하여 내 word2vec 클러스터를 클러스터링하고 클러스터 중심 단어를 가져 오려고합니다. 현재 코드는 다음과 같습니다. 나는 300 word2vec에게 숨겨진 레이어의 차원을 의미하고, 77 내 어휘의 크기가 알고있는 것처럼 ValueError: S must be a square array (shape=(77, 300)) : model

0열

1답변

여러 모델 파일이 왜 gensim word2vec에서 생성됩니까?

word2vec 모델 (음 샘플링을 사용한 스킵 그램)을 만들려고하면 다음과 같이 3 개의 파일을 출력으로 받았습니다. 이것이 내가 하나 개의 모델 (NO NPY 파일)을받은 word2vec 내 이전 테스트 예제로 발생하는 이유 word2vec (File) word2vec.syn1nef.npy (NPY file) word2vec.wv.syn0.npy (

0열

1답변

Word2vec 손실 함수가 폭발 함

tensorflow 자습서의 basic word2vec 스크립트를 사용하고 있습니다. 약 100M의 텍스트 파일에서 실행 중이며 정상적으로 시작되지만 잠시 후에 손실 기능이 폭발합니다. 부정적인 샘플링을 사용하는 동안 어떻게 이런 일이 발생할 수 있는지 더 잘 알고 싶습니다. 내 데이터 세트가 너무 작거나 내부 속성이 꺼져 있다고 생각합니까?

1열

1답변

word2vec tensorflow에서의 실행 흐름

지난 며칠 동안 코드 https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec.py#L28에서 실행 흐름을 파악하려고 노력했습니다. 부정적인 샘플링과 손실 기능의 논리를 이해했지만 기차 기능 내부에서 실행 흐름에 대해 매우 혼란스러워졌습니다. 특히 _train_thread_b

1열

1답변

Gensim의 FastText

Gensim을 사용하여 단축키 .vec 파일을 다음과 같이로드합니다. m=load_word2vec_format(filename, binary=False) 그러나 나는 등 m.most_similar("dog"), m.wv.syn0, m.wv.vocab.keys() 같은 명령을 수행 할 수 .bin 파일을로드해야하는 경우 단지 혼란 스러워요? 그렇다면 어떻

0열

1답변

ML 모델을 사용하는 많은 요청 처리하기

사용자가 보내는 모든 메시지를 다른 ML 관련 작업을 위해 벡터로 변환해야하는 chat-bot을 만들고 있습니다. 나는 이것을하기 위해 미리 훈련 된 Word2Vec 모델을 사용하고있다. Word2Vec 모델은 Gensim 라이브러리를 사용하여 생성되었으며 디스크에 600MB 파일로 저장되며 Django/Python 웹 응용 프로그램에서 사용됩니다. 새 메

0열

1답변

다른 모델의 단어를 결합한 단어 벡터 모델 만들기

word2vec 알고리즘을 사용하여 만든 두 가지 단어 벡터 모델이 있습니다. 지금 나는 직면하고있는 문제는 첫 번째 모델의 몇 마디가 두 번째 모델에 없다는 것입니다. 나는 단어 벡터의 의미와 맥락을 잃지 않고 두 모델의 단어 벡터를 사용할 수있는 두 가지 다른 단어 벡터 모델로 세 번째 모델을 만들고 싶습니다. 나는 이것을 할 수 있습니까? 그렇다면 어

0열

1답변

Gensim word2vec/doc2vec 멀티 스레딩 병렬 쿼리

model 개체의 동일한 복사본에 model.wv.most_similar_cosmul을 multiple cores을 사용하여 batches of input pairs에 전화하고자합니다. multiprocessing 모듈은 model의 사본이 여러 개 필요합니다. model은 RAM이 30GB 이상이므로 너무 많은 RAM이 필요합니다. 내 쿼리 쌍을 평가하려

2열

1답변

nce_loss()의 Tensorflow num_classes 매개 변수

잡음 대조 계산을 이해하면 단어 삽입 (음수 샘플)에서 일부 벡터를 샘플링 한 다음 각각의 로그 가능성을 계산할 수 있습니다. 그런 다음 목표 단어의 확률과 음의 샘플 단어 각각의 로그 가능성 사이의 차이를 최대화하고 싶습니다 (따라서이 문제에 대해 정확하다면 손실 함수를 최적화하여 가능한 한 1). 내 질문은 이것이다 : nce_loss 함수에 num_c

0열

1답변

word2vec를 사용하여 분류자를 훈련시키는 방법은 무엇입니까?

이 코드는 word2vec를 생성하고 순진한 베이 즈 분류자를 훈련시키는 데 사용됩니다. 나는 word2vec를 생성 할 수 있었고 similarity 함수를 성공적으로 사용할 수 있었다. 다음 단계에서는 naive bayes 분류자를 훈련시키기 위해 word2vec를 사용하고 싶다. 현재 테스트 및 교육에서 데이터를 줄이려고 할 때 오류가 발생했습니다.