word2vec

0열

1답변

빠른 텍스트 용지에 언급 된 파이프 라인이 음의 샘플링 및 heirerchichal softmax 기술을 사용하더라도 속도 향상의 실제 이유는 무엇입니까? 이전 word2vec 논문에서. 나는이 속도를 높이는 실제 차이점을 명확하게 이해할 수 없다.

0열

1답변

특수 목적으로 Word2Vec 모델을 올바르게 훈련하는 방법

제 질문은 Word2Vec 모델의 독특하고 실제적인 사용에 대한 모델 교육에 관한 것입니다. See Word2Vec details here 나는 단어 embeddings 내에서 명사 형용사 (또는)를 식별하는 작업을하고 있습니다. (예 : 데이터 세트의 문장에 '멋진 자동차'가 있습니다.) 코퍼스와 명사 및 형용사의 단어 임베딩을 모두 감안할 때 적절한 연

0열

1답변

word2vec 훈련 과정 설명

나는 word2vec 내에서 skip-gram 모델을 배우려고 노력하고있다. 그러나 나는 몇 가지 기본 개념에 혼란스러워한다. 시작하려면 여기에 예제로 동기 부여 된 모델에 대한 나의 현재 이해가 있습니다. 내가 가서 파이썬 gensim을 사용하고 있습니다. 여기에는 세 문장으로 된 코퍼스가 있습니다.이에서 sentences = [ ['i', 'l

1열

1답변

gensim word2vec 모델에 주어진 텍스트 삽입 모델의 확률을 얻기

gensim word2vec 모델을 사용하여 가장 가능성있는 단어 시퀀스를 얻으려고합니다. 나는 이러한 파일을 제공하는 pretrained 모델을 발견했다 : word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 이 내 코드는이 모델과 문장의 확률을 얻기 위해 노력하고있다 :이 오류가 발생하고이

0열

1답변

Gensim의 Word2Vec에서 model.most_similar를 사용합니다.

Gensim의 'Word2Vec'에 새로 왔습니다. 나는 텍스트 (Wikipedia : Machine Learning에서 추출한)에 대한 Word2Vec 모델을 구축하고 과 유사한 단어을 '기계 학습'으로 찾고 싶습니다. 현재 코드는 다음과 같습니다. # import modules & set up logging from gensim.models impor

0열

1답변

word2vec 모델과 lstm 모델을 통합하는 방법은 무엇입니까?

자연 언어 처리 (NLP) 작업의 경우 word2vec 벡터를 단어의 포함으로 사용합니다. 그러나 여전히 word2vec 모델을 lstm 모델과 통합하는 방법을 이해하지 못합니까? 긴 단시간 (LSTM) 네트워크를 사용하는 정서적 예측과 같은 NLP 작업을 모델링 할 때 어떻게 알 수없는 단어를 처리해야합니까?

0열

1답변

왜 Word2Vec의 most_similar() 함수가 훈련에서 무의미한 결과를 내고 있습니까?

나는 사전 정의 된 키워드 목록에서 코퍼스의 유사한 문맥 단어를 식별하기 위해 이력서 (스톱 워드 제거)에 대한 gensim word2vec 코드를 실행 중입니다. 입력 매개 변수, 스톱 워드 제거 등 여러 반복에도 불구하고 유사한 문맥 단어가 전혀 의미가 없습니다 (거리 또는 컨텍스트 측면에서) 예 : 55,418 문장 : 상관 관계 매트릭스는 여러 번

0열

1답변

gensim과 문장 일치 word2vec : 수동으로 채워진 모델이 작동하지 않습니다.

단어 벡터 합계 및 결과 비교라는 순진한 접근 방식을 사용하여 문장 비교 문제를 해결하려고합니다. 내 목표는 사람들을 관심 분야별로 매치시키는 것이므로 데이터 세트는 이름과 취미를 설명하는 짧은 문장으로 구성됩니다. 일괄 처리는 매우 작고 수백 명에 불과하므로 doc2vec를 파헤 치기 전에 시도해보고 싶었습니다. 데이터를 완전히 청소하고, 중지 단어를 제

0열

1답변

두 문건의 단어 쌍 사이의 단어 이동 거리 계산

WMD paper에 따르면 여행 비용 또는 단어 쌍 간의 유클리드 거리는 아래 그림과 같은 방식으로 계산됩니다. 특정 순서 현명한 쌍 계산이 거리? 이와 같이 그림이나 오바마의 거리에있는 각 문서의 첫 번째, 두 번째 등은 D0의 네 단어 전부에서 계산 된 다음이 네 가지 중 최소값이 그림에만 표시됩니다. 누군가가 어떻게 작동하는지 설명 할 수 있습니까?

0열

4답변

필요 Word2Vec

사용하는 동안 나는이 목록에 문자열의 수가 많은 : 을 목록 내용의 작은 예는 다음과 같습니다 [ "기계 학습", "애플", "금융" "AI", "Funding"] 저는 이것을 벡터로 변환하여 클러스터링 목적으로 사용하고 싶습니다. 해당 벡터를 찾는 동안 문장의 이러한 문자열의 컨텍스트를 고려합니까? 문자열이 포함 된 목록 만 있으면이 문자열의 벡터를 가져