word2vec

1열

1답변

비슷한 문장을 찾기 위해 word2vec/doc2vec를 적용하려고합니다. 먼저 단어 유사성에 대한 word2vec를 고려하십시오. 내가 이해하는 바는 CBOW를 사용하면 컨텍스트에서 가장 적합한 단어를 찾을 수 있지만 Skip-gram은 주어진 단어의 컨텍스트를 찾는 데 사용되므로 두 경우 모두 자주 발생하는 단어를 얻게됩니다. 그러나 유사한 단어를 찾는

0열

1답변

부정적인 방법은 gensim에서 모델 성능에 영향을 줍니까?

나는 논문을 읽고있다. 단어와 구문의 분산 된 표현과 그 구성 성. 매우 재미 있지만 매개 변수 '음수'와 최종 실적 사이의 관계가 궁금합니다. 나는 개인적으로 최종 성과가 어떤 가치까지 음의 증가로 나아질 수 있다고 생각합니다. 우리가 비교를 위해 사용하는 부정적인 표본이 많을수록 더 나은 결과를 얻을 수 있습니다. 물론 성능은 어느 시점까지 나아지지 않

1열

1답변

추후 kNN 출력을 위해 tensorflow의 word2vec를 text/binary 파일로 저장하는 방법은 무엇입니까?

나는 tensorflow에서 word2vec 모델을 훈련 시켰습니다. 그러나 세션을 저장하면 model.ckpt.data/.index/.meta 개의 파일 만 출력됩니다. 가장 가까운 단어를 검색 할 때 KNN 방법을 구현할 생각이었습니다. 나는 gensim을 사용하는 것에 대한 해답을 보았지만, 어떻게 텐 플러 플로우 word2vec 모델을 .txt에 먼

2열

1답변

Word2Vec이 제대로 작동하지 않는 스킵 그램

word2vec 유사성 사전을 만들려고합니다. 하나의 사전을 만들 수 있었지만 유사점이 제대로 채워지지 않았습니다. 내 코드에서 아무 것도 놓치고 있습니까? 입력 샘플 데이터 텍스트 TAK PO LUN UNIT 3 15/F WAYSON COMMERCIAL G 28 CONNAUGHT RD WEST SHEUNG WAN - EDDY SUSANTO YAHYA R

0열

1답변

어떤 방법으로 doc2vec 모델을보다 효율적으로 복구 할 수 있습니까?

doc2vec 모델을 교육 한 후에 다른 모듈의 문서 벡터를 다시 사용하고 싶습니다. 이것을 구현하는 방법은 두 가지 인 것 같습니다 : 및 doc-vectors를 사전으로 저장하여 을 저장하십시오. 나는 어느 쪽이 메모리 효율이 더 좋고 대상 모듈에서 더 빨리 읽힐 까?

0열

1답변

word2vec의 어휘 크기 이해

word2vec 알고리즘을 이해하려고하지만 일부 문제로 인해 혼란 스럽습니다. TensorFlow 코드를 사용하고 있습니다. 문제는 내 데이터 크기가 1 억 8,400 만 단어이고 총 220 만 개의 다른 단어가 포함되어 있다는 것입니다. vocabulary_size을 250,000으로 설정했습니다. 그것은 내 네트워크가 실제로 가장 빈번한 250,000

0열

1답변

이 doc2vec/gensim - 내가 노력하고

에폭에서 셔플의 문장과 문제는 word2vec 및 doc2vec이 우수한 자습서, here 및 here을 사용하고 코드 샘플을 사용하려고 시작합니다. 나는 line_clean() 구두점, 불어 등을 제거하는 방법을 추가했습니다. 그러나 훈련 반복에서 호출 된 line_clean() 메서드에 문제가 있습니다. 전 세계적인 방법에 대한 호출이 그것을 망쳐 놓는

0열

1답변

목록을 반복하는 효율적인 방법은 무엇입니까?

Google word2vec에서 중복 된 단어를 찾으려고합니다. 예를 들어 word2vec에는 'Hello'와 'hello'에 대한 두 단어 임베딩이 있습니다. 여기 내 코드는 간단하지만 효율적이지 않습니다. 사전 교육을받은 구글 word2vec 3 만 개 단어를 가지고로 def load_w2v(): openfile = '../Pretrained/word

0열

1답변

gensim의 word2vec 실현은 문맥을 조사 할 때 문장 수준을 넘어서는가요?

문장의 순서가 문제가 될 수 있다는 증거를 제공하는 this question을 발견했습니다 (그러나 효과는 다른 임의적 초기화의 결과 일 수도 있음). 나는 내 프로젝트에 대한 Reddit comment dumps를 처리하기를 원하지만 JSON에서 추출 된 문자열은 정렬되지 않은 수와 매우 다른 subreddits와 주제에 속하는 것, 그래서 나는 엉망 상

1열

1답변

gensim Word2vec 전송 학습 (비 gensim 모델에서)

나는 gensim의 word2vec와 아무런 관련이없는 신경망으로 훈련 된 임베딩 세트를 가지고있다. 이러한 삽입을 gensim.Word2vec의 초기 가중치로 사용하고 싶습니다. 지금 내가 본 것은 model.load(SOME_MODEL) 일 수 있고 훈련을 계속할 수 있지만 입력으로 gensim modle이 필요합니다. 또한 reset_from() 다른