word2vec

    7

    1답변

    열린 이름의 엔티티 인식 문제 (생물학/화학, 그래서 엔티티 사전은 존재하지 않지만 컨텍스트로 식별되어야 함)에 적응하는 가장 좋은 모델은 무엇인지 알아 내려고합니다. 현재 Syntaxnet을 적용하여 N, V, ADJ 등으로 태그를 지정하는 대신 BEGINNING, INSIDE, OUT (IOB 표기)으로 태그를 지정하는 것이 가장 좋습니다. 그러나 이러

    -1

    1답변

    gensim을 사용하여 디렉토리에있는 샘플 파일의 word2vec 모델을 만듭니다. 나는 온라인에서 튜토리얼을 따랐다.이 튜토리얼은 디렉토리에서 파일을 읽고 줄 단위로 처리한다. 내 샘플 파일에는 9 줄이 있습니다. 그러나이 코드는 같은 줄 9 번을 제공합니다. 누군가 일어날 일을 설명해 주시겠습니까? class MySentences(object):

    7

    1답변

    각 텍스트가 빠르게 커지는 텍스트 모음이 많습니다. 유사성 검색을 구현해야합니다. 아이디어는 각 단어를 word2vec로 포함시키고 각 단어의 포함을 벡터 추가하여 정규화 된 벡터로 표현합니다. 텍스트에 대한 이후의 추가는 새로운 단어 벡터를 추가함으로써 최종 텍스트의 벡터를 개선하는 결과를 낳을뿐입니다. 각 텍스트의 정규화 된 벡터의 좌표 만 문서에 저장

    0

    1답변

    저는 PyCharm을 사용하고 Word2Vec을 사용하여 단어에 대해 교육 한 모델을로드하고 있습니다. 나는 두 단어 사이의 유사성을 확인했지만,이 오류가 얻을 : # Loading model trained on words model = word2vec.Word2Vec.load('models/text8.model') # Loading m

    0

    1답변

    Heyall, 저는 컴퓨터 과학에서 석사 학위 논문을 연구하고 있습니다. 더 구체적으로, 나는 통계적 의존성 파서의 특징으로 사용될 때 분산 의미 론적 모델의 하이퍼 파라미터를 튜닝하는 효과에 대한 연구를하고있다. 나는 비 결정 론적 신경망 기반 단어 임베딩 소프트웨어 인 word2vec를 사용하고 있습니다. 결과를 검증 할 수 있으려면 모델에서 비 결정론

    2

    1답변

    word2vec (word embedding) 아키텍처를 이해하려고합니다. 그러나 그것에 대해 질문이 있습니다. 먼저 word2vec 모델이 로그 선형 모델 인 이유는 무엇입니까? 출력 레이어에서 소프트 맥스를 사용하기 때문에? 초, 왜 word2vec가 숨겨진 레이어를 제거하나요? 단지 계산상의 복잡성 때문입니까? 세 번째로, 왜 word2vec이 활성화

    6

    1답변

    Word2Vec의 gensim 구현을 사용하고 있습니다. 다음 코드 스 니펫이 있습니다. print('training model') model = Word2Vec(Sentences(start, end)) print('trained model:', model) print('vocab:', model.vocab.keys()) 이 코드는 python2에

    0

    1답변

    저는 약 70k 문장의 코퍼스에 word2vec 모델을 교육했습니다. 각 문장에는 'abc-2011-100'과 같은 고유 키워드가 있으며 그 뒤에는 해당 키워드를 설명하는 특정 기능이 있습니다. 이제 모든 abc id에 대해 분류해야합니다. abc-2011-100은 abc_category_1에 속합니다. abc-2999-0000은 abc_category_2

    1

    1답변

    this paper (Improving document ranking with dual word embeddings)과 같이 word2vec의 출력 임베딩을 사용하고 싶습니다. 입력 벡터가 syn0에 있고 출력 벡터가 syn1에 있고 syn1neg가 음수 샘플링 인 경우 알 수 있습니다. 그러나 출력 벡터로 most_similar를 계산할 때 syn1 또는

    1

    1답변

    나는 word2vec의 C 버전 (https://code.google.com/archive/p/word2vec/에 있음)을 사용하고 있으며 독일어 버전의 Wikipedia (약 17GB 원시 텍스트, ~ 1.4B 단어)의 필터링 된 덤프에 대해 교육하고 있습니다. 나는 다음과 같은 설정을 사용하고 있습니다 : -cbow 1 -size 300 -window