2017-12-15 6 views
0

Google 뉴스 벡터 -300 데이터 세트를로드했습니다. 각 단어는 300 포인트 벡터로 표현됩니다. 나는 분류를 위해 신경망에서 이것을 사용하고 싶다. 하지만 한 단어 300 개가 너무 큰 것 같습니다. 품질을 떨어 뜨리지 않고 어떻게 벡터를 300에서 100으로 줄일 수 있습니까?Google 뉴스 벡터 데이터 세트에서 word2vec 크기를 줄이면

답변

0

@narasimman word2vec 모델의 출력 벡터에서 상위 100 개의 숫자를 유지하는 것이 좋습니다. 당신은 같은 것을 할 수 있도록 출력 타입 numpy.ndarray이다 (!하지 않도록하지만) 나는 당신이 그것을 할 경우이 모든 단어에 결과를 망치는 것이라고 생각하지 않는다

>>> word_vectors = KeyedVectors.load_word2vec_format('modelConfig/GoogleNews-vectors-negative300.bin', binary=True) 
>>> type(word_vectors["hello"]) 
<type 'numpy.ndarray'> 
>>> word_vectors["hello"][:10] 
array([-0.05419922, 0.01708984, -0.00527954, 0.33203125, -0.25  , 
     -0.01397705, -0.15039062, -0.265625 , 0.01647949, 0.3828125 ], dtype=float32) 
>>> word_vectors["hello"][:2] 
array([-0.05419922, 0.01708984], dtype=float32)