2014-10-26 6 views
7

두 단어 유사성 (다운 스트림 작업을위한 동의어 추출의 일부로)을 수행하려고하는 약 11,000,000 개의 토큰의 데이터 세트로 Word2Vec을 사용하고 있는데, 얼마나 많은 차원을 갖고 있는지 잘 모르겠습니다. Word2Vec과 함께 사용해야합니다. 토큰/문장의 수에 따라 고려해야 할 차원의 범위에 대해 훌륭한 경험을 가진 사람이 있습니까?Word2Vec : 차원 수

+0

100, 100,200,300과 같은 범위의 크기로 시도 할 수 있습니다. 이것은 좋은 결과를주는 것으로 입증 된 것입니다. http://arxiv.org/pdf/1301.3781.pdf –

+0

을 참조하십시오. 구형 패킹의 결과와 범위가 여기에 관련되어 있는지 궁금합니다. https://gilkalai.wordpress.com/2016/03/23/a- breakthrough-by- maryna-viazovska-lead-to-the-a-the-densest-packing-problem-in-dimension-8 및 24/ – arivero

답변

9

일반적인 간격은 100-300입니다. 가장 낮은 정확도를 달성하려면 최소한 50D가 필요하다고 말합니다. 적은 수의 치수를 선택하면 고차원 공간의 특성을 잃게됩니다. 귀하의 응용 프로그램에 대해 교육 시간이 큰 문제가 아니라면 멋진 기능을 제공하므로 200D 치수를 고수 할 것입니다. 300D로 극도의 정확도를 얻을 수 있습니다. 300D 단어 기능이 크게 향상되지 않아 교육이 극도로 늦어집니다.

고차원 공간에서 치수 선택에 대한 이론적 인 설명과 엄격한 범위는 알지 못합니다. (응용 프로그램에 대한 설명이없는 경우도 있습니다) 그림 2의 Pennington et. al을 참조하십시오. 여기서 x 축은 벡터 크기를 나타내고 y 축은 얻은 정확도를 나타냅니다. 그것은 위의 주장에 대한 경험적 근거를 제공해야한다.

+1

참조 "GloVe : 글로벌 벡터 for 워드 표현"은 현재 링크에서 액세스 할 수 있지만 웹의 다른 곳에서는 확실하게 연결할 수 있습니다. – arivero

+0

이것은 기록의 버전 인 것으로 보입니다. http://www.aclweb.org/anthology/D14-1162 다음은 모든 버전의 학술 검색입니다. https://scholar.google.com/scholar ? cluster = 15824805022753088965 & hl = ko & as_sdt = 0,47 –

+0

200d 훈련 된 word2vec가 있습니까? 우리는 200d 장갑을 가지고 있지만 word2vec 장갑을 사용할 수 있습니까? – bicepjai

0

word2vec의 치수는 응용 프로그램에 따라 다릅니다. 가장 경험적인 값은 약 100입니다. 그러면 성능이 뛰어납니다.