2017-01-27 5 views
0

으로 번역했습니다. 나는 word2vec 알고리즘의 큰 팬입니다. Google 연구 팀에서 작성한 벡터 바이너리 파일을 얻었습니다. 이전에 구글보다 훨씬 작은 데이터 세트를 만들었습니다.)에 대한 분석을하고 싶습니다.word2vec 가져 오기 및 작업 GoogleNews-vectors-negative300.bin.gz를 R

나는 R.

내가 추출했다으로 파일 구글 뉴스 - 벡터 - negative300.bin.gz을 가져올 수 아니라고, 그리고 txt 파일에 빈에서 변형 (GitHub의에 있음) rword2vec를 사용. 패키지 내부에는 일종의 검색 기능이 있지만 sooo slooow입니다. 왜 내가 지금 구조, R 내부의 파일을 가져 가능하면 dataframe로 변환을 시도하고있다

:

name | vec1 | ... | vec300 

나는 (이름을 얻을 수있다), 또한 readBin 내장 시도했다 txt (완료되지 않았습니다) 또는 readr 패키지 및 read_lines (12Mb 큰 벡터 만 만들었습니다)로 readLines

올바른 방향으로 알려주시겠습니까?

답변

0

나는 마침내 길을 발견했다.

패키지 rword2vec을 사용하면 bin_to_txt 함수 나 패키지에 제공된 프레임 워크를 사용할 수 있습니다. 자세한 내용은 제공된 비 네트를 참조하십시오.

library(rword2vec) 
dist=distance(file_name = "GoogleNews-vectors-negative300.bin",search_word = "king",num = 10) 
dist 
  word    dist 
1   kings 0.713804960250854 
2   queen 0.651095926761627 
3  monarch 0.641319692134857 
4 crown_prince 0.620422065258026 
5  prince 0.615999639034271 
6  sultan 0.586482524871826 
7   ruler 0.579756796360016 
8  princes 0.564655303955078 
9 Prince_Paras 0.543294668197632 
10  throne 0.542210519313812