으로 번역했습니다. 나는 word2vec 알고리즘의 큰 팬입니다. Google 연구 팀에서 작성한 벡터 바이너리 파일을 얻었습니다. 이전에 구글보다 훨씬 작은 데이터 세트를 만들었습니다.)에 대한 분석을하고 싶습니다.word2vec 가져 오기 및 작업 GoogleNews-vectors-negative300.bin.gz를 R
나는 R.
내가 추출했다으로 파일 구글 뉴스 - 벡터 - negative300.bin.gz을 가져올 수 아니라고, 그리고 txt 파일에 빈에서 변형 (GitHub의에 있음) rword2vec를 사용. 패키지 내부에는 일종의 검색 기능이 있지만 sooo slooow입니다. 왜 내가 지금 구조, R 내부의 파일을 가져 가능하면 dataframe로 변환을 시도하고있다
:
name | vec1 | ... | vec300
나는 (이름을 얻을 수있다), 또한 readBin 내장 시도했다 txt (완료되지 않았습니다) 또는 readr 패키지 및 read_lines (12Mb 큰 벡터 만 만들었습니다)로 readLines
올바른 방향으로 알려주시겠습니까?