2014-03-31 14 views
3

관심있는 텍스트 코퍼스에서 단어 벡터에 액세스 할 수 있습니다. 이제 내가 직면 한 문제는이 벡터들이 대소 문자를 구분한다는 것입니다. 예를 들어 "그"와 "그"가 "그"와 다르다는 것입니다.word2vec : 대소 문자를 구분하지 않고 비슷한 단어 찾기

라는 단어에 가장 유사한 단어를 찾을 싶다 "그"는 대소 문자를 구분 방식이다. Google word2vec 패키지와 함께 번들로 제공되는 distance.c 프로그램을 사용합니다. 여기에 내가 겪고있는 문제가있다.

은 내가 distance.c 실행에 "그 HIM 그"인수로 전달해야합니다. 이렇게하면 3 단어로 닫힌 단어를 보냈습니다.

또는 distance.c 프로그램을 3 개의 각 인수 ("그"와 "그"와 "그")와 따로 따로 실행해야합니다. 그런 다음이 목록을 합쳐 합리적으로 가장 유사한 말? 제발 제안 해주세요.

답변

0

비슷한 단어를 대소 문자를 구분하지 않고 찾으려면 모든 단어 벡터를 소문자 또는 대문자로 변환 한 다음 distance.c의 컴파일 된 버전을 실행해야합니다.

이 표준 쉘 도구를 사용하여 수행 할 매우 쉽습니다. 파일에 원본 데이터가 input.txt라고하면

예를 들어, 다음은 대부분의 유닉스 쉘에서 작동합니다.

+1

글쎄, 그렇게하기가 쉽다. 문제는 매우 큰 데이터 집합에서 생성 된 이진 워드 벡터에만 액세스 할 수 있다는 것입니다. – suzee

+0

@suzee, 이진 워드 벡터 형식은 정확히 어떻게 지정됩니까? 특정 단어의 출현 여부를 나타내는 비트입니까? – merlin2011

+0

안녕 Merlin, 마지막 코멘트를 드려서 죄송합니다. 내가 의미하는 바는 워드 벡터의 바이너리 파일 (.bin)이다. – suzee

0

바이너리 형식을 텍스트로 변환 한 다음 적절하게 조작 할 수 있습니다.