답변

2

문장이 동일한 언어입니까? 영어로되어 있다면 Google에서 다운로드 할 수있는 미리 짜여진 word2vec 파일로 시작할 수 있습니다. 줄무늬가 적용되었는지 등 기차 파일이 어떻게 생성되었는지주의를 기울이십시오. 또한 생성 된 코퍼스에서 어느 정도 중요합니다. 뉴스 그룹이나 웹이나 공식적인 텍스트에서 추출한 것이라면 다른 결과를 얻을 수 있습니다.

Word2Vec는 기본적으로 모든 단어를 높은 차원의 벡터 공간으로 인코딩합니다. 이것은 대개 200,300 또는 500 치수입니다. 그것이 훈련 된 후에, "시험"문장은 기본적으로 단어의 모음이며 어떤 순서로도 될 필요가 없습니다.

그러면 단어 가방에있는 각 단어에 대해 해당 단어 2vec 벡터를 찾습니다. 그런 다음 벡터를 평균하여 '최소값', '최대 값'을 구하고 텍스트를 비교하는 경우 벡터 사이의 코사인 유사성을 계산하여 모양을 만들 수 있습니다. 그런 다음 SVM에서 이러한 기능을 사용하십시오.