2017-05-19 11 views
0

Java의 WEKA 라이브러리에 의한 텍스트 마이닝 프로젝트를 진행 중입니다. 전처리 단계에서 StringToWordVector 필터를 적용했습니다. 이 필터에서는 토큰 화, 단어 제거 제거, 형태소 분석 및 TF-IDF 가중치 지정과 같은 몇 가지 옵션을 설정했습니다.
몇 가지 질문이 있습니다. 1- 모든 텍스트 마이닝 프로젝트에서 기능 선택 프로세스를 수행해야합니까? 2 - 문서의 유사성을 추정하는 것이 필요합니다. 예 : 코사인 유사성을 사용하여? 또는이 두 옵션은 선택 사항입니까? 이며 StringToWordVector 필터 중 일부는 필터입니까?기능 선택 및 텍스트 마이닝의 문서 유사성 평가

답변

0
  1. 필요하지 않습니다. 아무도 그 단계를 부과하지 않습니다. 그러나 결과는 일반적으로 적절한 기능 선택 방법으로 향상됩니다.

  2. 이것이 프로젝트의 목표라면 필요합니다. 어떤 수단으로도 부과되지 않습니다. StringToWordVector 필터는 추가 처리 또는 분석을 위해 문자열을 wordVectors로 변환합니다. 데이터에서 계산 한 것은 귀하에게 달려 있습니다. 유사성 척도가 필요하다면 코사인 거리가 적절한 척도입니다.