0

Naive Bayes 모델을 사용하여 긍정적이고 부정적인 리뷰로 200000 개의 리뷰를 구성하는 코퍼스를 교육 중이며 TF-IDF를 수행하면 실제로 테스트 정확도가 50000 개가되는 테스트에서 약 2 % 감소한 것으로 나타났습니다. 그래서 TF-IDF가 작동하는 데이터 또는 모델, 즉 정확도가 사용되는 경우에 어떤 경우에 대한 가정이 있는지 궁금합니다.일반적으로 TF-IDF는 정확도를 언제 낮 춥니 까?

답변

0

TF-IDF까지 알 수있는 기능입니다. TF는 용어 빈도, 즉 문서에서 발생 빈도입니다. IDF는 역 문서 빈도 즉, 용어가 나오는 문서의 빈도입니다.

여기서 모델은 교육 자료에서 TF-IDF 정보를 사용하여 새 문서를 추정합니다. 아주 간단한 예를 들어, 단어가 나쁜 문서는 교육의 단어가 꽤 높은 빈도로 설정되어 감정적 인 레이블이 부정적인 것으로 나타납니다. 따라서 나쁜 것을 포함하는 새 문서는 부정적인 경향이 있습니다.

정확도를 위해 주로 사용 된 음수 또는 양수 단어가 포함 된 훈련 자료를 수동으로 선택할 수 있습니다. 이렇게하면 정확성이 향상됩니다.

4

TF * IDF의 IDF 구성 요소는 경우에 따라 분류 정확성에 해를 줄 수 있습니다.

  • 클래스 A : 텍스트는 단어를 포함하는 '옥수수'
  • 클래스 B : 텍스트 단어를 포함하지 않는 '옥수수

    은 그림을 위해 만든 다음 인공 쉽게 분류 작업을, 가정하자 '

이제 클래스 A에는 100 000 개의 예가 있고 클래스 B에는 1000 개의 예가 있다고 가정 해 보겠습니다.

TFIDF는 어떻게됩니까? 옥상의 역 문서 빈도는 매우 낮을 것이므로 (거의 모든 문서에서 발견되기 때문에), '옥수수'기능은 분류 자에 의해 사용 된 지형지 물의 무게 인 매우 작은 TFIDF를 얻을 것입니다. 분명히 '옥수수'는이 분류 작업을위한 가장 좋은 특징이었습니다. TFIDF가 분류 정확도를 낮출 수있는 경우의 예입니다. 그래서 좀 더 일반적인 용어로 :

  • 클래스 불균형이있을 때. 하나의 클래스에 대한 예가 더 많은 경우 빈번한 클래스의 좋은 단어 기능이 IDF가 낮아 가장 우수한 기능은 클래스 중 하나를 예측하는 빈도가 높은 단어를 사용하는 경우 더 낮은 가중치를 갖습니다 (
  • ). (예를 들어 해당 클래스의 문서 대부분에있는 단어)