2011-11-05 4 views
-1

웹에서 일부 텍스트를 마이닝하는 응용 프로그램을 만들려고하고 있지만 텍스트 마이닝을 수행하는 가장 좋은 방법이 무엇인지 잘 모릅니다.텍스트 마이닝의 기본 알고리즘은 무엇입니까?

이 질문에서 내가 원하는 것은 텍스트 마이닝을 수행하고 색인 생성이 아닌 문서에서 정보 검색을 수행하는 데 가장 많이 사용되는 기술/알고리즘이 무엇인지 알고있는 것입니다.

답변

5

텍스트 마이닝은 다소 광범위한 용어로, 대략 텍스트에 적용되는 기계 학습을 의미합니다. 일반적인 기술은 k - 의미있는 클러스터링, Naive Bayes 및 선형 SVM 분류, tf-idf 벡터화, SVD (텍스트에 적용 할 경우 LSA), 잠재 Dirichlet 할당을 포함합니다. 따라서 "일부 텍스트 마이닝"을 수행하는 것은 "일부 정보 검색"을 수행하는 것과 마찬가지로 모든 것을 의미 할 수 있습니다.

Bing Liu의 저서 웹 데이터 마이닝 (영문)을 참조하십시오.