2016-07-31 4 views
0

기사에서 카테고리를 추출하는 방법에 대한 아이디어가 있거나 길을 줄 수 있습니까?NLP - 텍스트에서 카테고리/태그 추출

내가 가지고있는 것은 내가 일할 수있는 수천 개의 기사 (스포츠, 뉴스, 사업 등에 관한 것)의 모음입니다. 스포츠에 대한 기사를 프로그래머 경우는 축구 나 농구 (또는 다른 뭔가를해야만) 때문에 출력이 뭔가를해야만처럼 될 것입니다 경우

예를 들어, 내가 알고 내 프로그램을 싶습니다

축구 90 %의 농구 10 %

+0

교육용으로 사용할 수있는 기사를 미리 분류 했습니까? – RAVI

+0

나는 소원한다. 그렇다면 그것은 쉬운 기계 학습 문제가 될 것입니다. 내가 이것을 해결할 수 없다면 사전 분류 된 기사로 자료를 찾아야하고 훈련 모델을 구축해야 할 것 같습니다. – Eran

답변

0

나는 이것을 달성하기 위해 몇 가지 기계 학습 접근법을 사용할 수 있다고 생각한다. 내 마음에 오는 것은 tf-idf 통계를 사용하고 있습니다.

과정의 4 주째에 tf-idf 통계를 사용하는 방법을 가르치는 "Machine Learning Foundations: A Case Study Approach"이라는 온라인 코스가 있습니다.

+0

이미 tf-idf 모델을 사용해 보았습니다. 나는 평범한 결과를 얻는다. 기사의 가장 중요한 단어 (Lakers, Kobe 등). 범주는 아님. – Eran

+0

오류 나는 모든 문서에 대해 30 개의 키워드를 사용하고 일부 유형의 클러스터링을 실행한다고합니다. 어떤 K-means 변종은 당신이 원하는 카테고리의 K = 번호로 시작합니다 ... –

0

교육을위한 골드 데이터가 없으므로 먼저 약간을 만들어야합니다.

이를 위해 각 클래스에 대한 자신의 말뭉치를 만들기 위해 등등 수업를 정의 필요하고 각 클래스에 대한 분명한 선택 일부 규칙을 정의

article_text.contains("soccer") 
article_text.contains("Ronaldo") 

을 것이다.

100 % 정확한 교육 데이터는 아니지만 교육 목적으로도 충분할 것입니다.

그런 다음 교육 및 테스트를 위해 모든 ML 알고리즘을 사용할 수 있습니다.