2011-09-14 3 views
1

문제가있어 어떤 알고리즘을 적용해야하는지 알 수 없습니다. 두 경우에는 클러스터링을 적용 할 생각이지만 사례 1에 대해서는 전혀 알지 못합니다.미리 정의 된 범주를 사용할 수없는 경우 텍스트를 분류하는 방법

나는 5 백만 개의 신용 카드 활동 문서를 가지고 있습니다. 각 문서는 잘 정의되어 있으며 한 줄에 하나의 거래가 들어 있습니다. 날짜, 금액, 소매 업체 이름 및 소매 업체에 대한 간단한 5 ~ 20 단어 설명. 샘플 : 2004-11-47, $ 500, 아마존, 도서, 하드웨어, 음악 등을 포함한 상품 및 서비스를 제공하는 온라인 소매점 질문 : 1. 사전 정의 된 카테고리가없는 경우 각 항목을 어떻게 분류 할 것입니까? 2. "레스토랑", "엔터테인먼트"등과 같이 미리 정의 된 카테고리를 부여받은 경우 어떻게합니까?

+0

이 프로젝트의 목적은 무엇입니까? –

답변

0

1) 사전 정의 된 카테고리가없는 경우 각 항목을 어떻게 분류 할 것입니까?

그렇지 않을 수도 있습니다. 그 대신 데이터의 특징에 대한 차원 감소 알고리즘을 2 차원으로 사용하고 "자연"클러스터의 수를 추측 한 다음 클러스터링 알고리즘을 실행합니다. 당신이 등 "레스토랑", "엔터테인먼트",

수동 그들의 무리에 라벨을 것

가, 그 다음에 분류를 양성하고 미리 정의 된 범주를 주어진 경우에 이런 짓을 했을까 방법

2) 정확성/F1, 교차 검증 등의 일반적인 기계와 얼마나 잘 작동하는지 확인하십시오. 또는 클러스터링 알고리즘이 이러한 카테고리를 잘 선택하는지 여부를 확인하지만 그래도 레이블이 필요한 데이터가 필요합니다.