문제가있어 어떤 알고리즘을 적용해야하는지 알 수 없습니다. 두 경우에는 클러스터링을 적용 할 생각이지만 사례 1에 대해서는 전혀 알지 못합니다.미리 정의 된 범주를 사용할 수없는 경우 텍스트를 분류하는 방법
나는 5 백만 개의 신용 카드 활동 문서를 가지고 있습니다. 각 문서는 잘 정의되어 있으며 한 줄에 하나의 거래가 들어 있습니다. 날짜, 금액, 소매 업체 이름 및 소매 업체에 대한 간단한 5 ~ 20 단어 설명. 샘플 : 2004-11-47, $ 500, 아마존, 도서, 하드웨어, 음악 등을 포함한 상품 및 서비스를 제공하는 온라인 소매점 질문 : 1. 사전 정의 된 카테고리가없는 경우 각 항목을 어떻게 분류 할 것입니까? 2. "레스토랑", "엔터테인먼트"등과 같이 미리 정의 된 카테고리를 부여받은 경우 어떻게합니까?
이 프로젝트의 목적은 무엇입니까? –