-4

단어 및 텍스트의 데이터 세트가 있고 예를 들어 단어를 구별하기 위해 클러스터 (K- 평균) 또는 다른 감독되지 않은/감독 된 학습 방법을 만들고 싶습니다. 'John'이라는 단어가 분류됩니다 이름으로 (그리고 다른 사람 이름들과 묶일 것입니다.) '브라질'을 장소로 ... 문제를 해결하는 데 사용할 수있는 모델이 있습니까? 나는 Ngrams 들었하지만 난 당신이텍스트 마이닝 및 기계 학습

+0

"name"과 "place"에만 관심이 있다면 명명 된 엔티티 솔루션을 찾아야합니다. 그렇지 않으면 라벨이 붙은 데이터의 좋은 출처를 찾고/개발하고 그에 기반한 분류자를 배울 수 있습니다. – greeness

+0

당신은 * 감독 된 * 과제, 분류에 대해 설명하고 있습니다. –

+0

데이터를 클러스터링 한 다음 의사 결정 경계를 만들면 단어 유형을 근사시킬 수 있습니다 (클러스터는 결국 클래스로 레이블 지정됩니다) – DavidOooO

답변

0

어떻게 word2vec 및 묻어에 대한 멋진 될 것입니다 어떤 증거를 가지고있는 경우 X, Y 플롯 또는
P.S에 Ngrams 확률을 플롯하는 방법을 몰라?
https://deeplearning4j.org/word2vec

+0

미리 정의 된 클래스가 없으면 word2vec를 사용하는 것이 좋습니다. 여기서 당신은 tensorflow의 솔루션입니다 https://www.tensorflow.org/versions/r0.11/tutorials/word2vec/index.html 단어를 벡터 형식으로 표현한 다음 예를 들어 코사인 거리를 사용하여 표현할 수 있습니다 클러스터링을 수행하십시오. 사전 정의 된 클래스가있는 경우 감독 학습을 사용해야합니다. – Rob