2017-11-12 18 views
-1

현재 텍스트 기반 기계 학습을하고 있습니다. 나는 ML에 처음 온 사람이다. 필자는 Feature1, Feature2 등 value1, value2와 같은 입력 텍스트와 다른 기능을 추출했습니다. ML 알고리즘에 의해 학습 된 출력은 다음과 같은 텍스트 여야합니다 : Output1, Output2. 내가 사용할 수있는 최고의 ML 알고리즘과 훈련 데이터 형식이 무엇인지 알고 싶습니다.기계 학습에서 문자를 특성 및 값으로 제공하는 방법은 무엇입니까?

답변

1

나는 bag of words approach을 조사하는 것이 좋습니다.

기본적으로 각 문서에서 고유 한 단어의 빈도를 계산하고 고유 한 단어가 사용자의 기능인 벡터로 각 문서를 나타냅니다.

그런 다음 사용하기로 결정한 기계 학습 모델의 입력으로 사용할 수 있습니다. 좋은 기계 학습 모델은 k-means clustering 또는 support vector machines 일 수 있지만 "최상의"모델은 해결하려는 문제의 유형에 따라 다릅니다.