2

필자가 보유한 데이터로 내 기계 학습 모델에 대해 어떤 기능을 갖게되는지 연구 중입니다. 내 데이터에는 많은 텍스트 데이터가 포함되어 있으므로 귀중한 기능을 추출하는 방법이 궁금합니다. 이전의 신념과는 달리 이것은 종종 bag-of-words 또는 word2vec와 같은 표현으로 구성됩니다. (http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)기계 학습 모델의 기능으로 텍스트 감정을 사용 하시겠습니까?

주제에 대한 이해가 제한되어 있기 때문에 왜 텍스트를 분석 할 수 없는지 이해할 수 없습니다. 먼저 숫자 값을 가져옵니다. (예 : textBlob.sentiment = https://textblob.readthedocs.io/en/dev/, Google Clouds Natural Language = https://cloud.google.com/natural-language/)

내 컴퓨터 학습 모델의 기능으로이 값을 사용할 수 있습니까?

미리 도움을 청하십시오!

답변

0

물론 텍스트 입력 단일 숫자를 정서 분석으로 변환 한 다음이 숫자를 기계 학습 모델의 기능으로 사용할 수 있습니다. 이 접근 방식에는 아무런 문제가 없습니다.

질문은 텍스트 데이터에서 추출 할 정보의 종류입니다. 감정 분석은 텍스트 입력을 -1에서 1 사이의 숫자로 변환하므로 숫자는 텍스트의 양수 또는 음수를 나타냅니다. 예를 들어 음식점에 대한 고객 의견의 감성 정보를 통해 만족도를 측정 할 수 있습니다. 이 경우 텍스트 데이터를 사전 처리하기 위해 정서 분석을 사용하는 것이 좋습니다.

하지만 다시 말해서 정서 분석은 긍정적이거나 부정적인 텍스트가 어떻게되는지에 대한 아이디어 만 제공됩니다. 텍스트 데이터를 분류하고 정서 정보는 텍스트의 유사성에 대한 정보를 제공하지 않으므로이 경우 유용하지 않습니다. 따라서 word2vec 또는 bag-of-word와 같은 다른 방법이 이러한 작업에서 텍스트 데이터를 표현하는 데 사용됩니다. 이러한 알고리즘은 단일 숫자의 텍스트 인스턴스에 대한 벡터 표현을 제공하기 때문입니다.

결론적으로 접근법은 특정 작업을 위해 데이터에서 추출해야하는 정보의 종류에 따라 달라집니다.

+0

답변 해 주셔서 감사합니다. 고마워, 고마워. 나는 youtube, twitter 및 facebook에서 userdata에 기초를 둔 영화의 박스 오피스 succes를 예측하는 모델을 만들고 있습니다. 나는 그 정서가 가치있는 특징이라고 말하고 싶다. 게다가, 텍스트를 클러스터링 또한 내 경우에는 사용할 수 있습니까? – Lourens

+0

아니요, 문제는 클러스터링이 아니라 성공을 측정하는 방법에 대한 회귀 또는 분류 작업을 기반으로합니다. 나는 정서 분석이 당신의 문제를 해결한다고 생각합니다. 왜냐하면, 사용자의 코멘트가 박스 오피스보다 영화에 대해 긍정적이라면, 그 반대도 마찬가지입니다. –