0

저는 AI에게 새로운 꿀벌이며 다음 운동을 수행하고 싶습니다. 내가 좋아하는 아래와 같은 일부 기업의 기업 목록을 가지고 -카테고리 파이썬에서 텍스트 분석을 사용하는 사업부

는 시나리오 :

1. AI 
2. Artificial Intelligence 
3. VR 
4. Virtual reality 
5. Mobile application 
6. Desktop softwares 

아래와 같이 그들을 분류 할 :

Technology     ---> Category 
1. AI      ---> Category Artificial Intelligence 
2. Artificial Intelligence ---> Category Artificial Intelligence 
3. VR      ---> Category Virtual Reality 
4. Virtual reality   ---> Category Virtual Reality 
5. Mobile application  ---> Category Application 
6. Desktop softwares  ---> Category Application 
당신은 파이썬을 사용하여 달성 할 수있는 방법을 제안 해주십시오 수 내가 AI 또는 인공 지능 같은 텍스트를받을 때

즉, 그것은 AI & 예술을 식별해야합니다 ificial 인텔리전스를 하나로 모으고 두 키워드를 인공 지능 카테고리에 넣습니다.

내가 따르는 현재의 접근법은 테이블을 사용하지만, 조회 테이블을 사용하는 대신 기술을 분리 할 수있는 Python을 사용하여 위 입력에 대한 기술/비즈니스에 텍스트 분류를 적용하려고합니다.

관련 방법을 제안 해주세요.

+0

얼마나 많은 데이터가 당신에 훈련 할 수 있습니까? 즉, 많은 양의 데이터가 있습니까? – Jarad

+0

약 1000 건 –

답변

1

여기 sklearn을 사용하는 한 가지 방법이 있습니다. 과거의 경우에는 LabelBinarizer()을 사용했지만 X, y를 입력으로 받아들이지 않기 때문에 파이프 라인에서는 작동하지 않습니다.

초보자 인 경우 파이프 라인은 다소 혼란 스러울 수 있지만 본질적으로 분류기로 전달되기 전에 단계적으로 데이터를 처리합니다. 여기서는 X을 ngram "행렬"(표)의 단어 및 문자 토큰으로 변환 한 다음이를 분류 자로 전달합니다.

import numpy as np 
from sklearn.linear_model import LogisticRegression 
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.pipeline import Pipeline, FeatureUnion 

X = np.array([['AI'], 
     ['Artificial Intelligence'], 
     ['VR'], 
     ['Virtual Reality'], 
     ['Mobile application'], 
     ['Desktop softwares']]) 
y = np.array(['Artificial Intelligence', 'Artificial Intelligence', 
     'Virtual Reality', 'Virtual Reality', 'Application', 'Application']) 

pipeline = Pipeline(steps=[ 
    ('union', FeatureUnion([ 
     ('word_vec', CountVectorizer(binary=True, analyzer='word', ngram_range=(1,2))), 
     ('char_vec', CountVectorizer(analyzer='char', ngram_range=(2,5))) 
     ])), 
    ('lreg', LogisticRegression()) 
    ]) 

pipeline.fit(X.ravel(), y) 
print(pipeline.predict(['web application', 'web app', 'dog', 'super intelligence'])) 

는 예측합니다 :

['Application' 'Application' 'Virtual Reality' 'Artificial Intelligence'] 
+0

감사합니다. 네가 무슨 짓을했는지 이해해 주겠니? –