나는이 단순화 될 수있다 Dataframe 있습니다여러 데이터 프레임 열에 대한 파이프 라인을 만드는 방법은 무엇입니까?
import pandas as pd
df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat',
'url': 'batman.com',
'label':1},
{'title': 'spiderman',
'text': 'spiderman man spider',
'url': 'spiderman.com',
'label':1},
{'title': 'doctor evil',
'text': 'a super evil doctor',
'url': 'evilempyre.com',
'label':0},])
을 그리고 다른 특징 추출 방법을 시도하려는 : 등 TFIDF, 다른 N- 그램 설정을 word2vec, Coutvectorizer을, 그러나 나는 다른 조합을 시도 할 : 하나의 기능 세트는 TFIDF로 변환 된 '텍스트'데이터를 포함 할 것이며, 'url'은 Countvectoriser로, 두 번째는 텍스트 데이터를 w2v로 변환하고, 'url'은 TFIDF로 변환합니다. 결국, 나는 다양한 전처리 전략을 비교하고 최선의 전략을 선택하기를 원한다.
파이프 라인 같은 표준 sklearn 도구를 사용하여 같은 일을 할 수있는 방법이 있나요 :
그리고 여기이 질문입니까?
내 아이디어에는 상식이 있습니까? 어쩌면 내가 누락 된 데이터 프레임의 여러 열을 사용하여 텍스트 데이터를 처리하는 좋은 아이디어가 있을까요?
많은 감사!
답변 해 주셔서 감사합니다. 그러나 텍스트 데이터에서는 작동하지 않는 것으로 보입니다. 값 오류 : 문자열을 부동으로 변환 할 수 없습니다. 예제 데이터 세트로 시도해 볼 수 있습니까? –
네, FunctionTransformer에'validate = False'를 추가하여 숫자 데이터를 확인하지 않아야 할 것 같습니다. 대상 변수를 삭제하고 열 선택 기능을 데이터 프레임과 함께 작동하도록 변경해야했지만 데이터 세트로 테스트 한 결과 현재 작동하고 있다고 생각합니다. 위의 모든 수정 사항으로 업데이트했습니다. – elphz