2016-10-25 4 views
1

나는 변환 범주 변수범주 변수 : 치수 불일치

import numpy as np 
import pandas as pd 
import sklearn 
from sklearn.base import BaseEstimator, TransformerMixin 
from sklearn import linear_model 
from sklearn.pipeline import Pipeline 
df = pd.DataFrame({'a':range(6), 'c':['a', 'b', 'c']*2, 'd': ['m', 'f']*3  }) 
X = df[['c', 'd']] 
y = df['a'] 

regressor = linear_model.SGDRegressor() 

에 맞습니다 범주 변수

class Cat(TransformerMixin): 

    def transform(self, X, **transform_params): 
     enc = DictVectorizer(sparse = False) 
     enc_data = enc.fit_transform(X.T.to_dict().values()) 
     return enc_data 

    def fit(self, X, y=None, **fit_params): 
     return self 

파이프 라인

pipeline = Pipeline([ 

       ('categorical', Cat()), 
    ('model_fitting', regressor), 
]) 
pipeline.fit(X, y) 

를 파이프 라인을 구축하려고합니다. 하지만 새로운 데이터 세트에 맞추려고하면 오류가 발생합니다. 예를 들어,

contr = pd.DataFrame({'c':['a'], 'd': ['m']}) 
pred = pipeline.predict(contr) 
pred 
and 

ValueError: shapes (1,2) and (5,) not aligned: 2 (dim 1) != 5 (dim 0) 

해당 Cat (TransformerMixin) 클래스의 문제를 확인하십시오. 그것을 향상시키는 방법?

답변

0

다음과 같이 작성했습니다. 그것은 작동 내가 기능

class Cat(TransformerMixin): 

def transform(self, X, y=None, **fit_params): 
    enc = DictVectorizer(sparse = False) 
    encc = enc.fit(df[['c', 'd']].T.to_dict().values()) 
    enc_data = encc.transform(X.T.to_dict().values()) 
    return enc_data 

def fit_transform(self, X, y=None, **fit_params): 
    self.fit(X, y, **fit_params) 
    return self.transform(X) 

def fit(self, X, y=None, **fit_params): 
    return self 

그리고 새로운 데이터 세트를 변경 한

control = pd.DataFrame({'c':['b'], 'd': ['f']}) 
pred = pipeline.predict(control) 
pred