선형 회귀에 대한 가격 데이터를 준비 중입니다. 내 기능은 요일로만 구성됩니다. 내 목표는 가격이다. 나는 예를 들어 sklearn 4.2.1의 예와 같이 내 데이터의 사전 목록을 만들었습니다. 그래서 데이터 구조는 [{'day': 'friday', 'price': 59}, {'day': 'saturday', 'price': 65}입니다. 위의 링크마다 s
324 행 35 열의 데이터 집합이 있습니다. 나는 훈련과 테스트 데이터로 분할 : X_train, X_test, y_train, y_test = train_test_split(tempCSV[feaure_names[0:34]], tempCSV[feaure_names[34]], test_size=0.2, random_state=32)
이 잘 작동하는 것
41 개 [0에서 40 개까지]의 피쳐가있는 데이터 세트가 있으며 그 중 7 개가 카테고리입니다. 문자열 유형의 서브 세트 (열 - 기능 1, 2, 3) 바이너리 형식으로 0 또는 1 INT 형의 서브셋합니다 (칼럼 -이 무조건 세트는 두 개의 서브 세트 나누어 져 특징 6, 11, 20, 21) 또한 열 기능 1, 2 및 3 (문자열 유형)은 각각 카디널
나는 변환 범주 변수 import numpy as np
import pandas as pd
import sklearn
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn import linear_model
from sklearn.pipeline import Pipeline