dictvectorizer

0열

1답변

Sklearn을 사용하여 요일에 더미 변수 만들기 DictVectorizer

선형 회귀에 대한 가격 데이터를 준비 중입니다. 내 기능은 요일로만 구성됩니다. 내 목표는 가격이다. 나는 예를 들어 sklearn 4.2.1의 예와 같이 내 데이터의 사전 목록을 만들었습니다. 그래서 데이터 구조는 [{'day': 'friday', 'price': 59}, {'day': 'saturday', 'price': 65}입니다. 위의 링크마다 s

1열

1답변

DictVectorizer가 기능 수를 변경하는 이유는 무엇입니까?

324 행 35 열의 데이터 집합이 있습니다. 나는 훈련과 테스트 데이터로 분할 : X_train, X_test, y_train, y_test = train_test_split(tempCSV[feaure_names[0:34]], tempCSV[feaure_names[34]], test_size=0.2, random_state=32) 이 잘 작동하는 것

2열

4답변

sklearn의 범주 기능을 인코딩하는 방법은 무엇입니까?

41 개 [0에서 40 개까지]의 피쳐가있는 데이터 세트가 있으며 그 중 7 개가 카테고리입니다. 문자열 유형의 서브 세트 (열 - 기능 1, 2, 3) 바이너리 형식으로 0 또는 1 INT 형의 서브셋합니다 (칼럼 -이 무조건 세트는 두 개의 서브 세트 나누어 져 특징 6, 11, 20, 21) 또한 열 기능 1, 2 및 3 (문자열 유형)은 각각 카디널

1열

2답변

DictVectorizer를 사용하여 문자열 변환

satisfaction_level last_evaluation number_project average_montly_hours time_spend_company Work_accident left promotion_last_5years dept salary 0.38 0.53 2 157 3 0 1 0 TECHNICAL low 0.8 0.86 5 262 6

1열

1답변

ngram 벡터화 - 코퍼스에없는 새로운 토큰을 발견하면 어떻게해야합니까?

단어 모델 가방에 사용자 정의 ngram 벡터 라이저를 구축 중입니다. 나는 질투합니다 - 짧은 텍스트를 벡터화하는 동안 코퍼스 어휘에없는 새로운 토큰을 발견하면 어떻게해야합니까? 그것은 그냥 건너 뛰거나 무엇을해야합니까?

1열

1답변

범주 변수 : 치수 불일치

나는 변환 범주 변수 import numpy as np import pandas as pd import sklearn from sklearn.base import BaseEstimator, TransformerMixin from sklearn import linear_model from sklearn.pipeline import Pipeline