0
나는 Pyspark를 처음 사용합니다. 필자는 범주 형 기능을 포함하는 데이터 집합을 가지고 있으며 pyspark의 회귀 모델을 사용하여 연속 값을 예측하려고합니다. 나는 MLlib 모델을 사용하기 위해 필요한 데이터의 전처리에 빠져있다.Pyspark에서 LabeledPoint 기능을 사용하려면 범주 속성을 숫자 속성으로 변환해야합니까?
나는 Pyspark를 처음 사용합니다. 필자는 범주 형 기능을 포함하는 데이터 집합을 가지고 있으며 pyspark의 회귀 모델을 사용하여 연속 값을 예측하려고합니다. 나는 MLlib 모델을 사용하기 위해 필요한 데이터의 전처리에 빠져있다.Pyspark에서 LabeledPoint 기능을 사용하려면 범주 속성을 숫자 속성으로 변환해야합니까?
예, 필요합니다. 수치로 변환 할뿐만 아니라 선형 모델에 유용하도록 인코딩해야합니다. 두 단계로 pyspark.ml
(안 mllib
)에서 구현됩니다
pyspark.ml.feature.StringIndexer
- 색인.pyspark.ml.feature.OneHotEncoder
- 인코딩.