중고차의 대형 테이블이 있습니다. 내가 예측 모델과 같이 그 일했다 중고 기계의 가격을 예측하는 기계 학습
maker | model | year | kilometers | transmission | gas_type | price
: 나는이 차의 가격을 알고 싶어 할 때마다, 나는 메이커 및 모델에 따라 데이터를 필터링을, 내가 실행 헤더는 다음과 같습니다 2 차 회귀. 연간 및 킬로미터를 매개 변수로 사용합니다.
결과는 좋지만 모든 차량에 적용되는 것은 아닙니다.
문제는 동일한 제조업체 및 모델에 대해 다른 "버전"이 있다는 것입니다. (단순 버전, 4WD 또는 가죽 시트와 같은 FULL 버전과 같지 않음)
어떻게 차이점을 확인할 수 있습니까? 동일한 모델과 제조사가있는 자동차 간의 서로 다른 버전을 식별하기 위해 일종의 클러스터링을 사용할 수 있습니까?
어떤 도움을 클러스터링 문제, 바로 하위 모델 기능 아니라고
클러스터링은 더 많은 실수를 범합니다. 유사한 모델을 병합하려고합니다. –