2017-05-23 6 views
-1

중고차의 대형 테이블이 있습니다. 내가 예측 모델과 같이 그 일했다 중고 기계의 가격을 예측하는 기계 학습

maker | model | year | kilometers | transmission | gas_type | price 

: 나는이 차의 가격을 알고 싶어 할 때마다, 나는 메이커 및 모델에 따라 데이터를 필터링을, 내가 실행 헤더는 다음과 같습니다 2 차 회귀. 연간 및 킬로미터를 매개 변수로 사용합니다.

결과는 좋지만 모든 차량에 적용되는 것은 아닙니다.

문제는 동일한 제조업체 및 모델에 대해 다른 "버전"이 있다는 것입니다. (단순 버전, 4WD 또는 가죽 시트와 같은 FULL 버전과 같지 않음)

어떻게 차이점을 확인할 수 있습니까? 동일한 모델과 제조사가있는 자동차 간의 서로 다른 버전을 식별하기 위해 일종의 클러스터링을 사용할 수 있습니까?

어떤 도움을 클러스터링 문제, 바로 하위 모델 기능 아니라고

+0

클러스터링은 더 많은 실수를 범합니다. 유사한 모델을 병합하려고합니다. –

답변

0

을 이해할 수있을 것이다. 또한 모델에 독립적 인 기능 (4WD, 가죽 시트, 고급 사운드 시스템, 태양 지붕 등)에서 하위 모델 (표준형, 럭셔리 버전, 해치백 등)을 구별 할 수 있습니다. 하위 모델은 단일 기능 (텍스트 열)이 될 수 있지만 옵션은 개별 기능 (부울 열)입니다.

UPDATE 영업 설명 AFTER

내가 볼 : 이러한 기능은 출력하지 입력 있습니다.

예, 클러스터링을 사용할 수 있습니다. 그러나 이는 하위 모델 (귀하의 "버전")을 식별 할 수도 있고 그렇지 않을 수도 있습니다. 매우 비슷한 사용 (킬로미터) 및 기타 모든 기능이 동일한 관찰 만 클러스터링하면 일부 유용한 클러스터링을 찾을 수 있습니다. 그러나이 버전이 나머지 가격 변동의 주요 요인 인 경우에만 작동합니다. 클러스터링이 지리적 지역 및 기타 요소의 영향을받을 수도 있습니다.

+0

테이블 헤더에 표시되는 버전 데이터가 없습니다. 이 정보를 추론하는 방법을 묻습니다. – Marcelo