-1

이와 유사한 많은 질문을 했음에도 불구하고 일부 알고리즘이 왜 취약한 지 이해할 수 없었습니다.기능 배율 및 다양한 알고리즘에 미치는 영향

지금까지 SVM과 K-means는 선형 스케일링에 민감한 반면 Linear Regression과 Decision Tree는 그렇지 않은 것으로 나타났습니다. 누군가 제게 자세히 설명해 주시겠습니까? 일반적으로 또는이 알고리즘과 관련이 있습니다.

나는 초급자이므로 이것을 평범한 용어로 설명하십시오.

답변

2

내가 손에서 생각할 수있는 한 가지 이유는 SVM과 K- 평균은 적어도 기본 구성에서 L2 거리 메트릭을 사용한다는 것입니다. delta-x 또는 delta-y를 두 번 사용하면 두 지점 간의 L1 또는 L2 거리 메트릭이 다른 결과를 제공합니다.

선형 회귀를 사용하면 측정하기 전에 좌표계를 효과적으로 변형하여 데이터를 가장 잘 묘사하는 선형 변형을 적용 할 수 있습니다. 최적의 모델은 데이터의 좌표계와 상관없이 정의에 따라 거의 동일하기 때문에 결과는 피쳐 스케일링을 비롯한 선형 변환에 불변합니다.

의사 결정 트리를 사용하면 일반적으로 x < N 형식의 규칙을 찾습니다. 중요한 것은 해당 임계 값 테스트를 통과하거나 실패한 항목 수만입니다.이를 엔트로피 기능에 전달합니다. 이 규칙 형식은 차원 눈금에 의존하지 않으므로 연속 거리 메트릭이 없으므로 다시 분산이 있습니다.

각각 다른 이유가 있지만 도움이되기를 바랍니다.