이와 유사한 많은 질문을 했음에도 불구하고 일부 알고리즘이 왜 취약한 지 이해할 수 없었습니다.기능 배율 및 다양한 알고리즘에 미치는 영향
지금까지 SVM과 K-means는 선형 스케일링에 민감한 반면 Linear Regression과 Decision Tree는 그렇지 않은 것으로 나타났습니다. 누군가 제게 자세히 설명해 주시겠습니까? 일반적으로 또는이 알고리즘과 관련이 있습니다.
나는 초급자이므로 이것을 평범한 용어로 설명하십시오.
이와 유사한 많은 질문을 했음에도 불구하고 일부 알고리즘이 왜 취약한 지 이해할 수 없었습니다.기능 배율 및 다양한 알고리즘에 미치는 영향
지금까지 SVM과 K-means는 선형 스케일링에 민감한 반면 Linear Regression과 Decision Tree는 그렇지 않은 것으로 나타났습니다. 누군가 제게 자세히 설명해 주시겠습니까? 일반적으로 또는이 알고리즘과 관련이 있습니다.
나는 초급자이므로 이것을 평범한 용어로 설명하십시오.
내가 손에서 생각할 수있는 한 가지 이유는 SVM과 K- 평균은 적어도 기본 구성에서 L2 거리 메트릭을 사용한다는 것입니다. delta-x 또는 delta-y를 두 번 사용하면 두 지점 간의 L1 또는 L2 거리 메트릭이 다른 결과를 제공합니다.
선형 회귀를 사용하면 측정하기 전에 좌표계를 효과적으로 변형하여 데이터를 가장 잘 묘사하는 선형 변형을 적용 할 수 있습니다. 최적의 모델은 데이터의 좌표계와 상관없이 정의에 따라 거의 동일하기 때문에 결과는 피쳐 스케일링을 비롯한 선형 변환에 불변합니다.
의사 결정 트리를 사용하면 일반적으로 x < N 형식의 규칙을 찾습니다. 중요한 것은 해당 임계 값 테스트를 통과하거나 실패한 항목 수만입니다.이를 엔트로피 기능에 전달합니다. 이 규칙 형식은 차원 눈금에 의존하지 않으므로 연속 거리 메트릭이 없으므로 다시 분산이 있습니다.
각각 다른 이유가 있지만 도움이되기를 바랍니다.