Flux (표면 및 구름 정보 사용)를 계산하는 데 사용되는 광도를 제공하는 위성 데이터가 있습니다. 이제 회귀 법을 사용하여, 나는 radiance와 flux에 관련된 수학적 모델을 가질 수 있으며, 다른 새로운 입력이 없으면 새로운 radiance 값에 대한 플럭스를 예측하는 데 사용할 수 있습니다. 의사 결정 트리 또는 회귀 트리를 사용하여 동일한 작
많은 기계 학습 대회가 Kaggle에서 개최되는 기계 학습 프로그램 경쟁을 접근하는 방법. 여기, SVM 등 의사 결정 나무처럼 학습 알고리즘을 감독 적용 할 수있는 꽤 분명하다. 내 질문은 어떻게 그런 문제에 접근하기 시작해야 하는가, 즉 의사 결정 트리 또는 SVM 또는 기타 알고리즘으로 시작할지, 아니면 다른 방법, 즉 어떻게 결정할 것인가?
저는 Weka의 분류 작업을하고 있으며, 예측할 클래스가 매우 빈번한 (약 85 %) 하나의 값을 가지고 있다는 문제가 있습니다. 이는 새로운 데이터 세트에 대해이 클래스의 빈번한 값을 예측하는 많은 학습 알고리즘으로 이어집니다. 어떻게이 문제를 해결할 수 있습니까? 단지 뭔가를 더 잘 예측할 수있는 기능을 찾지 못했습니까? 아니면이 문제를 해결하기 위해
저는 배너를 보는 사람들이 클릭 및 변환 데이터를 사용하여 SVM 알고리즘을 가르치려고합니다. 주된 문제는 모든 데이터의 약 0.2 %가 클릭에 포함되므로 큰 불균형입니다. 테스트 단계에서 간단한 SVM을 사용하면 항상 "뷰"클래스 만 예측하고 절대로 "클릭"또는 "변환"하지 않습니다. 평균적으로 (불균형 때문에) 99.8 %의 정답을 제공하지만, "클릭"
작은 텍스트의 감독 된 분류를 수행하고 있으며 데이터가 매우 시끄 럽습니다. 학습 곡선을 그려 보았습니다. x 축은 # 개의 인스턴스입니다. y 축은 F 값의 값입니다. 커브가 떨어지고 있습니다 : 내가 사용하는 인스턴스가 많을수록 F- 척도 점수는 낮아집니다. 시끄러운 데이터의 경우 일반적인 것인가? 아니면이 동작에 대한 다른 이유가 있습니까?
일반적으로 교육 후 얻은 감독 학습 분류 기준 모델의 정확도가 예상과 다를 때 따르는 단계는 무엇입니까? 예제 단계 : 기능 재 공학, 소음 제거, 치수 감소,과 피팅 등. 어떤 테스트 (분류 자의 정확도를 확인한 후에 수행)를하면 결론을 내릴 수 있습니다 (정확도가 낮기 때문에 소음이 많음). 이로 인해 조치가 수행됩니다 (노이즈가 많은 단어/기능 제거
임의의 포리스트를 사용하여 예측을 수행하는 모든 예는 이미 실제 답변을 가지고 있습니다 (즉, 테스트 세트에 레이블이 있음). 그 칼럼이 없을 때 당신은 무엇을합니까? 예를 들어 는,이 튜토리얼은 홍채 데이터 사용 : 당신이없이이를 실행하려고하면 우리가 진짜이 일을한다면 http://mkseo.pe.kr/stats/?p=220 를 테스트 데이터 집합 열 [