현재 데이터 마이닝과 관련된 일부 프로젝트에 참여 해왔다. 그리고 GINIsplit을 분할 기준으로 사용하여 의사 결정 트리 유도를 사용하여 주어진 데이터 세트 (.csv 형식)를 다른 클래스로 분류해야합니다. 이 모든 것들은 자바 플랫폼에서 도구를 사용하지 않고 수행했습니다. WEKA, ORANGE ... 등. 쿼리가 빠르고 효율적일 수 있도록 결정 트리
내가 엔트로피 계산하기위한 공식 알고있다 : 즉 H(Y) = - ∑ (p(yj) * log2(p(yj)))
을 속성을 선택하고 각 값 체크 대상의 속성 값을 ... 그래서 P (YJ) 노드 N에있는 패턴의 비율은 범주 yj에 있습니다. 하나는 대상 값에 대해 참이고 하나는 거짓입니다. 그러나 대상 속성이 가격이므로 범위 인 데이터 집합이 있습니다. 어떻
저는 기계 학습에 비교적 익숙하지 않으며 의사 결정 트리 유도를 사물의 거대한 계획에 넣으려고합니다. 의사 결정 트리 (예 : C4.5 또는 ID3로 작성된 트리)는 매개 변수 또는 비모수 매개 변수로 간주됩니까? 실제 값에 대한 결정 분리 점은 피처 값의 분포 (예 : 평균)로 결정될 수 있기 때문에 매개 변수가 될 수 있습니다. 그러나 원래의 모든 훈련
의사 결정 트리가 테스트 세트에 어떻게 적용되는지 시각화하려고하며 Weka의 J48 결정 트리를 사용하고 있습니다. Weka는 결정 트리를 평가하고 리프에 도달함으로써 클래스로 각 샘플을 식별합니다. 물론, 여러 잎은 동일한 클래스로 태그가 지정됩니다. Weka에게 각 샘플에 대해 샘플을 태그 지정하는 데 사용한 리프를 알려주는 방법을 아는 사람이 있습니까
의사 결정 트리라고 불리는 지 잘 모르겠지만 질문이 포함 된 웹 사이트를 만들려고했는데 예 또는 아니오 버튼을 클릭하여 대답 할 수 있습니다. 저는 이것을 Wordpress에서하고 싶었지만 어떤 예도 찾아 오지 않았습니다. 각 게시물마다 고유 한 ID가 있으므로 그림이 가능해야하지만 어떻게해야하는지 잘 모르겠습니다. 사람이에 대한 몇 가지 아이디어를 제공하
다음은 모든 터미널 노드의 가중치를 나열하는 데 사용할 수있는 방법입니다. 그러나 각 터미널에서 가중치뿐만 아니라 응답 예측을 얻기 위해 코드를 추가하는 방법은 무엇입니까? 노드 ID : 내가 내 출력이 같이하고 싶은 말은 - 여기 아래 내가 체중을 얻기 위해 지금까지 무엇을 가지고 nodes(airct, unique(where(airct)))
감사합니
그래서 의사 결정 트리 프로그램을 작성하는 중입니다. 내가 1000 인스턴스의 데이터 집합을 가지고 있습니다. 나는 그것을 이해합니다 - 교차 유효성 검사를 사용하면 데이터 세트를 900-100 그룹으로 분할합니다. 매번 다른 900 세트를 사용하여 트리를 만들고 100을 테스트합니다. 나는 다음 질문을 이해합니다. 초과 오차로 인한 것일 수 있기 때문에
LMKA (Logistic Model Trees) DT (의사 결정 트리)의 WEKA 구현에서 개별 변수의 중요성을 결정하려고합니다. 각각의 개별 변수가 분류 작업에서 갖는 기여도를 알고 싶습니다. 따라서 각 개별 변수의 중요성을 결정할 필요가 있습니다. 이것은 내 결과에 대한보다 심층적 인 분석을 수행하는 것입니다. "속성 선택"탭과 해당 알고리즘 (예
왜 결정 트리 분기에서 섀넌의 엔트로피 측정 값이 사용됩니까? 엔트로피 (S) = P - (+) 로그 (p (+)) - P (-) 로그 (p (-)) I 그것이 노의 측정은 알 . 정보를 인코딩하는 데 필요한 비트 수 분포가 더 균일할수록 엔트로피는 더 커집니다. 하지만 결정 트리를 만드는 데 자주 사용되는 이유 (분기 지점 선택)를 알 수는 없습니다.