나는 내가 붙어있어 누군가가 나를 위해 대답 할 수 있기를 바라고있다.상관 행렬을 계산하기 위해 rapidminer가 사용하는 방법과 두 가지 범주/명목 속성에 대해 음의 상관 관계를 갖는 이유는 무엇입니까?
상관 행렬에서 rapidminer는 어떤 방법론을 사용합니까? 모든 데이터 조합에 대해 좋지만 가장 중요한 것은 명목상/범주 형 데이터 세트에 대한 것입니다.
상관 행렬을 생성하기 위해 rapidminer를 사용하고 있고 숫자, 이항, 다항 등으로 모든 속성을 적절하게 레이블 지정하는 데주의를 기울였습니다. 행렬이 공칭/명목 조합의 일부에 대해 음의 상관 관계를 보여주는 것으로 나타났습니다. 이것은 내가 보통 생각할 수있는 방법 (Phi, Cramer 's V, Contingency Coefficient)을 바탕으로 계산할 수있는 방법을 기반으로하지 않습니다. 상관 관계가 이러한 테스트에 긍정적이어야한다고 생각했는데 성별과 도시와 같은 카테고리 간에는 "음의"상관 관계가있는 것이 데이터의 순서를 제안하는 것처럼 의미가 없습니다.
다른 테스트가 사용되었거나 더미 코딩이 있습니까? 그리고 만약 더미 코딩이 사용된다면 그 값은 얼마나 신뢰할 수 있습니까?
나를 도울 수있는 사람에게 미리 감사드립니다. 내가 길을 잃었을 때 싫어하지만, 여기에지도가 필요하다.
감사합니다. 훌륭한 시작입니다. 나는 그들이 위에서 언급 한 방법 중 하나와 반대되는 코딩을 사용하고 있다고 의심했지만 예상 한대로 출력을 사용하기 전에 확신해야했습니다. XML을 볼 수 있다는 것은 깔끔한 트릭입니다. 어떻게 그 일을 할 수 있었습니까? – schradera
XML은 RapidMiner Studio의 메뉴 옵션 중 하나의보기입니다. 전체 XML을보기로 복사하고 작은 눈금 아이콘을 클릭하여 유효성을 확인한 다음 편집 할 수있는 프로세스 일 뿐이므로 다른 사람들과 프로세스를 공유 할 수 있습니다. – awchisholm