2017-04-14 8 views
0

예를 들어 설명해 보겠습니다.값 분포를 특성화하는 방법은 무엇입니까?

학교에는 n 개의 수업이 있습니다. 각 강좌에는 k 학생이 있는데, k는 1에서 700 사이이며, n과 k는 모두 알려져 있습니다.

각 클래스에 대해 학생 이름의 분포를 특성화하는 방법이 필요합니다. 예를 들어, 클래스 A에는 10 명의 학생이 있고, 3은 "John", 3 "Mark"및 3 "Anne"입니다. 다른 반에는 100 명의 학생이 있으며 모두가 "안톤"이라고 불립니다.

각 클래스에서 이름 분포를 나타낼 수있는 측정이 필요합니다. 예를 들어 (중요하지 않음) 클래스의 모든 구성원이 같은 이름을 갖고 있으면 1이되고 동일한 클래스에 동일한 이름이 2 개가없는 경우 0이 될 수 있습니다.

즉, 이름 분포에 따라 클래스를 정렬하는 방법.

답변

1

"contingency table"과 같은 소리가납니다. 어떤 변수를 행과 열로 나누고 싶은지는 임의적이지만 테이블 항목은 수 또는 범주 교차의 발생 횟수에 대한 비율입니다. 예와

당신이 준 : 오른쪽에와 하단

     Class 
        A  B 
       _________________ 
     Anne | 3 | 0 | 3 
Names Anton | 0 | 100 | 100 
     John | 3 | 0 | 3 
     Mark | 3 | 0 | 3 
    Unknown | 1 | 0 | 1 
      |--------|--------|---- 
       10  100 | 110 

값이 "한계 합계"라고, 또는 비율, "한계 배포판"만약된다. 오른쪽 아래 모서리는 행 또는 열 여백을 합산하여 얻은 총 데이터입니다. (그들은 더 잘 나온다!) 비율을 위해, 그 합은 1이어야한다.