2014-10-12 2 views
2

나는 출현 횟수에 의해 순서가 정해진 두 단어 목록을 가지고있다.누락 된 값과 Spearman 순위 상관 관계?

순서는 서로 다른 시점에 샘플링 된 두 파일의 각 단어를 세 어서 생성되었다.

두 번째 파일에서 첫 번째 파일의 순서가 얼마나되는지 확인하려면 spearman을 계산하고 싶습니다. 1) 2) 3)

파일 B를 작동 갔다된다하십시오

파일 : 예를 들어

1) 2) 3)

갔다 작업 순서가 나는 것 차이가 있기 때문에 1.0의 점수를 얻지는 못했지만,이 두 샘플이 다소 비슷할 것이라고 제안 할 것입니다.

내 문제는 이제 가치가 없습니다. 파일 A의 단어가 파일 B에 없을 수 있습니다.이 경우 스피어 맨 랭크를 사용할 수 있습니까? 아니면 다른 상관 계수가 더 적합할까요?

답변

2

응용 프로그램에서 순위를 지정할 때 누락 값이 필요하지 않습니다. 단어 하나의 파일에는 있지만 다른 파일에는없는 항목이있는 경우 다른 파일에서 마지막 순위를 지정하거나 누락 된 값이 여러 개인 마지막 순위가 동일 할 수 있습니다.

그러나 필자는 많은 누락 된 값 (마지막 순위가 많이 묶여 있음)의 Spearman 값에 영향을 줄지 확신하지 않습니다. Spearman 계수 대신 상대 주파수의 표준 상관/회귀를 사용하는 것이 좋습니다.

예 ...

말 파일 X는 m = 113 개 워드를 가지며, Y는 N = 234을 갖는 파일. 우리는과 같이 상대 단어 주파수의 테이블을 만들 수 있습니다

word x y
is 5/113 23/234 the 4/113 45/234 a 4/113 17/234 farnarkling 1/113 0/234 elbow 0/113 2/234 ... =============================== TOTAL 113/113 234/234

당신은 다음 계산합니다 :

word x y u=x*y v=x*x
is 5/113 23/234 115/26442 25/12769 the 4/113 45/234 180/26442 16/12769 a 4/113 17/234 68/26442 16/12769 farnarkling 1/113 0/234 0/26442 1/12769 elbow 0/113 2/234 0/26442 0/12769 ... ======================================================== TOTAL 113/113 234/234 s=(sum of u) t=(sum of v)

의 답은 S/T에 의해 주어진다. m/n에 가까운 값은 좋은 일치를 의미합니다.

일부 가능한 유용한 링크는 다음과 같습니다

https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php

http://en.wikipedia.org/wiki/Simple_linear_regression