2017-01-29 6 views
1

나는 100 명의 저자가 수천 명의 작은 문서를 가지고 있습니다. quanteda 패키지를 사용하여 필자는 작성자 간의 코사인 유사도를 계산했습니다. 예를 들어, 저자 x는 100 개의 텍스트를 가지고 있으므로 100 x 100 매트릭스의 유사성이 있습니다. 저자 y는 50 개의 텍스트를 가지고 있으므로 50 x 50 유사도 매트릭스를 제안했습니다.문서 유사도 자기 표출

이제이 두 저자를 비교해 보겠습니다. 다시 말해, 어떤 저자가 자신을 더 많이 복사합니까? 평균이나 행을 평균 한 다음 평균의 평균을 구하면 숫자에 도달하므로이 두 가지 방법을 비교할 수 있지만 이러한 진행이 올바른지 확실하지 않습니다. 나는 나 자신을 분명히하기를 희망한다.

답변

1

답변은 귀하의 관심 분야가 정확히 무엇인지에 달려 있다고 생각합니다. 이것이 저자의 문서가 서로 얼마나 유사한 지에 대한 하나의 요약 인 경우, 저자 내에서 유사성을 가로 지르는 일부 분포는 저자 간의이 양을 비교하는 가장 좋은 방법 일 것입니다.

평균을 사용하여이 분포를 요약하는 전략 외에도 예를 들어 밀도와 같이 작성자의 문서 전반에 걸쳐 코사인 유사성을 저장하고 플롯 할 수 있습니다. 분산을 포착하기 위해이 유사성의 표준 편차를 특성화 할 것입니다.

필자의 코사인 유사성을 "자기 표절"이라고 부르는 것에 대해서는 신중해야합니다. 코사인 유사성은 단어 봉지의 벡터 표현을 가로 지르는 거리 측정을 계산하며 "표절"을 식별하는 방법으로 간주되지 않습니다. 또한, "표절"이라는 용어에 대한 경멸적인 의미가 있습니다. 이는 다른 사람의 아이디어를 부정확하게 표현한 것을 의미합니다. (심지어 용어 "자기 표절"는 의미가 전혀 수 있다고 생각하지 않습니다,하지만 나는 동의 학문적 동료 있습니다.)

추가 :

는 R에 대한 textreuse package을 고려를, 그것은이다 당신이 찾고있는 재사용의 텍스트 분석의 일종을 위해 설계되었습니다.

나는 Levenshtein 거리가 당신이 찾고있는 것이라고 생각하지 않습니다. Wikipedia page이 가리키는 것처럼 고양이과 사이에있는 LD는 3이지만 의미 론적 관계 또는 다른 하나의 "재사용"의 예에 대한 실질적인 용어는 절대적으로 의미가 없습니다. LD가 이라는 단어을 기반으로 재사용 할 수 있다는 주장이 제기 될 수 있지만, 이는 대부분의 알고리즘과 같은 방식이 아닙니다. http://turnitin.com은 표절 탐지를 구현합니다.

+1

대단히 감사합니다. 동료 중 일부는 또한 자기 표절이라는 단어를 사용할 수 없다는 점에 동의하지 않으며 종이의 최종 버전에서는 사용하지 않을 수도 있습니다. 형사 사건에 대한 사 법적 결정을 분석하고 있습니다. 일부 재판관은 생산성이 높기 때문에 다른 재판관보다 3 배 많은 재판을 결정합니다. 내 가설은 생산성을 신중하게 조사하지 않고 새로운 사례에 대한 이전 결정의 텍스트를 사용할 수 있기 때문에 심사 위원 자신의 결정 사이의 유사성 비율과 양의 상관 관계가 있다는 것입니다. 이 경우 Levenshtein 거리를 사용할 수 있다고 생각합니까? –