1
나는 1944.txt, 1978.txt라는 이름으로 39 개의 텍스트 파일로 구성된 코퍼스를 가지고 있습니다. 2013.txt.R : 문서 기간의 문서에서 '사기'와 관련된 상위 10 개 용어 찾기 R
저는이를 R에 가져오고 TM 패키지를 사용하여 문서 용어 매트릭스를 만들었습니다. 용어 'fraud'와 관련된 단어가 1945 년에서 2013 년까지 어떻게 변했는지 조사하려고합니다. 원하는 출력 결과는 행 제목으로 년을 포함하고 열이 상위 10 또는 5 단어 인 39x105 행렬입니다. .
도움을 주시면 감사하겠습니다.
미리 감사드립니다. 내 TDM의
구조는 :
은> str(ytdm)
List of 6
$ i : int [1:6791] 5 7 8 17 32 41 42 55 58 71 ...
$ j : int [1:6791] 1 1 1 1 1 1 1 1 1 1 ...
$ v : num [1:6791] 2 4 2 2 2 8 4 3 2 2 ...
$ nrow : int 193
$ ncol : int 39
$ dimnames:List of 2
..$ Terms: chr [1:193] "abus" "access" "account" "accur" ...
..$ Docs : chr [1:39] "1947" "1976" "1977" "1978" ...
- attr(*, "class")= chr [1:2] "TermDocumentMatrix" "simple_triplet_matrix"
- attr(*, "Weighting")= chr [1:2] "term frequency" "tf"
My ideal output is like this:
1947 account accur gao medicine fed ......
1948 access .............
.
.
.
.
.
.
안녕 데이빗, 나는 그것이 특정 용어와 관련된 용어를 반환 findAssocs을 사용했지만, 내 경우에는, 나는 따라서 매트릭스를 만드는 생각, 그 관련 단어가 시간이 지남에 따라 변경하는 방법을 찾을 필요 연도/상위 n 관련 용어, 동일한 묘사. 언제든지 제안 해주십시오. – koder
나는, 내가 오해 한 것을 본다. 나는 당신이 약간의 차이가 필요할 것이기 때문에 당신이 매년 여러 문서를 가지고 있지 않다면 dtm과 같은 bag-of-words 접근법을 사용하여 가능할 지 확신하지 못합니다. 그렇게하지 않으면 문서를 이산 할 수 있습니다. 예를 들어 10 년 단위로 문서를 그룹화 한 다음 dtm을 작성하고 각각에 대해 findAssocs를 실행하십시오. – David
사실, 나는 매년 여러 문서를 가지고 있습니다. 나는 문서 용어 행렬을 만들고 시도 할 수 있도록 텍스트를 concaenated했습니다. – koder