2015-02-07 15 views
0

에 지프의 법칙을 그릴 수 없습니다 나는 테이블로 변환 : 아마 단어 순위에 열을 추가해야내가 텍스트 파일에서로드 용어 및 주파수의 큰 목록을 가지고 R

myTbl = read.table("word_count.txt") # read text file 

colnames(myTbl)<-c("term", "frequency") 
head(myTbl, n = 10) 

> head(myTbl, n = 10) 
    term frequency 
1  de  35945 
2  i  34850 
3 \xe3n  19936 
4  s  15348 
5  cu  13722 
6  la  13505 
7  se  13364 
8  pe  13361 
9  nu  12693 
10  o  11995 

그런 다음 빈도에 따라 음모 순위를 지정하지만 어떻게해야합니까?

답변

4

자신의 계산을 굴리기보다는 tm 패키지를 사용하는 것이 더 쉽습니다. 그런 다음 당신은 그냥 이는 Zipf가 아니라 힙과 플롯 표시하지 않은 용어 문서 매트릭스 (TDM)

library(tm) 
tdm <- TermDocumentMatrix(myTbl) # there are many more clean up steps, but I am simplifying 

에 myTbl을 변환합니다.

Zipf_plot(tdm) 
Heaps_plot(tdm) # how vocabulary grows as size of text grows 

또는 qdap 패키지와 순위 주파수도를 사용할 수 있습니다. 여기에 네트에서 인용은 다음과 같습니다

순위 주파수 플롯은 단어의 순위는 반비례 주파수에 관련이 있다는 주장 지프의 법칙에 관해서는 관련 주파수 대 단어의 순위를 시각화하는 방법입니다. rank_freq_mplot 및 rank_freq_plot은 개의 단어 (rank_freq_mplot을 그룹화 변수로 플로팅 함)의 순위와 빈도를 플로팅하는 수단을 제공합니다.
Rank_freq_mplot은 ggplot2 패키지를 사용하는 반면 rank_freq_plot 은 기본 그래픽을 사용합니다.