2016-12-07 8 views
1

동일한 텍스트에서 추출한 텍스트와 몇 개의 키워드 (빈도 수가 200을 기준으로 추출됨) 간의 상관 관계 분석을 시도하고 있습니다.텍스트에서 추출한 텍스트와 특정 단어 사이의 Corelations 찾기

R을 사용하여 어떻게 할 수 있는지 확실하지 않습니다. 여기

는 국지적 인 주요 데이터가 R의 수준으로 (기본적으로) 내가하려고

head(label) 
[1] "2016" "action" "activis" "actual" "alreadi" "also" 

세척 된 텍스트 말뭉치에서 분석

head(data) 
[1] Call of star wars a halos destiny              
[2] I thought of an new call of duty name CALL OF DUTY: The road of ARK GIANT    
[3] Activation must be destroyed for the sake of video games. Boycott those pieces of shits. 
[4] Futuristic˜                   
[5] 1:09 is that the XM 53  

몇몇 키워드를 코딩 데이터의 조각이다 상관 행렬을 통해 단어가 어떻게 텍스트에 있는지 살펴보고 마지막으로 해당 상관 행렬을 사용하여 커뮤니티 그래프를 형성하여 네트워크를 감지하여 커뮤니티를 감지합니다.

하지만 my ai 이 때 m은 테이블 또는 모든 데이터를 텍스트 마찬가지로

           star destroyed duty 
Call of star wars a halo destiny     1  0  0 
Activation must be destroyed for the sake .... 0  1  0 
I thought of new call of duty star    1  0  1 

아래와 같은 행렬 [13281 개 라인의 총, 라벨 [202 개 단어의 총)

+0

데이터 텍스트의 레이블 존재 여부 (1) 또는 부재 (0)에 대해 염려하는 것입니다. 실제로 달성하고자하는 내용에 대해 자세히 알려주십시오. 그리고 그것은 당신이 이미 시도한 것입니다. – figurine

+0

안녕하세요 작은 입상, 게시물을 편집하고 내 출력을 R로 표시하는 방법에 대한 스크린 샷을 붙여 넣었습니다. –

답변

0

가정을 만들 너야

data <- c('Call of star wars a halo destiny', 
     'I thought of an new call of duty star', 
     'Activation must be destroyed for the sake .... ', 
     'Futuristic˜', 
     '1:09 is that the XM 53') 
label <- c("2016","action","activis","actual", "alreadi","also", "star", "destroyed", "duty") 

vgrepl <- Vectorize(grepl, 'pattern', SIMPLIFY = TRUE) 
df <- +(vgrepl(tolower(label), tolower(data))) # case insensitive 
rownames(df) <- data 

df 

               2016 action activis actual alreadi also star destroyed duty 
Call of star wars a halo destiny     0  0  0  0  0 0 1   0 0 
I thought of an new call of duty star    0  0  0  0  0 0 1   0 1 
Activation must be destroyed for the sake ....  0  0  0  0  0 0 0   1 0 
Futuristic˜          0  0  0  0  0 0 0   0 0 
1:09 is that the XM 53        0  0  0  0  0 0 0   0 0