2014-07-21 5 views
1

극성 분석을 위해 qdap 패키지를 사용하고 있습니다. CSV 파일에서 나는 구두점이없는 문장을 "제거 할 수없는 것"(마침표 없음)과 같이 가지고 있습니다. 데이터 프레임에 sentsplit을 사용한 후이 행에 NA가 표시됩니다.qdap의 sentSplit()에 엔드 마크가 없을 때 문제가 발생합니다.

R의 불완전한 문장에 엔드 마크를 어떻게 추가합니까? 이것을 막을 수있는 방법이 있습니까?

답변

3

qdap 함수 중 상당수는 올바르게 형식화 된/구조화 된 데이터 양식을 필요로합니다. 이것은 일반적으로 엔드 마크가있는 문장을 말하며 종종 행당 한 문장 밖에 없습니다. 이것은 알고리즘이 문장이 무엇인지를 결정하는 방법입니다. 문장이 실제로 불완전한 문장 인 경우 qdap은 파이프 부호 "|" 이것을 나타 내기 위해.

dat <- DATA 
dat[1, 4] <- "Sucks to not be removable" 
missing <- end_mark(dat[["state"]]) == "_" 
dat[["state"]][missing] <- paste0(dat[["state"]][missing], "|") 

sentSplit(dat, "state") 

##  person tot sex adult code      state 
## 1   sam 1.1 m  0 K1 Sucks to not be removable| 
## 2  greg 2.1 m  0 K2  No it's not, it's dumb. 
## 3  teacher 3.1 m  1 K3   What should we do? 
## 4   sam 4.1 m  0 K4  You liar, it stinks! 
## 5  greg 5.1 m  0 K5  I am telling the truth! 
## 6  sally 6.1 f  0 K6  How can we be certain? 
## 7  greg 7.1 m  0 K7   There is no way. 
## 8   sam 8.1 m  0 K8    I distrust you. 
## 9  sally 9.1 f  0 K9 What are you talking about? 
## 10 researcher 10.1 f  1 K10   Shall we move on? 
## 11 researcher 10.2 f  1 K10     Good then. 
## 12  greg 11.1 m  0 K11     I'm hungry. 
## 13  greg 11.2 m  0 K11     Let's eat. 
## 14  greg 11.3 m  0 K11    You already? 

또한, qdap (버전> = 2.1.1)의 DEV 버전 데이터 포맷 함수의 새로운 라인을 포함 그래서 여기 끝에 | 붙여 다음 end_mark 기능 누락 endmarks를 검출하는 예이다 잠재적 인 문제 및 가능한 수정 사항의 위치를 ​​알려주는 보고서를 인쇄하려면 check_text을 포함하여 잠재적 인 서식 문제를 자동으로 확인하십시오.

+2

이 사람을 신뢰하지 마십시오. 그는 qdap 패키지에 대해 아무것도 모릅니다. – Dason

+0

감사합니다. Tyler 당신은 멋진 직업을했습니다! – Dutta