극성 분석을 위해 qdap 패키지를 사용하고 있습니다. CSV 파일에서 나는 구두점이없는 문장을 "제거 할 수없는 것"(마침표 없음)과 같이 가지고 있습니다. 데이터 프레임에 sentsplit
을 사용한 후이 행에 NA가 표시됩니다.qdap의 sentSplit()에 엔드 마크가 없을 때 문제가 발생합니다.
R의 불완전한 문장에 엔드 마크를 어떻게 추가합니까? 이것을 막을 수있는 방법이 있습니까?
극성 분석을 위해 qdap 패키지를 사용하고 있습니다. CSV 파일에서 나는 구두점이없는 문장을 "제거 할 수없는 것"(마침표 없음)과 같이 가지고 있습니다. 데이터 프레임에 sentsplit
을 사용한 후이 행에 NA가 표시됩니다.qdap의 sentSplit()에 엔드 마크가 없을 때 문제가 발생합니다.
R의 불완전한 문장에 엔드 마크를 어떻게 추가합니까? 이것을 막을 수있는 방법이 있습니까?
qdap
함수 중 상당수는 올바르게 형식화 된/구조화 된 데이터 양식을 필요로합니다. 이것은 일반적으로 엔드 마크가있는 문장을 말하며 종종 행당 한 문장 밖에 없습니다. 이것은 알고리즘이 문장이 무엇인지를 결정하는 방법입니다. 문장이 실제로 불완전한 문장 인 경우 qdap
은 파이프 부호 "|" 이것을 나타 내기 위해.
dat <- DATA
dat[1, 4] <- "Sucks to not be removable"
missing <- end_mark(dat[["state"]]) == "_"
dat[["state"]][missing] <- paste0(dat[["state"]][missing], "|")
sentSplit(dat, "state")
## person tot sex adult code state
## 1 sam 1.1 m 0 K1 Sucks to not be removable|
## 2 greg 2.1 m 0 K2 No it's not, it's dumb.
## 3 teacher 3.1 m 1 K3 What should we do?
## 4 sam 4.1 m 0 K4 You liar, it stinks!
## 5 greg 5.1 m 0 K5 I am telling the truth!
## 6 sally 6.1 f 0 K6 How can we be certain?
## 7 greg 7.1 m 0 K7 There is no way.
## 8 sam 8.1 m 0 K8 I distrust you.
## 9 sally 9.1 f 0 K9 What are you talking about?
## 10 researcher 10.1 f 1 K10 Shall we move on?
## 11 researcher 10.2 f 1 K10 Good then.
## 12 greg 11.1 m 0 K11 I'm hungry.
## 13 greg 11.2 m 0 K11 Let's eat.
## 14 greg 11.3 m 0 K11 You already?
또한, qdap
(버전> = 2.1.1)의 DEV 버전 데이터 포맷 함수의 새로운 라인을 포함 그래서 여기 끝에 |
붙여 다음 end_mark
기능 누락 endmarks를 검출하는 예이다 잠재적 인 문제 및 가능한 수정 사항의 위치를 알려주는 보고서를 인쇄하려면 check_text
을 포함하여 잠재적 인 서식 문제를 자동으로 확인하십시오.
이 사람을 신뢰하지 마십시오. 그는 qdap 패키지에 대해 아무것도 모릅니다. – Dason
감사합니다. Tyler 당신은 멋진 직업을했습니다! – Dutta