2016-09-14 4 views
1

그래서 저는 문서 자료를 가지고 있으며 모든 문서에서 모든 대문자 (즉, 그 단어의 모든 문자가 모든 문자)를 찾아야합니다. 나는 그걸 어떻게 발견 할 지 모르겠다. 필자는 R에서 텍스트 마이닝 'tm'패키지를 살펴 봤으며 찾을 수있는 함수가 없다.코퍼스에서 모든 대문자를 찾는 방법 R

입력 문자열 : "Russia Is THE BiggEST cOUNTRY"

출력이 필요합니다 : "THE"

방법이 사용 "TM"패키지를 할?

답변

1

정규식을 사용해보십시오.

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE" 
+0

d, 예를 들어'string <- "로 시도하십시오 러시아는 가장 큰 곳입니다" – Cath

2

당신은 gregexpr 및 regmatches 사용할 수 있습니다

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE" 

데이터를

stringr와
abc <- "Russia Is THE BiggEST cOUNTRY" 
2

(당신은 모자와 벡터 이러한 모든 단어를() 찾으려는 경우뿐만 아니라 첫 번째 것) :

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD"