그래서 저는 문서 자료를 가지고 있으며 모든 문서에서 모든 대문자 (즉, 그 단어의 모든 문자가 모든 문자)를 찾아야합니다. 나는 그걸 어떻게 발견 할 지 모르겠다. 필자는 R에서 텍스트 마이닝 'tm'패키지를 살펴 봤으며 찾을 수있는 함수가 없다.코퍼스에서 모든 대문자를 찾는 방법 R
입력 문자열 : "Russia Is THE BiggEST cOUNTRY"
출력이 필요합니다 : "THE"
방법이 사용 "TM"패키지를 할?
그래서 저는 문서 자료를 가지고 있으며 모든 문서에서 모든 대문자 (즉, 그 단어의 모든 문자가 모든 문자)를 찾아야합니다. 나는 그걸 어떻게 발견 할 지 모르겠다. 필자는 R에서 텍스트 마이닝 'tm'패키지를 살펴 봤으며 찾을 수있는 함수가 없다.코퍼스에서 모든 대문자를 찾는 방법 R
입력 문자열 : "Russia Is THE BiggEST cOUNTRY"
출력이 필요합니다 : "THE"
방법이 사용 "TM"패키지를 할?
정규식을 사용해보십시오.
sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"
당신은 gregexpr 및 regmatches 사용할 수 있습니다
unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
abc <- "Russia Is THE BiggEST cOUNTRY"
(당신은 모자와 벡터 이러한 모든 단어를() 찾으려는 경우뿐만 아니라 첫 번째 것) :
s = "Russia Is THE BiggEST cOUNTRY IN the WORLD"
library(stringr)
unlist(str_match_all(s, "\\b[A-Z]+\\b"))
[1] "THE" "IN" "WORLD"
d, 예를 들어'string <- "로 시도하십시오 러시아는 가장 큰 곳입니다" – Cath