이것은 어리석은 질문 일 가능성이 높습니다.하지만 저는 인터넷 검색을 시도하고 해결책을 찾지 못했습니다. 내 질문에 대해 검색 할 수있는 올바른 방법을 모르기 때문입니다.unnest_tokens의 반대편
나는 정지 문자를 없애기 위해 R으로 깔끔한 텍스트 형식으로 변환 한 데이터 프레임을 가지고 있습니다. 이제 데이터 프레임을 원래 형식으로 되돌릴 수 있습니다.
unnest_tokens의 반대/반대 명령은 무엇입니까?
편집 : 여기 내가 같이 작동하는 데이터가 있습니다. Silge와 Robinson의 Tidy Text 책에서 분석을 복제하려고하지만 이탈리아 오페라 리브레토를 사용하고 있습니다.
text word
FIGARO cinque
FIGARO dieci
FIGARO venti
FIGARO trenta
...
나는 그것을 다시 좀하고 싶습니다 :
tribble <- sample_df %>%
unnest_tokens(word, line)
# Get rid of stop words
# I had to make my own list of stop words for 18th century Italian opera
itstopwords <- data_frame(text=mystopwords)
names(itstopwords)[names(itstopwords)=="text"] <- "word"
tribble2 <- tribble %>%
anti_join(itstopwords)
는 지금은 이런 일이 : 나는 중지 단어 제거 할 수 있도록
character = c("FIGARO", "SUSANNA", "CONTE", "CHERUBINO")
line = c("Cinque... dieci.... venti... trenta... trentasei...quarantatre", "Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.", "Susanna, mi sembri agitata e confusa.", "Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!")
sample_df = data.frame(character, line)
sample_df
character line
FIGARO Cinque... dieci.... venti... trenta... trentasei...quarantatre
SUSANNA Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.
CONTE Susanna, mi sembri agitata e confusa.
CHERUBINO Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!
나는 깔끔한 텍스트로 돌려 문자 이름의 형식과 관련 선을 다른 것들을 볼 수 있습니다. 기본적으로 나는 이전과 같은 형식으로 텍스트를 원하지만 정지 단어는 제거합니다.
안녕, 읽기 [이] (https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)를하고 질문을 수정하시기 바랍니다. 자신의 데이터가 어떤 것인지, 무엇을했는지에 대해 더 많이 알면 다른 사용자가 귀하를 도울 수 있습니다. – shea