2017-10-11 4 views
1

R 프로그래밍을 사용하면 파일에서 토큰 ngram = 2를 가져와야합니다. 나는 처음 두가프로그래밍에서 동일한 줄에서 토큰을 가져 오십시오

문제는 라인을 결합한다는 것입니다, 일부 토큰은 라인의 끝과 다음 줄의 파일 작업에

Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 

의 시작에 다른 부분 부분이 라인 : 위해 무엇을해야 하는지를

it architect 
architect it 
it helpdesk 
and so on .... 

하지에 도착 :

it architect 

it helpdesk support agents 

내가 좋아하는 토큰을 얻을 같은 KENS "건축가는"

내가 별도로

답변

0

그냥에서 collapse = FALSE을 추가 할 때마다 라인을 토큰 화하려는 unnest_tokens :

library(tidytext) 
library(dplyr) 

jobs %>% 
    unnest_tokens(ngram, POSITION, token = "ngrams", n = 2, collapse = FALSE) 

결과 :

   ngram 
1  it architect 
2  it helpdesk 
2.1 helpdesk support 
2.2 support agents 

하는 변환하는 것을 잊지 마십시오 당신의 요소 변수이면 문자열 벡터를 문자로 변환합니다. 그렇지 않으면 unnest_token이됩니다. 너에게 오류를 줄래.

데이터 :

jobs = data.frame(POSITION = c("it architect", "it helpdesk support agents"), stringsAsFactors = FALSE)