2017-09-26 7 views
0

나는 pdf 파일에서 읽을 텍스트를 변형 중입니다.문자를 제거하고 문자열을 결합하십시오.

특히, 나는 음절을 완성하는 하이픈 ("-")이나 단어를 새 줄로 분리하는 문자 벡터를 사용하지만 숫자가 인 경우에만 이 발생합니다. 예를 들어 :

text text text 123- 
456 text text.. 

은 내가을하고 싶은 것은 모든 hypens를 제거하고 toghether 그 단어를 붙여이다.

text text text 123456 
text text.. 

내 시작 시도 :

test <- gsub("-", "", test) 

을하지만이 별도의 번호를 반환 여기에서

library(pdftools) 
library(tidytext) 
library(readxl) 
library(dplyr) 
setwd("~/Automation - Official Guazzete") 
path <- getwd() 
pdf_file <- file.path(path, "stecajni_postapki.pdf") 

test <- pdf_text(pdf_file) 

dput(tail(test)[1]) 
"10 јули 2017              Бр. 86 - Стр. 1\r\n    Стечајни постапки\r\n         СТЕЧАЈНИ ПОСТАПКИ\r\n       Основниот суд Скопје II – Скопје преку стечајниот\r\n      судија Вероника Станојевска и привремениот стечаен\r\n      управник Ѓорѓе Костов, објавува дека со Решение 2\r\n      Ст. бр. 841/17 од 16.6.2017 година, се отвора стечајна\r\n      постапка над должникот Друштво за производство, тр-\r\n      говија КБ ТРЕЈД Ќиро ДООЕЛ Скопје, со трансакцис-\r\n      ка сметка 300000000744414 при Комерцијална банка\r\n      АД Скопје со ЕДБ 403099419454 Скопје, ЕМБС\r\n      4854217 и единствен даночен број 4030003477097 и\r\n      приоритетна дејност на мало во неспецијализирани про-\r\n      давници претежно со храна и пијалаци... <truncated> 

, 나는 시도했다. 예를 들어 456

  1. 123 2. 단 한 단어 - 123456

    어떤 아이디어가?

+0

'paste (test, collapse = "")'시도하여''123456 ''을 얻으십시오. – LAP

답변

0

당신이 당신의 GSUB의 \n 문자를 포함하는 경우, 그것은

S <- "text text text 123- 
     456 text text" 
"text text text 123-\n456 text text" 

gsub("-\n", "", S) 
# "text text text 123456 text text" 
0

문제를 해결할 수있는이 약간의 변화를해야한다. 하이픈과 뉴 라인이 발견되어 붕괴 될 수 있습니다. "-"

test <- gsub("-\\n+", "", test) 

못 찾으면, 당신은 아마 [내가] 포함하는 요소를 대체하는 함수를 정의 것 자체 요소와 [I + 1]은 NA 또는 어떤 자리에 요소를 [I + 1] 대체 , 나중에 삭제할 수 있습니다.