나는 pdf 파일에서 읽을 텍스트를 변형 중입니다.문자를 제거하고 문자열을 결합하십시오.
특히, 나는 음절을 완성하는 하이픈 ("-")이나 단어를 새 줄로 분리하는 문자 벡터를 사용하지만 숫자가 인 경우에만 이 발생합니다. 예를 들어 :
text text text 123-
456 text text..
은 내가을하고 싶은 것은 모든 hypens를 제거하고 toghether 그 단어를 붙여이다.
text text text 123456
text text..
내 시작 시도 :
test <- gsub("-", "", test)
을하지만이 별도의 번호를 반환 여기에서
library(pdftools)
library(tidytext)
library(readxl)
library(dplyr)
setwd("~/Automation - Official Guazzete")
path <- getwd()
pdf_file <- file.path(path, "stecajni_postapki.pdf")
test <- pdf_text(pdf_file)
dput(tail(test)[1])
"10 јули 2017 Бр. 86 - Стр. 1\r\n Стечајни постапки\r\n СТЕЧАЈНИ ПОСТАПКИ\r\n Основниот суд Скопје II – Скопје преку стечајниот\r\n судија Вероника Станојевска и привремениот стечаен\r\n управник Ѓорѓе Костов, објавува дека со Решение 2\r\n Ст. бр. 841/17 од 16.6.2017 година, се отвора стечајна\r\n постапка над должникот Друштво за производство, тр-\r\n говија КБ ТРЕЈД Ќиро ДООЕЛ Скопје, со трансакцис-\r\n ка сметка 300000000744414 при Комерцијална банка\r\n АД Скопје со ЕДБ 403099419454 Скопје, ЕМБС\r\n 4854217 и единствен даночен број 4030003477097 и\r\n приоритетна дејност на мало во неспецијализирани про-\r\n давници претежно со храна и пијалаци... <truncated>
, 나는 시도했다. 예를 들어 456
- 123 2. 단 한 단어 - 123456
어떤 아이디어가?
'paste (test, collapse = "")'시도하여''123456 ''을 얻으십시오. – LAP