문제/질문이 명확하지 않습니다.
내가 올바른 오전 경우 다음 줄 이후에 쓰여진 주소 세부 추출 할 : 바로 "SMALL BUSINESS 우려 (기업 이름, 메일 주소, 도시/주/우편 번호, 전화 번호)를"? 그렇다면
url <- "https://sbir.nasa.gov/SBIR/abstracts/17-1.html"
abstracts_page <- readLines(url)
abstracts_page <- gsub("<.*?>", "", abstracts_page)
abstracts_page <- gsub("\\t+", "", abstracts_page)
address_header_index <- grep("SMALL BUSINESS CONCERN:", abstracts_page)
address_list <- lapply(address_header_index, function(i) {
return(abstracts_page[(i + 2):(i + 6)])
})
address_list <- data.frame(do.call("rbind", address_list))
head(address_list)
# X1 X2 X3
# 1 Transition45 Technologies, Inc. 1739 North Case Street Orange, CA
# 2 ATSP Innovations 60 Hazelwood Drive Champaign, IL
# 3 Cornerstone Research Group, Inc. 2750 Indian Ripple Road Dayton, OH
# 4 Interdisciplinary Consulting Corporation 5745 Southwest 75th Street, #364 Gainesville, FL
# 5 CFD Research Corporation 701 McMillian Way Northwest, Suite D Huntsville, AL
# 6 LaunchPoint Technologies, Inc. 5735 Hollister Avenue, Suite B Goleta, CA
# X4 X5
# 1 92865-4211 (714) 283-2118
# 2 61820-7460 (217) 417-2374
# 3 45440-3638 (937) 320-1877
# 4 32608-5504 (352) 283-8110
# 5 35806-2923 (256) 726-4800
# 6 93117-6410 (805) 683-9659
질문을 입력하고 수행하려는 작업의 최소 샘플을 표시하십시오. 원본 파일이 지저분하고 현재 논리가 작동하는지 잘 모르겠습니다. 또한 R을 사용하지 않을 것입니다. Java를 사용하거나 Perl과 같은 것을 사용합니다. –