2017-04-25 5 views
-1

이 텍스트 파일의 데이터를 MySQL Workbench 데이터베이스로로드 할 수있는 형식으로 변환하는 데 관심이 있습니다. (기업 이름, 메일 주소,시/주/우편 번호 :패턴에서 데이터를 추출하는 중 R

https://sbir.nasa.gov/SBIR/abstracts/17-1.html

나는

"SMALL BUSINESS 관심사라는 제목의 각 줄 끝에서 저에게 사업의 이름을 몇 가지 R 코드를 실행하려면 , 전화 번호) "

예를 들어,이 같은 출력 결과를 찾고 있어요 :

Transition45 테크놀로지 ATSP 혁신

등. 데이터베이스 열에로드 할 수 있습니다.

호프가 맞다는 희망이 생겼다. 감사.

+1

질문을 입력하고 수행하려는 작업의 최소 샘플을 표시하십시오. 원본 파일이 지저분하고 현재 논리가 작동하는지 잘 모르겠습니다. 또한 R을 사용하지 않을 것입니다. Java를 사용하거나 Perl과 같은 것을 사용합니다. –

답변

0

문제/질문이 명확하지 않습니다.

내가 올바른 오전 경우 다음 줄 이후에 쓰여진 주소 세부 추출 할 : 바로 "SMALL BUSINESS 우려 (기업 이름, 메일 주소, 도시/주/우편 번호, 전화 번호)를"? 그렇다면

url <- "https://sbir.nasa.gov/SBIR/abstracts/17-1.html" 

abstracts_page <- readLines(url) 
abstracts_page <- gsub("<.*?>", "", abstracts_page) 
abstracts_page <- gsub("\\t+", "", abstracts_page) 

address_header_index <- grep("SMALL BUSINESS CONCERN:", abstracts_page) 

address_list <- lapply(address_header_index, function(i) { 
    return(abstracts_page[(i + 2):(i + 6)]) 
}) 

address_list <- data.frame(do.call("rbind", address_list)) 

head(address_list) 

#           X1         X2     X3 
# 1   Transition45 Technologies, Inc.    1739 North Case Street  Orange,&nbsp;CA 
# 2       ATSP Innovations     60 Hazelwood Drive Champaign,&nbsp;IL 
# 3   Cornerstone Research Group, Inc.    2750 Indian Ripple Road  Dayton,&nbsp;OH 
# 4 Interdisciplinary Consulting Corporation  5745 Southwest 75th Street, #364 Gainesville,&nbsp;FL 
# 5     CFD Research Corporation 701 McMillian Way Northwest, Suite D Huntsville,&nbsp;AL 
# 6   LaunchPoint Technologies, Inc.  5735 Hollister Avenue, Suite B  Goleta,&nbsp;CA 

#   X4    X5 
# 1 92865-4211 (714) 283-2118 
# 2 61820-7460 (217) 417-2374 
# 3 45440-3638 (937) 320-1877 
# 4 32608-5504 (352) 283-8110 
# 5 35806-2923 (256) 726-4800 
# 6 93117-6410 (805) 683-9659 
+0

[regex on html] 사용 (http://stackoverflow.com/a/1732454/1422451)은 권장되지 않습니다. – Parfait

+0

좋은 조언 @ 파벨 트, 고마워 .. +1 – nurandi

+0

@nurandi 너는 대단해. 내 질문에 대답 한 다음 감사. – ebilk