2017-12-15 26 views
0

내가 페이지에서 오전 특정 텍스트 후 문자열을 캡처하는 방법 : https://aplikacje.nfz.gov.pl/umowy/AgreementsPlan/GetPlans?ROK=2017&ServiceType=03&ProviderId=104056&OW=01&OrthopedicSupply=False&Code=3202801&AgreementTechnicalCode=1030545rvest :

싶습니다 일부 값

Rok: 2017 
Oddział wojewódzki: Dolnośląski Oddział Wojewódzki Narodowego Funduszu Zdrowia 
Kod świadczeniodawcy: 3202801 
Nazwa świadczeniodawcy: CHIRPLAST SPÓŁKA JAWNA IWONA RYCHLIK, DARIUSZ RYCHLIK 
Kod umowy: 03/1/3202801/01/2017/01 
Nazwa rodzaju świadczenia: Leczenie szpitalne 

와 헤더 후 서에만 값을 긁어있다 " KOD의 umowy "

03/1/3202801/01/2017/01 

은 내가 매개 변수를 입력 할 필요가 이해

kod_umowy <- html_nodes(pg, ?????) 

은 x-path 또는 css 노드이지만 위치를 식별하는 식별자가 없으므로 값 앞에 오는 문자열은 없습니다.

특정 문자열 다음에 나타나는 첫 번째 문자열을 가져올 수 있습니까? (아마도이 ​​페이지의 경우 줄의 다음 문자열을 얻기 위해 일부 HTML 구문을 건너 뛰거나 무시하는 것을 의미합니다).

답변

1
library(rvest) 

pg <- read_html("https://aplikacje.nfz.gov.pl/umowy/AgreementsPlan/GetPlans?ROK=2017&ServiceType=03&ProviderId=104056&OW=01&OrthopedicSupply=False&Code=3202801&AgreementTechnicalCode=1030545") 

html_nodes(pg, xpath=".//div[contains(., 'Kod umowy:') and contains(@class, 'col-sm-3')]/following-sibling::div[2]") %>% 
    html_text() 
## [1] "03/1/3202801/01/2017/01"