scraper

-5열

1답변

가능한 중복 : Scrape web page contents How to scrape all content from a website? I 사이트 covers.com에서 내가 할 수있는 내 인생에 약간의 박스 스코어 데이터를 긁어하기 위해 노력하고있어 그것을하는 방법을 알아낼 수 없습니다. 특정 날짜에 boxscores를 얻고 싶지만 simplehtmldo

3열

2답변

Ruby/Mechanize를 사용하여 선택한 요소 뒤에 다음 요소를 선택했습니다.

이 질문을 특별히 찾을 수 없었습니다. 이전 질문에 대한 새로운 변형 인 것은 틀림 없습니다. (일치하지 않는) p.red 요소 text() 뒤에 테이블을 선택할 수 있기를 바랍니다. 'p'에는 "Alphabetical"텍스트가 없지만 "OVERALL"텍스트가 포함되어 있습니다. . <p class=red>Some Text</p> <table cl

1열

1답변

스크랩 PHP 스크립트를 수정해야 함

Google은 검색 엔진 결과 페이지를 스크랩하고 클라이언트 웹 사이트 위치를 해당 도메인의 맞춤 보고서 스위트로 출력하는 PHP 스크립트를 보유하고 있습니다. Google은 2 월 첫 주에 스크립트를 변경하여 스크립트가 페이지의 도메인을 감지하지 못하게했으며 현재 본사의 개발자가 없거나 다른 직원이 문제를 해결할 수 없습니다. 나는 개발자가 아니기 때문에

0열

1답변

페이스 북 스크레이퍼 오류 읽는 내용

내 페이지의 내용을 읽을 때 페이스 북 스크레이퍼 몇 가지 이상한 물건을 던져 ... 페이지 URL : http://www.protagora.hr/Stranica/O-nama/9/ 긁어 디버그 출력 : https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fwww.protagora.hr%2

0열

2답변

한 번의 반복 작업으로 Foreach 루프가 죽는다

나는 ScraperWiki를 사용하여 어제 실험을 해본 결과 DOM에 모두 li의 목록을 얻을 수있었습니다. 그러나 이제는 한 번의 반복 만 실행합니다. 이 내가 뭔가를 분명 실종 될 수 있도록 내가 정말 PHP 사람 아니에요 내 코드 $html = 'www.blah...' $dom = new simple_html_dom(); $dom->load($ht

0열

3답변

Java-mysql 고부하 응용 프로그램 충돌이 발생했습니다.

내 html-scraper에 문제가 있습니다. Html-scraper는 HtmlUnit을 사용하여 Java로 작성된 멀티 스레딩 응용 프로그램입니다. 기본적으로 128 개의 스레드로 실행됩니다. 즉, 그것은 다음과 같이 작동합니다 : 큰 텍스트 파일, ping url에서 사이트 URL을 가져 와서 액세스 할 수 있는지 - 사이트를 구문 분석하고, 특정 HT

0열

1답변

긁힌 웹 페이지에서 값 추출

파이썬을 사용하고 Google의 하루가 지나면 내 오래된 두뇌는 더욱 어려움을 겪습니다. 나는 pycurl을 사용하여 ntlm 프록시에서 로그를 남기고 페이지를 긁어 낸 다음 beautifulsoup를 사용하여 결과를 미리보기로 표시했습니다. 나는 prettify 출력에서 3 개의 값을 추출하여 변수로 저장하려고합니다. 페이지가 동적으로 생성되므로 페이

1열

1답변

스크랩 - 문자 인코딩

데이터베이스를 채우기 위해 웹의 큰 테이블에서 일부 데이터를 긁어 내고 있습니다. 문자 중 일부는 화면에 잘 나타나지만 긁으면 다음과 같이 처리됩니다. !¬†√Öland Islands 원시 데이터를 가져 오기 위해 file_get_contents를 사용하고 있습니다. 내가 긁은 후에도 괜찮아 보인다. (즉, 원시 결과를 var_dump하면된다.) Åland

0열

2답변

URL을 스크랩하여 리다.

어쨌든 URL을 리디렉션하는 웹 사이트를 긁어 모으기를 바랍니다. 예 : http://www.toyota.com.my/는 HTML 문서를 가지고 있지 않기 때문에 request({ uri: 'http://www.toyota.com.my', encoding: 'binary' }, function (error, response, body) { /

4열

2답변

BeautifulSoup : 지정된 속성을 제거하지만 태그와 내용을 보존합니다.

나는 MS FrontPage에서 생성 된 웹 사이트의 html을 'defrontpagify'하려고하는데, 그것을 수행하기 위해 BeautifulSoup 스크립트를 작성하고 있습니다. 그러나 태그가 포함 된 문서의 모든 태그에서 특정 속성 (또는 목록 속성)을 제거하려고하는 부분에 갇혀 있습니다. 코드 스 니펫 REMOVE_ATTRIBUTES = ['lang