html-parsing

-1열

2답변

나는 웹 사이트를 구문 분석하고 이미지의 이름이나 URL을 잡으려고합니다. 예 URL : http://www.theworkingmanstore.com/georgia-gr14-infants-romeo.aspx 는 하나의 <td> 6 개 이미지 이상이 있고 난 단지 그 <td>의 첫 번째 IMG의 SRC를 싶어. 아마 Dom Parser로 할 수있을 것이라고

1열

1답변

BeautifulSoup 문제로 데이터 스크랩하기

newby 웹 스크레이퍼 여기. 왜 내가 필요한 정보를 추출 할 수 없는지 궁금합니다. 코드는 다음과 같습니다 : from bs4 import BeautifulSoup import requests url = "http://www.mortgagenewsdaily.com/mortgage_rates/" r = requests.get(url) soup

-1열

1답변

lxml - 어린이로부터 요소를 분리하는 방법

lxml을 사용하여 HTML 요소를 가져 와서 자식을 제외하고 문자열로 바꿀 수 있기를 바랍니다. 어떻게해야합니까? text_content에 의해 반환되는 모든 텍스트가 후 보존하지 않는 것이, import lxml.html as LH code = '''<a foo="bar">some text<b></b> here <c><d>Hi</d></c> and

1열

1답변

BeautifulSoup을 이용한 Python 스크래핑/파싱

BeautifulSoup/Requests로 URL을 긁어 내고 필요한 섹션 만 꺼내서 제거하십시오. 다른 대상 URL을 결정한 후에 HTML을 올바르게 출력하지만 코드를 정리하는 코드가 작동하지 않습니다. 여기 내 코드는 다음과 같습니다. import requests from bs4 import BeautifulSoup import bs4.element

4열

1답변

BeautifulSoup 속성에 하위 문자열이 포함 된 요소 만 찾으시겠습니까? 이것이 가능한가?

BeautifulSoup 코드에 find_all()으로 전화가 왔습니다. 이 기능은 현재 모든 이미지를 얻으려고하는데, src에 "자리 표시 자"라는 하위 문자열이있는 이미지 만 타겟팅하려는 경우 어떻게해야합니까? for t in soup.find_all('img'): # WHERE img.href.contains("placeholder")

-1열

3답변

전자 상거래 제품 페이지에서 주요 제품 이미지 추출

소매업 자 웹 사이트의 제품 페이지에서 주 이미지를 추출하는 옵션을 찾고 있는데 문제는 제품 페이지에 여러 이미지가 있음 (관련 이미지), 한 가지 방법 나는 모든 이미지 링크를 추출하고 각 이미지 링크를 다운로드하고 각 이미지의 크기를 비교하여 주 제품 이미지 인 저장 바이트의 측면에서 가장 큰 크기를 가진다고 생각했습니다. 분명히 매우 비효율적 인 방법

0열

1답변

lxml 사용법 모든 src 태그 찾기 및 바꾸기

lxml을 사용하여 src 컨텐츠를 가져 와서 공백으로 바꾸고 싶습니다. 하지만 신체는 여전히 교체되지 않습니다. 도와주세요. 감사합니다. 예를 들어 import re import lxml.html #the content of source.log is a webpage source code I got by scrapy with open("source.

0열

1답변

웹 스크래퍼 코드 (python3.4)의 문제점

웹 사이트에서 표를 긁어 내려고했습니다. 실행되지만 내 파일로 출력되지 않습니다. 내가 어디로 잘못 가고 있니? 코드 : from bs4 import BeautifulSoup import urllib.request f = open('nbapro.txt','w') errorFile = open('nbaerror.txt','w') page = ur

1열

1답변

문제 PHP로 스크래핑

값을 얻으려고하지만 동적으로 변경되는 다른 값을 단계적으로 넘어갑니다.이 Total 1.18 3.33 $20,000 16.2% 내가 preg_match에서 세 번째 값을 찾기 위해 사용하고 코드는 다음과 같습니다 : <?php function get_total(){ $file_string = file_get_contents('url'); pr

1열

1답변

경로별로 요소에 액세스하는 방법은 무엇입니까?

약간의 정보를 검색하기 위해 끔찍한 HTML 페이지 인 BeautifulSoup을 구문 분석하려고합니다. 아래의 코드 : [<div alarmid="f319e1fb" class="ue-alarm-status" playerid="43733"> <div> <div class="ue-alarm-edit ue-link">Réveil 1: </div> <d