0
웹 사이트 here (SECI 웹 사이트 링크)에서 "SEC Investment Adviser Report"버튼을 클릭하면 gzip에서 XML 파일을 추출하려고합니다. 아래는 내 (최소) 코드입니다. 내 요청에 따라 gzip.open()
.text
또는 .content
을 제공하는지에 따라 "내장 된 null 문자"또는 "내장 된 null 바이트"를 계속 가져옵니다. 누구든지 XML에 액세스 할 수 있도록이 파일을로드하는 데 도움을 줄 수 있습니까?gzip 폴더에서 파일의 압축을 풉니 다
import requests
import gzip
file = gzip.open(requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC').text,'rt')
['gzip.open'] (https://docs.python.org/3/library/gzip.html # gzip.open)은 파일 이름을 사용합니다. 또한 해당 링크의 IA_FIRM_SEC_Feed_12_20_2017.xml.gz이 유효한 gzip 아카이브로 보이지 않습니다. HTML이 추가되었습니다. – Galen
[gzip.decompress] (https://docs.python.org/3/library/gzip.html#gzip.decompress)를 사용할 수 있습니다. 그래도 첨부 된 HTML에 대한 내 의견을 참고하십시오. ') .gzip.decompress (request.content [: request.content.find (b "\ r \ n \ r \ n ") - 1])' – Galen