2016-08-28 2 views
0

tar.gz로 압축 된 csv 파일에서 pandas DataFrame을 만들려면 어떻게해야합니까? 나는이 코드를 zip 파일로 찾았습니다. tar.gz 및 csv 파일을 다운로드하지 않고 tar.gz에서 작동하게하려면 다음 코드에서 무엇을 변경해야합니까?tar.gz에서 압축 된 csv에서 Panda Dataframe을 만드는 방법은 무엇입니까?

import pandas, requests, zipfile, StringIO 
r =requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip') 
z = zipfile.ZipFile(StringIO.StringIO(r.content)) 
df=pandas.read_csv(z.open('sample_CSV.csv')) 

내 파일이 https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-06-16.tar.gz

+1

하는 것으로. 압축이 해제되어 메모리에로드됩니다. 얼마만큼의 RAM이 있습니까? 감사합니다, 이스라엘! – ayhan

답변

0

단순히 파일 이름 read_csv-
.tar.gz 파일을 제공하려고이 gz 파일에 대한 기본 동작이기 때문에 자동,
압축을 풀고을 열 것입니다.

확장자가 소문자인지 확인하십시오.

+0

귀하의 응답을 감사하십시오. – Geet

1

당신은 다음과 tar.gz의 추출은 아래를 시도 할 수 : 압축 파일이 거의 40기가바이트입니다

import tarfile 
tar = tarfile.open(fname, "r:gz") 
tar.extractall() 
tar.close() 
+0

감사합니다, Raghav! 귀하의 응답을 감사하십시오. – Geet