2017-12-15 32 views
0

125497040 행과 6 열의 매우 큰 데이터 세트가 있습니다. 팬더에서 전체 CSV 파일을 읽으려고하면 시스템이 다운되고 파일이 청크로 읽 힙니다."대용량 CSV의 일부분을 읽거나 어떤 단계로도 읽는 법"

청크로 읽음으로써 전체 데이터를 시각화하는 방법이 있는지 알고 싶습니까?

+1

당신은 matplotlib' 패키지'사용하여 데이터를 플롯 시각화 그것을 –

+0

를하지만 그런 거대한 데이터 집합을 조작하기에 충분한 메모리입니다 수 있습니까? – demonplus

+0

@ GarbageCollector : matplotlib를 사용할 수는 있지만 전체 데이터를 시각화하여 가능한 한 추세와 패턴을 볼 수 있는지 알고 싶었습니다. 부품으로 해석하고 해석해야하는 것 같습니다. –

답변

1

모든 차트 포인트를 하나의 작은 차트로 볼 수 없으므로 모든 데이터를 한 번에 시각화하는 것은 좋지 않습니다. 임의의 평활화 및/또는 근사 알고리즘을 사용하거나 특정 단계의 포인트를 취할 수 있습니다. 차트 확대/축소에서 자세히 설명 할 수 있습니다.

Plotlyhttps://plot.ly/javascript/zoom-events/에서 살펴보십시오.

이 방법이 만족 스럽다면 "예를 들어 큰 CSV의 일부를 읽거나 어떤 단계로 읽는가"와 같은 질문을 다시 작성하는 것이 좋습니다. 그리고이 문제로 인해 본을 사용하고있을 해결할 수 있다는 것 :

http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk

+0

+ 또한 https://pypi.python.org/pypi/pandasql, https://www.r-bloggers.com/turning-data-into-을 사용하려고 시도 할 수 있습니다. awesome-with-sqldf-and-pandasql /. DB로 직접 작업 할 수는 있지만 확실하지는 않습니다. 사용하지는 않았지만 시도 할 수 있습니다 =) –

+0

고마워요, 고맙습니다. :) –