2014-11-18 1 views
4

프로그래밍 방식으로 인터넷에서 텍스트 문자열로 수십만 개의 오픈 액세스 북을 가져 오려고한다고 가정합니다. 제 의도는 그들에 대한 분석을하는 것입니다 (팬더 사용). 이미 응용 프로그램의 일부 부분에서 mongodb를 사용하고 있지만 pendrive에 넣고 다른 컴퓨터로 전송하는 것이 쉽지 않다고 생각합니다. Sqlite는 휴대용이지만 SQL을 작성하는 것은 싫다. 필자가 보았던 다른 옵션은 hdf5라는 파일이나 개별 텍스트 파일로 파일 시스템에 넣는 것입니다.많은 양의 텍스트 데이터에 hdf5를 사용할 수 있습니까?

hdf5는 이러한 유형의 텍스트 전용 데이터에 적합합니까? 그렇지 않은 경우 사용할 수있는 다른 옵션은 무엇입니까?

답변

5

네가 할 수 있지만, 내가 너라면, 나는 개별 텍스트 파일을 사용하고 포함 디렉토리를 압축 할 것이다. 이유는 다음과 같습니다.

큰 숫자 배열 (HDF5의 빵과 버터)은 이진 형식으로 효율적으로 저장할 수 있지만 이진 텍스트가 없기 때문에 HDF5를 사용하여 얻을 수있는 공간면에서 이점이 없습니다. 예, HDF5 파일 내에서 압축을 활성화 할 수 있지만 텍스트 파일을 쉽게 압축 할 수 있습니다.

요즘 텍스트 파일과 zip 파일 모두 보편적으로 보편적입니다. 따라서 이식성 측면에서는 아무 것도 없습니다.

다음은 HDF5로 할 수없는 일의 예입니다. 데이터 세트를 제거하고 공간을 확보하십시오.

마지막으로 프로젝트에 대한 종속성이 더 높지만 텍스트 파일은 모든 프로그래밍 언어에서 무료로 제공됩니다.

1

그래, 그렇습니다.

HDF 그룹 웹 사이트 및 HDF5에 대한 설명 : "HDF5는 데이터를 저장하고 관리하기위한 데이터 모델, 라이브러리 및 파일 형식으로 무제한의 다양한 데이터 유형을 지원하며 유연하고 효율적인 I/O 및 대용량 및 복합 데이터에 적합합니다. " 여기

더 많은 정보 : http://www.hdfgroup.org/HDF5/

행운을 빕니다!