2013-01-04 1 views
3

I은 ​​대부분 다음과 같이 포맷 될 것이다 많은 양의 데이터를 수집하고 :빅 데이터베이스

사용자 1 (A, O, X, Y, Z, t, H를, u)

모든 변수는 시간을 기준으로 동적으로 변경됩니다. 단, u는 사용자 이름을 저장하는 데 사용됩니다. "큰 데이터"에서 배경이 너무 강하지 않아서 이해하려고하는 것은 배열로 끝날 때마다 108000 x 3500과 같이 매우 커질 것입니다. 각 시간 단계에서 분석을 수행 할 것이므로, 그것을 그래프로 나타낼 때이를 관리 할 수있는 적절한 데이터베이스가 무엇인지 결정하려고합니다. 이것은 과학 연구를위한 것이기 때문에 나는 CDF와 HDF5를보고 있었고 여기서 내가 읽은 것을 바탕으로 NASA 나는 CDF를 사용하고 싶다고 생각한다. 그러나 속도와 효율성을 위해 이러한 데이터를 관리하는 올바른 방법입니까?

최종 데이터 세트에는 모든 사용자가 열로 포함되며 행에 타임 스탬프가 지정되므로 분석 프로그램에서 데이터를 해석하기 위해 행을 한 행씩 읽습니다. 그리고 데이터 세트에 항목을 만듭니다. 어쩌면 CouchDB 및 RDBMS와 같은 것을보아야 할 것입니다. 시작하기에 좋은 장소를 알지 못합니다. 조언을 부탁드립니다. 당신이 장치를 생략 한하지 않는

답변

5

이 아니라 포괄적 인 대답보다 확장 된 코멘트입니다 ...과 관련하여

는 크기 108000*3500의 데이터 집합은 정말 요즘 빅 데이터로 인정하지 않습니다 GB과 같은 단지 108000*3500 바이트 일 경우 3GB가 추가됩니다. 언급 한 모든 기술은 쉽게 대처할 수 있습니다. 나는 당신이 당신의 실행을 가속화하기보다는 개발을 가속화 할 접근법을 토대로 당신이 선택해야한다고 생각합니다. 당신이 고려해야 할 또 다른 제안을하려는 경우

는하지만, 내가 제안 :

    SciDB
  1. Rasdaman
  2. Monet DB

모두가 학술 빅 데이터에 약간의 견인을 지역 사회 밖에서도 사용되기 시작했습니다.

2

필자는 유사한 크기의 데이터를 CDF로 사용해 왔지만 제대로 작동해야한다고 생각합니다. 그래도 몇 가지 사항을 명심해야합니다. 프로젝트의 세부 사항을 알지 못해서 도움이 될 수도 있고 도움이되지 않을 수도 있습니다 ...

3GB의 데이터는 CDF의 이전 버전에 대한 파일 크기 제한에 해당하므로 사용 중인지 확인하십시오 최신 도서관.

3GB는 그다지 데이터가 아니며, 읽고 쓰는 방법에 따라 느려질 수 있습니다. 가능할 때마다 하이퍼 읽기/쓰기 기능을 사용해야합니다.

CDF는 사용자 이름 및 데이터 설명과 같은 정보를 저장할 수있는 메타 데이터 (전역/변수 속성이라고 함)를 지원합니다.

데이터를 여러 파일로 나누기가 쉽습니다. 사용자 당 하나의 파일을 사용하는 것이 좋습니다. 즉, 각 레코드가 아닌 속성으로 전체 파일에 대해 한 번만 사용자 이름을 쓸 수 있습니다.

epoch라는 추가 변수를 만들어야합니다. 이것은 각 레코드에 대해 잘 정의 된 시간 소인입니다. 나는 당신이 지금 가지고있는 타임 스탬프가 적절한 것인지, 아니면 당신이 그것을 처리 할 필요가있을 것인지 확신 할 수는 없지만 생각할 필요가있는 것이다. 또한 에포크 변수에는 특정 유형이 지정되어야합니다 (에포크, 에포크 16 또는 TT2000). TT2000은 나노초 정밀도를 제공하고 윤초를 처리하는 가장 최근의 버전이지만, 내가 실행 한 대부분의 CDF 판독기는 아직 잘 처리하지 못합니다. 그런 종류의 정밀도가 필요하지 않다면 epoch16을 표준으로 사용하는 것이 좋습니다.

희망이 있으면 CDF와 함께 가면 당신이 쳤던 어떤 문제라도 저를 괴롭히지 마십시오.