2014-07-24 14 views
0

일부 (그래프) 데이터베이스를 벤치마킹하고 크고 복잡한 데이터 세트를 찾고 싶습니다. 데이터 세트의 크기는 2TB에서 5TB 사이 여야합니다. 이러한 기준을 모두 채우는 샘플 데이터 세트 (정부 또는 과학 데이터 공개)를 알고 있습니까?크고 복잡한 샘플 데이터 찾기

답변

2

이 사용자의 요구 사항에 맞게해야

1000 Genomes 프로젝트는 가능한 인간 게놈 데이터의 260 TB하게
  • Internet Archive 연구에 사용할 수있는 80 TB 웹 크롤링을하고있다
  • TREC 회의는 ClueWeb09했다
  • 몇 년 전에 사용 가능한 데이터 세트. 교과서 데이터 전송을 충당하기 위해 계약서에 서명하고 최대 610 달러의 금액을 지불해야합니다. 데이터는 약 5TB 압축됩니다. 인디애나 대학에서하는 Freebase 주석, FACC1
  • Cnet의는 2.5 TB click dataset 사용할 수
  • ICWSM가 2011 conference에 사용할 블로그 게시물의 큰 신체를 만든하게만큼
  • ClueWeb12는 사용할 수 있습니다. 등록 (온라인 양식이 아닌 실제 양식)해야하지만 무료입니다. 2.1TB 정도 압축됩니다.
  • Proteome Commons는 몇 가지 큰 데이터 세트를 제공합니다. 가장 큰 개인 인 Genome Project의 크기는 1.1TB입니다.

크기가 100GB를 초과하는 다른 몇 가지가 있습니다.