2008-08-15 8 views
12

저는 다양한 유형의 프로그램을 테스트하기 위해 항상 대형 데이터 세트를 찾고 있습니다. 누구든지 어떤 제안이 있습니까?대형 데이터 세트

답변

10

netflix contest을 확인하십시오. 나는 그들이 자신의 데이터베이스 또는 큰 하위 집합을 노출하여 콘테스트를 용이하게한다고 믿는다.

업데이트 : Their faq에는 다운로드 할 수있는 하위 집합에 1 억 개의 항목이 있습니다.

1

Fuzz Testing에 대한 임의의 데이터를 생성하는 것이 좋습니다. 그렇게하면 무제한의 테스트 데이터를 얻을 수 있으며 가장자리의 경우를 맞을 가능성이 큽니다.

원하는 테스트 데이터 종류, 형식 및 응용 프로그램 유형에 대한 자세한 정보가 있습니까?

1

대상 플랫폼이 무엇인지 모르겠지만 MSSQL 데이터베이스에 대해 개발중인 경우 Visual Studio for Database Professionals을 확인하십시오. 정의 할 수있는 데이터 플랜을 사용하여 스키마에 대한 데이터를 생성 할 수있는 매우 멋진 기능이 있습니다.

Redgate에도 데이터 생성 도구가 있지만 사용하지 않았습니다.

데이터 생성 계획을 생성하고이를 사용하여 스키마의 특정 영역을 테스트하기 위해 조정할 수있는 일관되고 많은 양의 데이터로 데이터베이스를 채울 수 있습니다.

1

Aaron Swartz가 theinfo을 확인하고 싶을 수도 있습니다. 를 수집하는 스크레이퍼 및 크롤러를 처리하는 학계와 괴짜, 디자이너 : 사이트

이에서

는 대규모 데이터 세트와 을 사랑하는 사람들을위한 사이트입니다 및 시각화하는 예술가. 그들은 과 함께 도구를 개발 및 공유하고 은 프로젝트를 통합하기 시작합니다.

2

거대한 XML 파일 인 Wikimedia 다운로드 세트를 사용하여 일부 작업을 수행했습니다. 유감스럽게도 다운로드 서버에는 현재 디스크 공간 문제가있어 많은 데이터 세트를 사용할 수 없습니다. 그러나 사용 가능할 때 전체 역사가있는 전체 영어 Wikipedia 데이터 세트는 2.8TB (18GB 압축)입니다.

5

미국 통계 협회 data expo에 대한 데이터를보고 싶을 수도 있습니다. 지난 20 년간 미국 내 모든 상업 항공편에 대한 비행 정보 - 1 억 2 천만 기록, 11 기가 데이터입니다.

2

"publicdata"태그를 사용하여 공용 데이터가 포함 된 사용자 (사용자 포함)의 사용자 수는 del.icio.us입니다. 해당 아카이브 here을 찾고 해당 태그 here에 대한 RSS 피드를 구독하십시오. 피드를 구독하면 웹에 나타나는 흥미로운 데이터 세트가 지속적으로 표시됩니다.

모든 데이터 세트가 크지는 않지만 종종 흥미 롭습니다.

0

데이터 유형을 맞춤 설정하려면 Kimono Labs을 확인하십시오.웹에서 근근이 살아가는 소프트웨어로 아무런 제한이없는 행을 무료로 긁어 낼 수 있습니다. API를 설정하면 (URL 생성기를 사용하여 한 번에 여러 URL을 다룰 수 있습니다) 개인 데이터 집합을 JSON, CSV 또는 RSS로 활용할 수 있습니다.