2010-06-22 4 views
5

전 텍스트 전체 텍스트 스타일 검색을 실행하기 위해 텍스트 모음을 찾고 있습니다. 다운로드 할 수있는 것 또는 그것을 생성하는 시스템. 예를 들어 무작위 비트가 더 좋을 수 있습니다. 1,000,000 개의 위키피디아 기사를 2 열 데이터베이스 (ID, 텍스트)에 삽입하기 쉬운 형식으로 작성합니다.FULLTEXT 스타일 검색을 테스트 할 데이터 세트 찾기

의견이나 제안이 있으십니까?

+0

시도해보십시오. http://pizzachili.dcc.uchile.cl/texts.html –

답변

0

내가 익숙해지기 때문에 거기서 버리겠다 - Prosper.com은 회원 대출리스트를 분석 through an XML export에 사용할 수있게한다. 수출에는 설명이 포함 된 약 50,000 건의 대출 요청과 1,000,000 개 이상의 회원 프로필이 있습니다 (그러나 그 중 많은 부분이 비어 있음).

+0

감사합니다. 유용 할 수 있습니다. 아직 처리하기에는 꽤 많은 처리가 필요합니다. –

2

Wikipedia dump을 사용하지 않으시겠습니까?

+1

주로 압축되지 않았기 때문에 주로 많은 텍스트 파일을 찾고 마크 업 언어로되어 있습니다. –

3

Project Gutenberg에는 32000 권의 도서가 있습니다.

편집 : 지금의 로 (17.06.16) (과학에서 종교) 다양한 주제에 UTF-8에 일반 텍스트 파일로 을 다운로드 52,284 무료 전자 책이 있습니다. EPUB, Kindle 또는 html 형식의 형식도 있습니다. 체크 here Project Gutenberg