위키 백과 페이지의 하위 집합 (예 : 100MB)을 얻으려면 어떻게해야합니까? 전체 데이터 세트를 XML로 가져올 수 있지만 그 중 하나 또는 두 개를 좋아할 수있는 것으로 나타났습니다. 나는 그렇게 많이 필요 없다.위키 백과 페이지의 하위 집합은 어떻게 받습니까?
맵 축소 알고리즘을 구현하는 실험을하고 싶습니다.
아무 데서도 100 메가의 가치있는 텍스트 샘플 데이터를 찾을 수 있다면 좋을 것입니다. 예 : 스택 오버플로 데이터베이스가 사용 가능한 경우 적절한 크기가 될 것입니다. 나는 제안에 개방적이다.
편집 : 급류가 아닌 것은 무엇입니까? 나는 직장에서 그들을 얻을 수 없습니다.
불쌍한 동네인데, 나는 직장에서 그들을 얻을 수 없다. – Chris
여기에 최신 다운로드 링크가 있습니다 : http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris
여기에 같은 DB에 대해 이야기하고 있습니까? – Leo