2009-08-24 5 views
3

위키 백과 페이지의 하위 집합 (예 : 100MB)을 얻으려면 어떻게해야합니까? 전체 데이터 세트를 XML로 가져올 수 있지만 그 중 하나 또는 두 개를 좋아할 수있는 것으로 나타났습니다. 나는 그렇게 많이 필요 없다.위키 백과 페이지의 하위 집합은 어떻게 받습니까?

맵 축소 알고리즘을 구현하는 실험을하고 싶습니다.

아무 데서도 100 메가의 가치있는 텍스트 샘플 데이터를 찾을 수 있다면 좋을 것입니다. 예 : 스택 오버플로 데이터베이스가 사용 가능한 경우 적절한 크기가 될 것입니다. 나는 제안에 개방적이다.

편집 : 급류가 아닌 것은 무엇입니까? 나는 직장에서 그들을 얻을 수 없습니다.

답변

4

stackoverflow 데이터베이스는 download에서 사용할 수 있습니다.

+0

불쌍한 동네인데, 나는 직장에서 그들을 얻을 수 없다. – Chris

+0

여기에 최신 다운로드 링크가 있습니다 : http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris

+0

여기에 같은 DB에 대해 이야기하고 있습니까? – Leo

1

stackoverflow 데이터베이스의 복사본을 얻으려면 the creative commons data dump에서 수행 할 수 있습니다.

호기심에서 벗어나이 데이터를 모두 무엇에 사용 하시나요?

+0

mapreduce 알고리즘을 구현하는 실험을하고 싶습니다. – Chris

0

하나의 옵션은 전체 위키피디아 덤프를 다운로드 한 다음 일부만 사용하는 것입니다. 전체 내용을 압축 해제 한 다음 간단한 스크립트를 사용하여 파일을 더 작은 파일 (예 : here)로 분할하거나 디스크 공간이 걱정되는 경우 압축을 풀고 즉시 분리하는 스크립트를 작성할 수 있습니다. 원하는 단계에서 압축 해제 프로세스를 중지 할 수 있습니다. Wikipedia Dump Reader은 파이썬에 익숙하다면 압축을 풀고 처리하는 영감을 얻을 수 있습니다 (mparser.py보세요).

전체 내용을 다운로드하지 않으려면 깎기 옵션이 있어야합니다. Export feature이 도움이 될 수 있으며 wikipediabot도이 맥락에서 제안되었습니다.

+1

예, 저는 호주에 있습니다. 인터넷 다운로드 제한으로 인해 전체 다운로드가 제한됩니다. 그렇게 말하면서, 우리는 모두 광 - 고 - 광대역 (백만 년 만에)을 얻었고, 그것은 우리나라를 파산시킬 것입니다, 그래서 나는 언제나 그것을 기다릴 수 있습니까?/rant – Chris

+0

오른쪽. 그런 다음 내보내기 기능을 살펴보십시오. 올바르게 이해하면 서버 및 대역폭에서 덜 무거워집니다. – daphshez

0

웹 크롤러를 사용하여 100MB의 데이터를 스크래핑 할 수 있습니까?

+0

너무 많은 서버를 처벌하는 데별로 신경 쓰지 않아! – Chris

2

Chris, 웹 페이지가 100MB가 될 때까지 위키피디아 "임의 페이지"링크를 누르기 만하면됩니다. http://en.wikipedia.org/wiki/Special:Random. 얻을 수있는 복제본을 폐기하고 싶지만 분당 요청 수를 제한하고 싶을 수도 있습니다 (기사의 일부분이 위키피디아 서버가 아닌 중간 웹 캐시에 의해 제공 될지라도). 하지만 꽤 쉬워야합니다.

+0

알다시피, 그건 나쁜 생각이 아닙니다. 좋은 서브 세트를 줄 것입니다. 나는 그것이 단지 영원히 잡힐 것이기 때문에 걱정한다, 그것은 나의 유일한 문제 다. – Chris

0

사용할 수있는 위키 백과 사전 덤프가 많이 있습니다. 왜 가장 큰 (영어 위키)를 선택하고 싶습니까? Wikinews 아카이브는 훨씬 작습니다.