미디어 위키 상점은 계산 방법에 따라 두 개 또는 세 개의 장소에서 데이터를 파일 : 현재 파일 버전
실제 메타 데이터는 image
테이블에 저장됩니다. 이것은 아마도 당신이 주로 원하는 것입니다; 최신 en.wikipedia 덤프 here을 찾을 수 있습니다.
이전 대체 파일 개정판의 데이터는 oldimage
테이블로 이동합니다.이 테이블은 기본적으로 image
테이블과 구조가 같습니다. 이 테이블도 버려지고, 최신 테이블은 here입니다.
마지막으로 각 파일은 (일반적으로) 네임 스페이스 6 (File:
)의 상당히 일반적인 wiki 페이지와 일치합니다. 다른 페이지와 마찬가지로 XML 덤프에서이 텍스트를 찾을 수 있습니다.
아, 그리고 당신이 영어 위키 백과 덤프에 연결된 해당 파일을 찾지 못하는있는 이유는 위키 미디어 공용에 공유 저장소에서 걸 수 있습니다. 대신 Commons data dumps에서 찾을 수 있습니다. 지금까지 내가 말할 수있는 실제 파일, here's the (apparently) official documentation.을 다운로드에 관해서는
, 모든 그들이 의미하는 "대량 다운로드 미러에서 사용 가능 (9 월 2012 년) 현재는 아니지만 위키 미디어 서버에서 직접 제공했다."이다 모든 이미지를 tarball에 저장하려면 미러를 사용해야합니다. Wikipedia 및/또는 Commons에있는 이미지에서 수백만 명의 비교적 작은 하위 집합을 끌어 당기는 경우 Wikimedia 서버를 직접 사용하는 것이 좋습니다.
자신을 식별하고 서버를 너무 세게 치지 마십시오. user-agent string을 보내주십시오. 특히 다운로드를 순차적으로 실행하여 이전 파일을 완료 한 후에 만 다음 파일 다운로드를 시작하는 것이 좋습니다.어쨌든 병렬 다운로드보다 쉽게 구현할 수있을뿐만 아니라 대역폭 점유율 이상을 차지하지 않으며 다운로드 속도가 서버 부하에 자동으로 적응할 수 있습니다.
ps. 당신이 거울에서 직접 위키 미디어 서버에서 파일을 다운로드하든, 당신은에있어 어떤 디렉토리 파악해야 할 것 일반적인 위키 백과 파일의 URL은 다음과 같이 :.
http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg
곳 "wikipedia/en
"부분 위키 미디어 프로젝트 및 언어를 식별합니다 (역사적 이유로 Commons는 "wikipedia/commons
"으로 표시됨). the "a/ab
" part은 UTF-8로 파일 이름의 MD5 해시의 처음 두 16 진수로 표시됩니다 (데이터베이스 덤프로 인코딩 됨).).
다음은 동일한 증상을 나타내는 두 번째 이미지의 예입니다. 내가 무리를 시도하고 덤프에 아직 하나를 발견하지 않았습니다. http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –