Pywikibot으로 wiki 페이지의 HTML을 얻으려면 어떻게해야합니까?

pywikibot-core를 사용하고 있으며, 다른 파이썬 Mediawiki API 래퍼 인 .(.HTML 메서드 포함) 이전에 사용했습니다. 나는 pywikibot-core로 전환했다. 왜냐하면 더 많은 기능이 있다고 생각하기 때문에 비슷한 방법을 찾을 수 없다. (주의 : 나는별로 숙련되지 않았다.)Pywikibot으로 wiki 페이지의 HTML을 얻으려면 어떻게해야합니까?

출처

2014-12-12 Aubrey

여기 user283120 두 번째 대답은, 첫 번째보다 더 정확한 게시합니다 :

Pywikibot 코어는 위키에 상호 작용하는 직접적인 (HTML) 방식을 지원하지 않습니다, 그래서 당신은 API를 사용해야합니다. 필요한 경우 urllib2를 사용하면 쉽게 할 수 있습니다. import urllib2 ... url = " https://commons.wikimedia.org/wiki/ " + page.title().replace(" ","_") html = urllib2.urlopen(url).read().decode('utf-8')

출처

2014-12-14 22:54:00 Aubrey

커뮤니티 위키로 답변을 설정 했으므로 편집 할 수있었습니다. :) – Nemo

미안하지만, 나는 여기에 초보자이고 평판이 좋다. 나는 아무것도 편집 할 수 없다고 생각한다. 이 답변을 자신의 것으로 붙여 넣으려면 완전히 괜찮습니다 .--). – Aubrey

"[saveHTML.py] 다운로드 파일에 기사와 이미지의 HTML - 페이지와 흥미로운 부분을 저장, 문서 텍스트, 즉 및 바닥 글"

소스 : IIRC https://git.wikimedia.org/blob/pywikibot%2Fcompat.git/HEAD/saveHTML.py

출처

2014-12-12 12:04:22 valepert

감사 valepert :

이

내가 공유지에서 위키 페이지의 HTML을 가져 오는 데 사용 예입니다. 그러나 이것은 바로 스크립트입니다. 그리고 그것은 단지 pywikibot-compat 또는 핵심에 있습니까? 나는 항상 혼란 스럽다 : - – Aubrey

당신이 전체 페이지의 HTML을 원하므로 api.php?action=parse을 사용해야합니다. 파이썬에서 나는 종종 단지 wikitools을 사용할 것입니다. PWB 나 다른 요구 사항에 대해서는 잘 모릅니다.

출처

2014-12-12 16:27:56 Nemo

고맙습니다. user283120, 나는 또한 결론에 도달했습니다. 필자는 직접 존재하는 PWB 방법을 원합니다 : 나는 Mediawiki 기반 웹 사이트에 대처할 수있는 가장 완벽한 소프트웨어라고 생각합니다. – Aubrey

PWB는 편집 및 유사한 작업에 중점을 둡니다. 나는 종종 PWB보다 낮은 수준의 API 모듈을 사용하여 쉽게 끝나지 만, 그것은 나만의 것일 수있다. – Nemo

일반적으로 wikipedia 대신 pywikibot을 사용해야합니다 (예 : "import wikipedia"대신 "import pywikibot"사용). 그리고 wikipedia.py에 있던 메소드와 클래스를 찾고 있다면 지금 분리되어 있습니다. pywikibot 폴더 (주로 page.py 및 site.py)에서 찾을 수 있습니다.

compat에서 작성한 스크립트를 실행하려면 compat2core.py라는 pywikibot-core에서 스크립트를 사용할 수 있습니다 scripts 폴더), README-conversion.txt라는 이름의 변환에 대한 자세한 도움말이 있으므로주의해서 읽으십시오.

출처

2014-12-12 23:34:39

Pywikibot으로 wiki 페이지의 HTML을 얻으려면 어떻게해야합니까?

답변

관련 문제