2017-12-18 21 views
-1

위키 백과 문서의 "참고 자료"섹션에있는 모든 링크를 가져오고 싶지만 파이썬 용 위키 피 디아 API (Wikipedia documentation)는 이러한 정보를 제공하지 않습니다. "페이지"기능을 사용하여 페이지의 전체 내용을 가져와 "참고 자료"섹션을 추출하더라도 해당 섹션은 일반적으로 비어 있습니다! (브라우저에서 해당 웹 페이지를 살펴 본다면 비어 있지 않습니다!).위키 피 디아 페이지의 "관련 항목"섹션을 참조하십시오.

The "See also" section is not empty!

Nothing is appeared in "See also" section!

그래서, 내 생각, 그 정보를 추출하기위한 유일한 방법은 HTML 페이지를 구문 분석하는 것입니다. HTML 페이지를 구문 분석하지 않고 해당 정보를 추출하는 데 도움이되는 제안이 있으면 감사하겠습니다.

+0

그것은 우습다! 코멘트의 라인을받지 않고, 두 사람이 나에게 부정적인 포인트를 준 !!!! – woody

답변

1

나에게 합리적인 질문처럼 보입니다. 어쨌든 HTML을 파싱해야 할 수도 있지만 RESTBase API는 출력 HTML을 섹션 제목별로 그룹화하는 '모바일 섹션'엔드 포인트를 제공합니다. 이 API 엔드 포인트는 다음과 같습니다

https://en.wikipedia.org/api/rest_v1/page/mobile-sections/Facebook

Documentation provided here

는 API 응답이 응답이

"remaining": { 
    "sections": [ 
     { 
     "id": 39, 
     "text": ..., 
     "toclevel": 1, 
     "line": "See also", 
     "anchor": "See_also" 
     }, 
    ... 
    ] 
} 

같은 '섹션'속성을 가진 객체를 포함, 당신은 선택할 수 있습니다 line 속성이 문자열 "See also"와 일치하는 섹션의 HTML