위키 백과 문서의 "참고 자료"섹션에있는 모든 링크를 가져오고 싶지만 파이썬 용 위키 피 디아 API (Wikipedia documentation)는 이러한 정보를 제공하지 않습니다. "페이지"기능을 사용하여 페이지의 전체 내용을 가져와 "참고 자료"섹션을 추출하더라도 해당 섹션은 일반적으로 비어 있습니다! (브라우저에서 해당 웹 페이지를 살펴 본다면 비어 있지 않습니다!).위키 피 디아 페이지의 "관련 항목"섹션을 참조하십시오.
그래서, 내 생각, 그 정보를 추출하기위한 유일한 방법은 HTML 페이지를 구문 분석하는 것입니다. HTML 페이지를 구문 분석하지 않고 해당 정보를 추출하는 데 도움이되는 제안이 있으면 감사하겠습니다.
-1
A
답변
1
나에게 합리적인 질문처럼 보입니다. 어쨌든 HTML을 파싱해야 할 수도 있지만 RESTBase API는 출력 HTML을 섹션 제목별로 그룹화하는 '모바일 섹션'엔드 포인트를 제공합니다. 이 API 엔드 포인트는 다음과 같습니다
https://en.wikipedia.org/api/rest_v1/page/mobile-sections/Facebook
는 API 응답이 응답이
"remaining": {
"sections": [
{
"id": 39,
"text": ...,
"toclevel": 1,
"line": "See also",
"anchor": "See_also"
},
...
]
}
같은 '섹션'속성을 가진 객체를 포함, 당신은 선택할 수 있습니다 line
속성이 문자열 "See also"와 일치하는 섹션의 HTML
그것은 우습다! 코멘트의 라인을받지 않고, 두 사람이 나에게 부정적인 포인트를 준 !!!! – woody