나는이 질문에 답하기 위해 약간 둘러 보았지만 아무 소용이 없었다. 특정 페이지를 처리하기 위해 위키 미디어 페이지 덤프를 구문 분석하고 있습니다 (예, 위키 미디어 페이지 덤프를 구문 분석 할 수있는 몇 가지 도구를 알고 있지만 파서뿐만 아니라 저를 위해 작동하지 않습니다).위키 미디어 페이지 덤프에서 섹션을 감지하는 방법
질문은 간단합니다. 섹션의 시작을 감지하는 방법을 알고 있습니다 (예 : "== 외부 참조 =="). 쉽습니다. 잘 정의되지 않은 부분은 섹션이 끝나는 시점을 감지하는 방법입니다. 예를 들어, 대부분의 섹션에서 다음 섹션 헤더가 시작될 때까지 스캔 할 수 있지만 신뢰할 수는 없습니다. 필자는 섹션에 대한 위키 미디어의 도움말 페이지를 살펴 보았지만 섹션의 끝을 감지하는 방법은 밝히지 않았습니다.
자세한 답변을 보내 주셔서 감사합니다. – rational