0
보일러 파이프를 사용하면 HTML 페이지 전체를 정리하여 웹 페이지에서 기사의 텍스트 만 추출 할 수 있습니다. 그러나 기사의 제목을 어떻게 추출 할 수 있습니까? 페이지의 제목을 사용하는 방법이 있지만 때로는 잘못되어 불필요한 단어가 포함되어 있습니다 (예 : 'title - sitename').Boilerpipe를 사용하여 HTML에서 기사 제목을 추출하십시오 (보일러 파이프 사용).
또 다른 아이디어는 <h1>
과 </h1>
사이에서 텍스트를 찾는 것입니다. 그러나 나는 여전히 더 많은 해결책을 요구할 것이라고 생각했습니다.
그래, 일종의, 유일한 제목 추출 부분이 필요합니다 –
그래서 HTML의 구조는 매우 중요합니다. 따라서 웹 사이트는 다른 구조를 가지고 있습니다. 그것은 확실히 시간을 소모하는 작업입니다 ... –