2016-10-21 10 views
0

보일러 파이프를 사용하면 HTML 페이지 전체를 정리하여 웹 페이지에서 기사의 텍스트 만 추출 할 수 있습니다. 그러나 기사의 제목을 어떻게 추출 할 수 있습니까? 페이지의 제목을 사용하는 방법이 있지만 때로는 잘못되어 불필요한 단어가 포함되어 있습니다 (예 : 'title - sitename').Boilerpipe를 사용하여 HTML에서 기사 제목을 추출하십시오 (보일러 파이프 사용).

또 다른 아이디어는 <h1></h1> 사이에서 텍스트를 찾는 것입니다. 그러나 나는 여전히 더 많은 해결책을 요구할 것이라고 생각했습니다.

답변

0

웹 크롤러를 쓰고 있습니까? 난 어려움이 전체 HTML에서 제목이 어디 있는지 알아야한다는 것입니다. 대부분의 웹 사이트에는 HTML을 작성하는 고유 한 패턴이 있으므로 크롤러가 작성되기 전에 알려야합니다.

+0

그래, 일종의, 유일한 제목 추출 부분이 필요합니다 –

+0

그래서 HTML의 구조는 매우 중요합니다. 따라서 웹 사이트는 다른 구조를 가지고 있습니다. 그것은 확실히 시간을 소모하는 작업입니다 ... –