2012-04-08 4 views
0

웹 페이지에서 주요 뉴스 콘텐츠를 추출해야합니다. 인터넷에서 검색 한 결과 무료로 사용할 수있는 보일러 파이프라는 API를 발견했습니다. http://boilerpipe-web.appspot.com/하지만 Boilerpipe를 사용하는 자바의 구현을 찾지 못했습니다. 누구든지 사용할 수 있습니다 Java에서 Boilerpipe를 사용하여 뉴스 컨텐츠를 추출하거나 Java에서 구현에 대한 링크를 제공하여 Boilerpipe를 사용하여 뉴스 웹 페이지에서 컨텐츠를 추출 할 수있는 방법을 알려주십시오.보일러 파이프를 사용하여 웹 페이지에서 뉴스 콘텐츠를 추출하는 방법은 무엇입니까?

+0

Jsoup와 같은 도서관을 사용하고 있습니까? http://jsoup.org/ 긁어 모으는 특정 웹 사이트가 있습니까? –

답변

1

내 대답이 너무 늦었습니다. 하지만 꽤 간단합니다.

URL url = new URL("http://www.nydailynews.com/sports/baseball"); 
ArticleExtractor ae = new ArticleExtractor(); 
String content = ae.getText(url); // this contains the final text 
1

간단한 허가, 당신이 URL

단지 내 서비스가 boilerpipe을 기반으로 내 BoilerPipe 대체 웹 API HERE를 사용 추출해야 가정, 난 때문에에 점점 할당량 초과 오류이 개발 원래 응용 프로그램에서 JSON으로 결과를 다시 가져올 수있는 옵션이 있습니다.

최고 감사합니다.