기사를 문자열 형식으로 반환하는 기사 추출기를 사용하여 블로그에서 데이터를 추출했습니다. 일부 페이지에는 뉴스 콘텐츠로 들어가는 하위 링크가 있기 때문에 해당 데이터도 추출해야합니다. 그렇다면 하위 링크 안에있는 데이터에 어떻게 액세스 할 수 있습니까? - 특히 내가 2 개 별도의 프로젝트로이 문제를했고 그것이 내가 그물의 이전 버전의 라이브러리를했다 밝혀졌다 json에 문자열 덮기
이클립스
에String news =" ";
try
{
URL url;
url = new URL("http://www.firstpost.com/tag/crime-in-india");
InputSource is = HTMLFetcher.fetch(url).toInputSource();
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
TextDocument doc = in.getTextDocument();
news = ArticleExtractor.INSTANCE.getText(doc);
}
json으로 변환 할 데이터의 부분은 무엇입니까? – PopoFibo
@PopoFibo 최종 결과 "뉴스"는 j son으로 변환 될 것입니다.하지만 그 전에는 전체 주요 뉴스 내용을 포함하는 하위 링크에서 기사/뉴스를 추출하고 싶습니다. 뉴스 기사에 하위 링크가있는 경우 분명히 다음 그것은 완전한 내용을 얻을 추출해야합니다 – chopu
URL url; url = 새로운 URL ("blogs.timesofindia.indiatimes.com/index.php"); InputSource = HTMLFetcher.fetch (url) .toInputSource(); BoilerpipeSAXInput in = 새로운 BoilerpipeSAXInput (있는); TextDocument doc = in.getTextDocument (Exception e) {e.printStackTrace();} - 이것은 XML 컨테이너에있는 XMLSerializer의 XMLSerializer입니다. code snippet ..하지만 마지막 줄에 예외가 표시됩니다. – chopu