2014-01-25 2 views
0

기사를 문자열 형식으로 반환하는 기사 추출기를 사용하여 블로그에서 데이터를 추출했습니다. 일부 페이지에는 뉴스 콘텐츠로 들어가는 하위 링크가 있기 때문에 해당 데이터도 추출해야합니다. 그렇다면 하위 링크 안에있는 데이터에 어떻게 액세스 할 수 있습니까? - 특히 내가 2 개 별도의 프로젝트로이 문제를했고 그것이 내가 그물의 이전 버전의 라이브러리를했다 밝혀졌다 json에 문자열 덮기

이클립스

String news =" "; 
try 
{     
    URL url; 
    url = new URL("http://www.firstpost.com/tag/crime-in-india"); 
    InputSource is = HTMLFetcher.fetch(url).toInputSource();   
    BoilerpipeSAXInput in = new BoilerpipeSAXInput(is); 
    TextDocument doc = in.getTextDocument();   
    news = ArticleExtractor.INSTANCE.getText(doc); 
} 
+0

json으로 변환 할 데이터의 부분은 무엇입니까? – PopoFibo

+0

@PopoFibo 최종 결과 "뉴스"는 j son으로 변환 될 것입니다.하지만 그 전에는 전체 주요 뉴스 내용을 포함하는 하위 링크에서 기사/뉴스를 추출하고 싶습니다. 뉴스 기사에 하위 링크가있는 경우 분명히 다음 그것은 완전한 내용을 얻을 추출해야합니다 – chopu

+0

URL url; url = 새로운 URL ("blogs.timesofindia.indiatimes.com/index.php"); InputSource = HTMLFetcher.fetch (url) .toInputSource(); BoilerpipeSAXInput in = 새로운 BoilerpipeSAXInput (있는); TextDocument doc = in.getTextDocument (Exception e) {e.printStackTrace();} - 이것은 XML 컨테이너에있는 XMLSerializer의 XMLSerializer입니다. code snippet ..하지만 마지막 줄에 예외가 표시됩니다. – chopu

답변

0
import net.sf.json.xml.XMLSerializer; 


XMLSerializer xmlSerializer = new XMLSerializer(); 
JSON json = xmlSerializer.read(news); 
+0

URL이 없습니다. – chopu

+0

URL url; \t url = 새 URL ("http : //blogs.timesofindia. indiatimes.com/mellowdrama/entry/india-needs-a-law-against-community-crime ") \t InputSource is = HTMLFetcher.fetch (url) .toInputSource(); BoilerpipeSAXInput in = 새로운 BoilerpipeSAXInput (있는); TextDocument doc = in.getTextDocument(); news1 = ArticleExtractor.INSTANCE.getText (doc); XMLSerializer xmlSerializer = 새 XMLSerializer(); JSON json = xmlSerializer.read (news1); \t \t \t} \t 캐치 (예외 E) \t \t \t {e.printStackTrace(); \t} – chopu

+0

예외가 발생하고 있습니까? ( 가 \t (문자열) 판독에있어서 Blog2.main의 유형 XmlSerializer를 \t 대한 정의되지 Blog2를 "주"상위를 스레드 예외 : 미해결 컴파일 문제 –

0

가 빌드 경로에 라이브러리 수입을 확인 : 내 코드는 이것이다 .sf.json (json-lib-2.4-jdk15.jar) (이전 버전도 포함)