2011-11-28 5 views
2

로컬 디스크에 html 파일이 있고 BoilerPipe를 사용하여 텍스트를 추출하고 싶습니다. 보일러 파이프를 로컬 HTML 파일과 함께 사용하는 방법은 무엇입니까?

클래스 ExtractorBase에서 "gettext에"방법

는 독자를 받아, 그래서 나는 썼다 :

FileReader fr = new FileReader("D:/myHTMLfile"); 
System.out.println(ArticleExtractor.INSTANCE.getText(fr)); 

을하지만 내가 코드의 두 번째 라인을 가리키는 오류가 발생합니다.

단서가 있습니까? 고마워!

편집 : 전체 오류 MSG는 다음과 같습니다

Exception in thread "pool-1-thread-1" java.lang.NoClassDefFoundError: org/cyberneko/html/HTMLConfiguration 
    at de.l3s.boilerpipe.sax.BoilerpipeHTMLParser.<init>(BoilerpipeHTMLParser.java:50) 
    at de.l3s.boilerpipe.sax.BoilerpipeHTMLParser.<init>(BoilerpipeHTMLParser.java:41) 
    at de.l3s.boilerpipe.sax.BoilerpipeSAXInput.getTextDocument(BoilerpipeSAXInput.java:51) 
    at de.l3s.boilerpipe.extractors.ExtractorBase.getText(ExtractorBase.java:69) 
    at de.l3s.boilerpipe.extractors.ExtractorBase.getText(ExtractorBase.java:101) 
    at neuromarket.BoilerPlateExtractor.run(BoilerPlateExtractor.java:42) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) 
    at java.lang.Thread.run(Thread.java:662) 
Caused by: java.lang.ClassNotFoundException: org.cyberneko.html.HTMLConfiguration 
    at java.net.URLClassLoader$1.run(URLClassLoader.java:202) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at java.net.URLClassLoader.findClass(URLClassLoader.java:190) 
    at java.lang.ClassLoader.loadClass(ClassLoader.java:306) 
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301) 
    at java.lang.ClassLoader.loadClass(ClassLoader.java:247) 
    ... 9 more 
Exception in thread "pool-1-thread-2" java.lang.NoClassDefFoundError: org/cyberneko/html/HTMLConfiguration 
    at de.l3s.boilerpipe.sax.BoilerpipeHTMLParser.<init>(BoilerpipeHTMLParser.java:50) 
    at de.l3s.boilerpipe.sax.BoilerpipeHTMLParser.<init>(BoilerpipeHTMLParser.java:41) 
    at de.l3s.boilerpipe.sax.BoilerpipeSAXInput.getTextDocument(BoilerpipeSAXInput.java:51) 
    at de.l3s.boilerpipe.extractors.ExtractorBase.getText(ExtractorBase.java:69) 
    at de.l3s.boilerpipe.extractors.ExtractorBase.getText(ExtractorBase.java:101) 
    at neuromarket.BoilerPlateExtractor.run(BoilerPlateExtractor.java:42) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) 
    at java.lang.Thread.run(Thread.java:662) 
BUILD SUCCESSFUL (total time: 0 seconds) 

답변

4

당신은 클래스 경로에 nekohtml-1.x.x.jar를 추가해야합니다.

+0

와우, 그것은 매력처럼 작동했습니다. Thx 너무 많이! – seinecle

+0

반갑습니다. :) –