boilerpipe

0열

1답변

이 문제는 java 및 python과 관련하여 발생합니다. 제가 pip를 사용하여 보일러 파이프 패키지를 설치하고 싶습니다. 저는 지난 2 일간 사용하지 않았습니다. pip install boilerpipe 는 오류 JAVA_HOME not found. JAVA JDK와 JRE가 모두 설치되어지고, 환경 변수는 propperly 설정됩니다. 사용자

3열

2답변

PHP 용 html 텍스트 추출

HTML 텍스트 추출 도구가 많이 있습니다. 대부분 Java 또는 Python 용입니다. 내가 가장 자주 보게되는 것은 보일러 파이프입니다. 여기 저기에 몇 가지 API가 있으며, 일부는 꽤 잘 작동하는 것 같습니다. 누구든지이 일을 PHP에서 알고 있나요?

0열

1답변

보일러 파이프를 사용하여 상용구를 유지하십시오.

저는 boilerpipe 라이브러리를 사용하여 뉴스 기사에 기사를 쓰고 있습니다. 뉴스 기사에는 저작권 정보, 관련 기사의 측면 창 등과 같은 많은 상용구가 포함되어 있습니다. Boilerpipe은 모든 정보를 제거합니다. 상용구 정보를 반환 할 수 있습니까? 나는 분석기를 필요로하고 저작권 진술 등을 추출해야한다. 또한, 그것이 상용구인지 아닌지에 대한

0열

2답변

보일러 파이프를 사용하여 웹 페이지에서 뉴스 콘텐츠를 추출하는 방법은 무엇입니까?

웹 페이지에서 주요 뉴스 콘텐츠를 추출해야합니다. 인터넷에서 검색 한 결과 무료로 사용할 수있는 보일러 파이프라는 API를 발견했습니다. http://boilerpipe-web.appspot.com/하지만 Boilerpipe를 사용하는 자바의 구현을 찾지 못했습니다. 누구든지 사용할 수 있습니다 Java에서 Boilerpipe를 사용하여 뉴스 컨텐츠를 추출

0열

1답변

Windows에서 Boilerpipe를 설치하는 방법?

누구나 Netbeans가있는 창에서 보일러 파이프를 사용하는 방법을 알려 줄 수 있습니까? 당신이 저에게 자바 코드를 줄 수 있다면 고맙겠습니다.

2열

1답변

임 자바 문서 추출 boilerpipe 라이브러리를 사용하여 시도는

package com.index; import java.net.URL; import com.opensymphony.xwork2.ActionSupport; import de.l3s.boilerpipe.extractors.ArticleExtractor; public class search_article extends ActionSupport {

0열

2답변

json에 문자열 덮기

기사를 문자열 형식으로 반환하는 기사 추출기를 사용하여 블로그에서 데이터를 추출했습니다. 일부 페이지에는 뉴스 콘텐츠로 들어가는 하위 링크가 있기 때문에 해당 데이터도 추출해야합니다. 그렇다면 하위 링크 안에있는 데이터에 어떻게 액세스 할 수 있습니까? - 특히 내가 2 개 별도의 프로젝트로이 문제를했고 그것이 내가 그물의 이전 버전의 라이브러리를했다 밝혀

1열

1답변

인라인 CSS로 HTML 기사 텍스트 추출

크롤링 된 HTML 웹 페이지에서 텍스트를 추출하고 싶습니다. 좋은 오픈 소스 Boilerpipe 라이브러리를 사용하고 있습니다. 그러나 Boilerpipe에서는 원시 텍스트 만 가져옵니다. 원본 텍스트 외에도 모든 CSS 스타일 정보가 인라인 된 원본 소스 서식 정보로 텍스트를 캡처해야합니다. 보일러 파이프 또는 다른 Java 라이브러리 (가능하면 오픈

2열

1답변

보일러 파이프를 로컬 HTML 파일과 함께 사용하는 방법은 무엇입니까?

로컬 디스크에 html 파일이 있고 BoilerPipe를 사용하여 텍스트를 추출하고 싶습니다. 클래스 ExtractorBase에서 "gettext에"방법는 독자를 받아, 그래서 나는 썼다 : FileReader fr = new FileReader("D:/myHTMLfile"); System.out.println(ArticleExtractor.INSTANC

5열

1답변

보일러 파이프 - JSON을 어떻게 출력합니까?

boilerpipe을 사용하고 있습니다. 훌륭하지만 JSON을 출력하고 싶습니다. Java 버전을 사용 중이며 NetBeans에서 다음과 같이 테스트하고 있습니다. final URL url = new URL("http://mashable.com/2012/09/26/worlds-best-father-kickstarter-calendar"); System.o