음, 웹 페이지에서 정보를 가져와 내 프로그램 (자바)으로 가져 오는 방법을 알아 내려고 노력하고 있습니다.웹 사이트 (또는 페이지)에서 정보를 "스캔하여"내 프로그램으로 가져 오는 방법은 무엇입니까?
예를 들어, 내가 정보를 원하는 정확한 페이지를 알고있는 경우, Best Buy 항목 페이지를 단순화하기 위해 어떻게해야 해당 페이지에서 필요한 정보를 얻을 수 있습니까? 제목, 가격, 설명처럼?
이 프로세스는 무엇이라고할까요? 나는 이것을 연구하기 시작하는 것도 모른다.
편집 : 좋아, 나는 JSoup에 대한 테스트 (BalusC에 의해 게시를) 실행 해요,하지만 난이 오류가 계속 :
Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)
내가 할 수있는 아파치 코 몬즈
당신에게
웹 페이지 (
wget
및xpath
이 jARVEST의 언어 구조입니다) 내부의 모든 링크를 찾기 LinkedList.peekFirst가 Java 1.6에 등장했기 때문에 LinkedList에 문제가 있습니다. 귀를 사용하는 것 같습니다. LIer 버전 – zamza이 프로세스는 일반적으로 "화면 스크래핑"이라고하며 SOAP와 같은 API를 사용할 수 없지만 웹 GUI가 사용되는 경우에 사용됩니다. 응용 프로그램을 웹 브라우저로 가장하여 HTML 페이지를 수동으로 파싱하는 것이 포함됩니다. 나는 파싱을 자동화하는 아래에 나열된 API 중 하나를 고려해 보시기 바랍니다. –