rome (1.0)을 사용하여 피드 애그리 게이터를 생성하려고합니다. 모든 것이 작동하지만 피드의 charset에 문제가 있습니다. 난 맥 OS X (넷빈 6.9.1) 이상 자바 1.6을 사용하여 개발 중입니다. 내가 피드를 검색하려면 다음 코드를 사용하고charset 및 rome (rss/atom 피드) 문제
:
_source
는 RSS 소스입니다
InputStream is = new URL(_source).openConnection().getInputStream();
SyndFeed feed = (SyndFeed) input.build(new InputStreamReader(is, Charset.forName(_charset)));
(같은 http://rss.cnn.com/rss/edition.rss)와 _charset
가 UTF-8 또는 ISO-8859-1이다.
작동하지만, 라틴 문자 (포르투갈어 등)가있는 일부 사이트는 두 가지 인코딩을 모두 사용하더라도 작동하지 않습니다.
Secretrio 드 그래서 파울로 (UTF-8)
Secretário 드의 탐구 £를 파울로 (O :
는 예를 들어, 항상 다음과 같은 더미의 문자를 반환합니다 http://oglobo.globo.com/rss/plantaopais.xml에서 읽을 피드 ISO-8859-1)
왜? 내가 놓친 게 있니?
로마에서 UTF-16과 같은 것을 사용하려고하면 오류가 발생합니다. com.sun.syndication.io.ParsingFeedException : 잘못된 XML : 행 1의 오류 : 프롤로그에서 내용을 사용할 수 없습니다.
내가 더 운과 US-ASCII와 같은 다른 인코딩을 시도했습니다...
또 다른 질문 : 로마 (자바를 사용하여) 피드를 처리하는 가장 좋은 해결책이다? 로마에서 가장 최근 버전은 2009 년에서 일자 죽은 것 같다 1.0 ...
TIA,
밥이다
이것은 http://stackoverflow.com/questions/8473410/while-parsing-rss-feed-through-rome-getting-content-is-not-allowed-in-prolog/14557915#14557915와 관련이 있습니다. 문제의 피드에는 더 이상 콘텐츠가 없으므로 바이트 순서 문제로 인해 테스트 할 수 없었습니다. –