설명 : webcrawler 프레임 워크와이 프레임 워크를 구현하는 독립 모듈이 있습니다. 이 모든 모듈은 뉴스 관련 웹 사이트의 뉴스를 수집합니다.자세한 내용이 부족한 IOException - 403 오류
프레임 워크에는 IOException 및 SocketTimeoutException과 같은 두 가지 예기치 않은 오류가 있습니다. 분명한 이유 (웹 사이트가 오프라인 일 수도 있고 유지 보수 중일 수도 있음)
사실 : 특정 웹 사이트 (THIS one) 항상 임의 IO 예외가 발생합니다. 나는 그것을 예측하려했지만, 왜 아직도이 오류가 발생하는지 알지 못합니다.
나는 테스트 단계에서 요청으로 폭탄을 터뜨린 것이라고 생각했다. 그것은 2 일 또는 3 일 안에 다른 요청을 보내지 않아도 여전히 오류가 나옵니다. 간단히 말해서
:이 사이트는 인증이 필요하지 않으며, 그것은 무작위로 (403)가 서로 다른 여러 오류가있을 수 있기 때문에 403 무작위로
, 내 응용 프로그램과 특정 문제가 무엇인지보고 싶다 던졌습니다 .
내가 403을 얻을 수 있다면, 나는 그 주위를 시도하고 해결할 수 있습니다. (403.1, 403.2, ..., 403.n)
//If you guys want the code, it's a basic Jsoup get.
//(I have also tried it with native API,
//and still get the same random 403 errors)
//Note that I also tried it with no redirection, and still get the error
Document doc = Jsoup
.connect("http://www.agoramt.com.br/")
.timeout(60000)
.followRedirects(true)
.get();
//You may criticize about the code. But this specific line is the one
//that throws the error. And it doesn't randomly do that to other 3k
//site connections. That's why I want to get the specifics from the 403
403은 액세스가 금지되어 있음을 의미합니다. 왜 더 많은 이유가 필요합니까? – erickson
그렇다면이 오류가 무작위로 왜 발생합니까? –
아, 알겠습니다. 문제는 * 랜덤입니다. * 똑같은 URL을 원하십니까? 제 시간에 클러스터링이 보이십니까? 다른 소스 IP 주소에서 크롤링을 시도 했습니까? 더 좋은 점은 완전히 다른 넷 블록입니까? – erickson