문제가 있습니다. 상대적 URL을 절대적인 것으로 변환 할 수 없습니다. 이것을 어떻게 할 수 있습니까? 크롤러는 Java입니다.웹 크롤링 중 상대 URL을 절대 URL로 변환
감사합니다.
문제가 있습니다. 상대적 URL을 절대적인 것으로 변환 할 수 없습니다. 이것을 어떻게 할 수 있습니까? 크롤러는 Java입니다.웹 크롤링 중 상대 URL을 절대 URL로 변환
감사합니다.
URL(URL, String)
생성자를 사용하여 기본 URL (컨텍스트)과 URL 문자열에서 절대 URL을 만들 수 있습니다. javadocs을 참조하십시오.
웹 크롤러 소프트웨어는 올바른 기본 URL을 가져 오는 방법을 제공해야합니다.
웹 크롤러를 직접 코딩하는 경우 정확한 기본 URL을 찾는 것은 단순히 크롤링중인 페이지의 URL을 사용하는 문제가 아니라는 점에 유의하십시오. 기술적 인 세부 사항은 HTML 5 사양의 2.5.2 절에 있습니다. 주의 깊게 읽으십시오.
현재 시드 링크를 기본 URL로 사용 중입니다 ... 올바른 기본 URL을 얻는 방법에 대해 어둠입니다. 이것이 어떻게 성취 될 수 있는지 설명해 주시겠습니까? 이것은 자생 크롤러입니다. –
직접 크롤링하는 경우 HTML 사양에 설명되어 있습니다. 그렇지 않은 경우 웹 크롤링 라이브러리/사용중인 서비스에 따라 다릅니다. (자바로 쓰여 있다는 말은 도움이되지 않습니다 ...) –
HTML 5 스펙의 섹션 2.5.2입니다. –
[무엇을 시도해 보셨나요] (http://mattgemmell.com/what-have-you-tried/)까지? 질문을 코드로 업데이트하십시오. – Bishan