나는 pseudo-spider 웹 사이트로가는 길을 찾고 있습니다. 핵심은 내가 실제로 콘텐츠를 원하는 것이 아니라 단순한 URI 목록입니다.웹 사이트를 거미로 URL을 반송
이wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
grep
필터 보인다 : 나는 Wget이 --spider
옵션을 사용하지만, grep
를 통해 출력하는 배관 때, 나는 그것이 작동 할 수있는 권한 마법을 찾을 수 없습니다로이 아이디어 합리적으로 가까이 갈 수 있습니다 wget
출력에 전혀 영향을 미치지 않습니다. 내가 잘못한 것이 있거나 제한된 결과 집합을 제공하는 것보다 더 노력해야하는 다른 도구가 있습니까?
UPDATE
그래서 난 그냥 기본적으로 wget
가 표준 오류에 기록, 오프라인을 발견했다. 나는 man 페이지에서 그것을 놓쳤다. (사실, 아직 거기에 있다면 그것을 찾지 못했다). 하나라도 해당되면
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
난 아직도, 이런 종류의 작업을 수행하는 다른/더 나은 수단에 관심이있을 것 : 나는 표준 출력으로 리턴 파이프하면, 내가 필요한 가까이 있어요.
wget -q http://example.com -O - | \
tr "\t\r\n'" ' "' | \
grep -i -o '<a[^>]\+href[ ]*=[ \t]*"\(ht\|f\)tps\?:[^"]\+"' | \
sed -e 's/^.*"\([^"]\+\)".*$/\1/g'
이 출력됩니다 모든 HTTP, HTTPS, FTP 및 FTPS 링크 :
파이썬 스크립트를 사용하여 다른 방법으로이 질문/답변보기 : http://stackoverflow.com/questions/9561020/how-do-i-use-the-python-scrapy-module-to-list-all- the-urls-from-my-website –
가능한 중복 [사이트에서 URL 목록 가져 오기] (http://stackoverflow.com/questions/857653/get-a-list-of-urls-from-a- 사이트) –