감사합니다 귀하의 경우에 url.txt
에있는 URL의 순서가 중요 할 경우 즉, 1.html
에 첫 번째 URL의 데이터가 포함되어야한다면 2.html
은 두 번째 url과 일치해야하므로 순차적으로 urls를 처리 할 수 있습니다.
다음 스크립트는 각 URL에 대해 원하는 작업을 수행합니다 :
#!/bin/bash
infile="$1"
dest_dir="~/Desktop/ProjectM2/data/crawl"
# create html and txt dir inside dest_dir
mkdir -p "$dest_dir"/{html,txt}
c=1
while IFS='' read -r url || [[ -n "$url" ]]; do
echo "Fetch $url into $c.html"
wget -q -O "$dest_dir"/html/$c.html "$url"
echo "Convert $c.html to $c.txt"
html2text -o "$dest_dir"/txt/$c.txt "$dest_dir"/html/$c.html
c=$((c + 1))
done < "$infile"
스크립트는이 경우 url.txt
에, 입력 파일를 차지한다. 결과 파일을 더 잘 구성하기 위해 대상 디렉토리 ~/Desktop/ProjectM2/data/crawl
아래에 두 개의 디렉토리 (html
, txt
)를 작성합니다. while 루프 (Read file line by line)를 사용하여 줄 단위로 파일 url.txt
에서 URL을 읽습니다. wget
을 사용하면 -O
옵션을 사용하여 원하는 출력 파일 이름을 지정할 수 있으므로 원하는 경우 파일 이름을 지정할 수 있습니다. 일련 번호는 원하는 경우 지정할 수 있습니다. -q
옵션은 wget 메시지를 명령 행에서 제거하는 데 사용됩니다. html2text
에서 -o
을 사용하여 출력 파일을 지정할 수 있습니다.
'나는 매니큐어를 보았 니?' 정확히 무엇을 시도 했습니까? url.txt에 어떤 URL이 있는지 예제를 보여줄 수 있습니까? – marcell
나는을 위해 –
URL을 사용하려고했습니다. http://www.lefigaro.fr/culture/2010/12/31/03004-201ARTFIG00461-le-bonheurest-dans-la-cuisine.php https : //www.universalis.fr/encyclopedie/egypte-antique-histoire-l-egypte-pharaonique/ –