2017-11-13 27 views
2

파일에 포함 된 일본어 단어 목록에서 wget을 수행하는 데 bash를 사용하는 python 스크립트를 만듭니다. 그냥 곱슬 곱슬을 사용하지만 인코딩 문제가 있습니다. wget과 함께이 HTML을 다운로드 않지만, 같은 시적인 제목으로 현재 디렉토리에 덤프 : 나는 "출력/混合가 .txt"와 같은 귀여운 소리가 나는 곳으로 HTML을 넣을일본어에 대한 인코딩을 사용하여 wget을 호출 할 때 Python이 이상하게 작동합니다.

試%E8%A1%8C%E9%8C%AF誤 

. 꽤 멋진 소리의 파일을 만들지 만 그 안에는 아무 것도 없습니다. 대신 출력을 리디렉션의

追究 
花器 
陶磁器 
枯渇 
風合い 
繊維 
混合 
アボード 
受け継い 
試行錯誤 
硬質 

답변

2

사용 -O file 옵션 :

os.system("wget \'https://kotobank.jp/word/" + line.strip() + "' -O " + line.strip() + ".txt" 

자세한 내용은 wgetdocumentation 참조를 다음과 같이 파일 "단어"

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

import os 

with open("words") as f: 
    for line in f: 
     text = unicode(line, "utf-8") 
     os.system("wget \'https://kotobank.jp/word/" + line.strip() + "'> output/" + line.strip() + ".txt") 
     #print("wget \'https://kotobank.jp/word/" + line.strip() + "'>> output/out.txt") 

그리고이다.