다음과 같은 프로그램을 사용하여 단어 단위로 파일을 읽고 다른 파일에 단어를 쓰지만 첫 번째 파일의 ASCII가 아닌 문자는 쓰지 않습니다. 내가 직면하고파이썬에서 파일을 읽고 비 ASCII 문자를 제거합니다.
import unicodedata
import codecs
infile = codecs.open('d.txt','r',encoding='utf-8',errors='ignore')
outfile = codecs.open('d_parsed.txt','w',encoding='utf-8',errors='ignore')
for line in infile.readlines():
for word in line.split():
outfile.write(word+" ")
outfile.write("\n")
infile.close()
outfile.close()
유일한 문제는이 코드로는 (d_parsed) 두 번째 파일에 새 줄을 인쇄하지 않습니다. 모든 단서 ?? docs for codecs.open
에서
뭐가 잘못 됐어. 그것은 완벽하게 작동합니다. – bluefoggy
outfile.write ("\ n")와 같이 줄 바꿈을하지 않습니다. – user1894963
Windows를 사용하고 있고 텍스트 편집기가있는 경우 각 줄 끝에'\ n '이 없어 보일 수 있습니다 파일을 보면'\ n'을 라인 구분 기호로 인식하지 못합니다. – bernie