필자는 HTML 파서를 작성하려고하지만 테스트하는 동안 웹 사이트를 매번 쿼리하지 않으므로 웹 사이트를 로컬로 HTML 파일로 저장했습니다.웹 대신 로컬 파일에서 HTML 파일을 열 때 디코딩하는 방법은 무엇입니까?
웹 사이트에서urltext = urllib.request.urlopen(urlfile).read().decode("utf-8")
직접 내가 올바른 구문 분석 stringto 얻을하지만 난 내 로컬 PC에서 열 때 잘못된 디코딩을 갖고있는 것 같아요 : 읽기
내가 사용
<span id="line845"></span> </span><span><<span class="start-tag">h2</span> <span class="attribute-name">class</span>="<a class="attribute-value">article-title</a>"></span><span>
<span id="line846"></span> </span><span><<span class="start-tag">span</span> <span class="attribute-name">class</span>="<a class="attribute-value">headline-intro</a>"></span><span>Intro:</span><span></<span class="end-tag">span</span>></span><span> </span><span><<span class="start-tag">span</span> <span class="attribute-name">class</span>="<a class="attribute-value">headline</a>"></span><span>Main text</span><span></<span class="end-tag">span</span>></span><span></span><span></<span class="end-tag">h2</span>></span><span>
을 원래는 다음과 같아야합니다.
<h2 class="article-title">
<span class="headline-intro">Intro:</span> <span class="headline">Main Text</span></h2>
어떤 아이디어가 잘못 되었나요?
고맙습니다
케빈
수동으로 메모장에서 파일을 여는 경우 어떤 버전입니까? –
gedit (또는 메모장에서도 같음)에 잘못된 버전이 있습니다. Libre Office에서 열면 괜찮습니다. – Kev
웹 사이트의 소스 코드를 연 다음 libre office에 복사하여 HTML로 저장 한 것 같습니다. 나 맞아? 그게 작동하지 않습니다. HTML은 일반 텍스트 형식이며 libre office는 서식있는 텍스트 파일 (즉, 글꼴 정보, 텍스트 색 등)을 만듭니다. 이상한 "여분의"것들은 여분의 서식있는 텍스트 형식입니다. –