< (html 태그) 내의 텍스트를 제거하고 결과를 새 파일에 쓰려고합니다. 예를 들어, 한 줄의 텍스트가 될 수있다 : 웹 사이트 html 태그가 제거되지 않는 Python
< asdf> Text <here>more text</asdf>
그래서 프로그램은 출력 파일에 쓸 것입니다 : "더 많은 텍스트를 텍스트", HTML 태그 내부의 사람들을 제외하고.
깨끗한 버전을 작성하지 않는 것
import urllib.request
data=urllib.request.urlopen("some website").read()
text1=data.decode("utf-8")
import re
def asd(text1):
x=re.compile("<>")
y=re.sub(x,"",text1)
file1=open("textfileoutput.txt","w")
file1.write(y)
return y
asd(text1)
는 여전히 태그가 :
이 지금까지 내 시도이다. 도와 줘서 고마워. 이 표현이 < asdf>
또는 </asdf>
일치하는 것입니다 생각하는 이유
귀하의 정규 표현식 만 일치 충분하다. 나는 [BeautifulSoup 잡아보기 웹 페이지 텍스트] (https://stackoverflow.com/questions/1936466/beautifulsoup-grab-visible-webpage-text)와 같은 솔루션을 제안합니다. – Galen
당신이 옳다. x = re.compile (r "<[^> +>") 프로그램이 이제 작동합니다. 고맙습니다. – Jaakkath
태그에> 어딘가가 포함되어 있으면 어떻게 될까요? alecxe가 지적했듯이 정규 표현식으로 HTML을 구문 분석하는 것은 일반적으로 최선이 아닙니다. – Galen