bs4
이 설치되어 있습니다. 텍스트 파일에서 HTML 태그를 어떻게 제거합니까? 간단히 말해, ESRI 메타 데이터 항목을 해당 메타 데이터의 HTML 페이지에서 텍스트 파일로 쓰는 스크립트가 있고이 항목의 몇 가지 경우 HTML 형식 코드도 어떤 이유로 기록됩니다. BeautifulSoup을 사용하여이 코드를 제거하려면 어떻게해야합니까? 엉성한 것처럼 보입니다. Textfile텍스트 파일에서 BeautifulSoup 태그를 제거하십시오.
0
A
답변
2
이의 w3lib
library, bs4
의 필요없이 사용 :
from w3lib.html import remove_tags
text = "your text"
new_text = remove_tags(text)
0
@eLRuLL 감사, 태그를 제거하는 위대한 작품을
이 첨부 파일의 설명 항목은 HTML이있다. 그러나이 스크립트를 사용하는 메타 데이터 설명 중 일부는 꽤 길며 텍스트를 변수로 입력하는 것은 나쁜 생각처럼 보입니다. 그 이유는 다음과 같습니다.
import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
abstract = metadata.abstract
if abstract:
w3lib.html.remove_tags(abstract)
스크립트는 실행되지만 HTML은 여전히 존재합니다.
+0
귀하의 질문을 해결해 주셔서 감사합니다. 기뻤습니다. – eLRuLL
예상되는 출력은 무엇입니까? 지금까지 시도한 내용은 무엇입니까? – johnII
'soup.text' 시도 –
html 태그없이 해당 데이터를 추출 하시겠습니까? –