2017-12-27 32 views
0

bs4이 설치되어 있습니다. 텍스트 파일에서 HTML 태그를 어떻게 제거합니까? 간단히 말해, ESRI 메타 데이터 항목을 해당 메타 데이터의 HTML 페이지에서 텍스트 파일로 쓰는 스크립트가 있고이 항목의 몇 가지 경우 HTML 형식 코드도 어떤 이유로 기록됩니다. BeautifulSoup을 사용하여이 코드를 제거하려면 어떻게해야합니까? 엉성한 것처럼 보입니다. Textfile텍스트 파일에서 BeautifulSoup 태그를 제거하십시오.

+0

예상되는 출력은 무엇입니까? 지금까지 시도한 내용은 무엇입니까? – johnII

+1

'soup.text' 시도 –

+0

html 태그없이 해당 데이터를 추출 하시겠습니까? –

답변

2

이의 w3lib library, bs4의 필요없이 사용 :

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text) 
0

@eLRuLL 감사, 태그를 제거하는 위대한 작품을

이 첨부 파일의 설명 항목은 HTML이있다. 그러나이 스크립트를 사용하는 메타 데이터 설명 중 일부는 꽤 길며 텍스트를 변수로 입력하는 것은 나쁜 생각처럼 보입니다. 그 이유는 다음과 같습니다.

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract) 

스크립트는 실행되지만 HTML은 여전히 ​​존재합니다.

+0

귀하의 질문을 해결해 주셔서 감사합니다. 기뻤습니다. – eLRuLL