0
일반 크롤링 데이터 세트 (warc.gz 파일)에서 html 콘텐츠를 구문 분석해야합니다. 대부분 사람들이 제안하기 때문에 bs4
(Beautifulsoup) 모듈을 사용하기로 결정했습니다. 얻을 수있는 코드가되어 다음과 같은 텍스트 :일반 크롤링 데이터에서 Beautifull 스프가 텍스트 추출에 너무 많은 시간이 걸립니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(src, "lxml")
[x.extract() for x in soup.findAll(['script', 'style'])]
txt = soup.get_text().encode('utf8')
bs4
하지 않고, 하나 개의 파일이 완전히 구분 (테스트 케이스)에서 처리하지만 텍스트를 구문 분석 bs4
를 사용하는 경우, 작업은 약 4 시간으로 완성되고 있습니다. 이게 무슨 일이야. bs4
이외의 다른 솔루션이 있습니까? 주 : bs4는 Beautifilsoup와 같은 많은 모듈을 포함하는 클래스입니다.
당신이 무엇을 의미합니까 'BS4없이'? –
'bs4'보다 더 빠를'lxml' 또는're' (정규식)을 사용할 수 있습니다 –
html, script, styles 태그를 제거 할 수있는 lxml이나 re에 대한 예제가 있습니까? – Shafiq