웹 페이지에서 몇 개의 텍스트를 추출하고 싶습니다. StackOverFlow (다른 사이트와 마찬가지로)를 검색하여 적절한 방법을 찾았습니다. 나는 추출 할 HTML2TEXT, BeautifulSoup로, NLTK 및 기타 수동 방법을 사용하고 난 예를 들어 실패텍스트 추출 : 모든 방법을 사용했지만 고생했습니다.
- HTML2TEXT 오프라인 (= 저장된 페이지)에서 작동하며 내가 온라인으로 할 필요가있다.
- BS4가 유니 코드에서 제대로 작동하지 않습니다 (내 페이지가 UTF8 페르시아어 인코딩으로되어 있음). 텍스트를 추출하지 않습니다. 또한 HTML 태그 \ codes를 반환합니다. 렌더링 된 텍스트 만 필요합니다.
- NLTK는 내 페르시아어 텍스트에서 작동하지 않습니다. urllib.request.urlopen으로 내 페이지를 열려고하는 중에도 몇 가지 오류가 발생합니다. 그래서 여러 가지 방법을 시도한 후에 너무 많이 붙어 있습니다.
내 대상 URL은 다음과 같습니다. http://vynylyn.yolasite.com/page2.php 태그 \ 코드가없는 페르시아 단락 만 추출하고 싶습니다.
(참고 : \ 파이썬 (34)는 내가 텍스트를 등 POS 태그, 워드 \ 문장 토큰 화를 수행하려면 다음 텍스트를 추출 할 승 이클립스 케플러를 사용합니다.) 얻을 수있는 내 옵션은 무엇
을 이게 효과가 있니?
당신이 도서관은 그것의 자신의 네트워크 기능을 가지고 있지 않기 때문이다 "오프라인"작동이있는 경우. 하지만 HTML과 HTTP는 완전히 별개의 기술이기 때문에 괜찮습니다. 파이썬이 포함하는 것과 같은 네트워크 라이브러리를 사용하여 [인터넷에서 페이지를 다운로드] (http://stackoverflow.com/q/22676/33732) HTML 라이브러리를 사용하여 처리하십시오. –