2 HTML 소스가 주어지면, 먼저 this 같은 것을 사용하여 주요 컨텐츠를 추출하고 싶습니다. other better libraries이 있습니까? 특히 파이썬/자바 스크립트를 찾고 있습니까?두 웹 컨텐츠가 유사한 지 확인하는 방법은 무엇입니까?
두 개의 추출 된 콘텐츠가 있으면 0과 1 사이의 점수를 반환하여 해당 콘텐츠가 얼마나 유사한 지 나타냅니다. CNN과 BBC의 동일한 주제에 대한 뉴스 기사는 동일한 주제에 있거나 Amazon.com과 Walmart.com의 동일한 제품에 속한 웹 페이지도 높은 점수를 갖기 때문에 유사성 점수가 더 높습니다. 어떻게해야합니까? 이미 이렇게하는 기존 라이브러리가 있습니까? 사용할 수있는 좋은 라이브러리에는 무엇이 있습니까? 기본적으로 automatic summarization, keyword extraction, named-entity recognition 및 sentiment-analysis의 조합을 찾고 있습니다.