2012-04-05 11 views
3

2 HTML 소스가 주어지면, 먼저 this 같은 것을 사용하여 주요 컨텐츠를 추출하고 싶습니다. other better libraries이 있습니까? 특히 파이썬/자바 스크립트를 찾고 있습니까?두 웹 컨텐츠가 유사한 지 확인하는 방법은 무엇입니까?

두 개의 추출 된 콘텐츠가 있으면 0과 1 사이의 점수를 반환하여 해당 콘텐츠가 얼마나 유사한 지 나타냅니다. CNN과 BBC의 동일한 주제에 대한 뉴스 기사는 동일한 주제에 있거나 Amazon.com과 Walmart.com의 동일한 제품에 속한 웹 페이지도 높은 점수를 갖기 때문에 유사성 점수가 더 높습니다. 어떻게해야합니까? 이미 이렇게하는 기존 라이브러리가 있습니까? 사용할 수있는 좋은 라이브러리에는 무엇이 있습니까? 기본적으로 automatic summarization, keyword extraction, named-entity recognitionsentiment-analysis의 조합을 찾고 있습니다.

답변

5

질문에 많은 것들이 포함되어 있습니다. 나는 도서관을 제공하려고 노력할 것이다. 그렇지 않으면 당신은 당신의 과제를 해결할 수있는 알고리즘을 제안 할 것이다. (당신은 구글과 많은 파이썬 구현을 얻을 수있다.)

포인트 1. 다른 NLP 관련 자료를 보려면 html (http://nltk.googlecode.com/svn/trunk/doc/book/ch03.html) &에서 주요 콘텐츠를 추출하려면 NLTK를 확인하십시오. 그것의 파이썬으로 작성된. BeautifulSoup이라는 멋진 라이브러리 (http://www.crummy.com/software/BeautifulSoup/)

포인트 2도 확인할 수 있습니다. 당신이 말할 때 : 나는 두 개의 추출 된 내용을 일단

, 나는 그들이 얼마나 유사한 나타내는 0과 1 사이의 점수를 반환하려면 ....이를 위해

난 당신이 사용하여 문서 세트를 클러스터링 할 수 있습니다 제안 모든 자율 학습 클러스터링 기술. 문제는 거리 메트릭 기반 클러스터링에 해당하므로 비슷한 문서를 클러스터링 한 다음 클러스터 중심과의 유사성을 기준으로 점수를 할당하는 것이 매우 쉽습니다. K-Means 또는 Adaptive Resonance Theory를 시도하십시오. 후자에서는 미리 클러스터의 수를 정의 할 필요가 없습니다. larsman 그의 의견에 지적으로 또는 당신은 단순히 TF-IDF는 (http://www.miislita.com/term-vector/term-vector-3.html)

가 포인트 3 당신이 .When 말을 사용할 수 있습니다 :

은 기본적으로 내가 자동 요약, 키워드 추출의 조합을 찾고, 명명 된 개체 인식 및 감정 분석은

자동 축약 절에 대한

는 키워드 추출 사용 NLTK

비 음의 행렬 인수 분해

를 사용명명 된 엔티티 인식에 대한 6,

는 감정 분석 사용 NLTK

를 들어 NLTK

를 사용