2014-03-12 4 views
1

나는 gensim에서 LDA 알고리즘을 적용해야하는 html 문서 10-15 개를 보유하고 있습니다. 컬렉션에 대한 코퍼스 설계 방법을 이해하지 못해서 코퍼스 생성에 어려움이 있습니다. HTML 문서 중. 사이트에있는 예제는 위키 피 디아 압축 파일에서 생성 된 것을 보여줍니다 .xml.bzGenetic의 HTML 문서 용 LDA

누구나 제가 HTML 문서의 무리에 LDA를 적용 할 수 있는지 안내해주십시오. 미리 감사드립니다.

답변

1

lxml 또는 beautifulsoup과 같은 HTML 처리 라이브러리를 확인하십시오.

상위 수준 처리 (일반 텍스트 제거, HTML에서 일반 텍스트 추출)의 경우 예를 들어 다음과 같이 확인하십시오. Honza Pomikalek의 jusText 패키지.

일반 텍스트 문서가 있으면 gensim's tutorials에 따라 진행할 수 있습니다.