2011-10-22 4 views
1

나는 웹 페이지를 크롤링하고 웹 사이트 요소를 추출하는 작업을 해왔다. 예 : 는 웹 사이트 감안할 때 - 크롤러는 다음 섹션을 반환해야합니다 : 헤더, 메뉴, 바닥 글, 내용 등을기계가 파이썬의 웹 사이트 구조를 이해하는 법 배우기

내가 방법을 알아 보려면 코드를 양성하는 기계 학습을 사용할 수 있다면 좋을 것이라고 생각했다 웹 사이트를 분류 할 수 있습니다.

파이썬 기계 학습 라이브러리 (예 : PyBrain)를 살펴 보았지만 예제는 매우 복잡합니다. 누구나 저에게 도서관과 파이썬 기계 학습을 시작하는 방법에 대한 자습서를 제안 해 주실 수 있습니까?

감사합니다.

답변

2

MLPy은 더 간단한 시작일 수 있습니다. 여기에 documentation on classification에 대한 링크가 있습니다. 그런데 클래스가 어떻게 보이는지 알지 못하는 경우 페이지를 cluster 개까지 분류하고 분류하지 않아야합니다.