2013-10-23 7 views
0

weka를 사용하여 10 개의 웹 페이지로 분류하고 싶습니다. 웹 페이지를 Weka의 ARFF 파일 형식으로 변환하는 방법은 무엇입니까? 10 페이지를 모두 하나의 ARFF 파일로 변환해야하나요? 아니면 각 웹 페이지의 ARFF 파일 즉 ARFF 파일을 변환해야합니까?Weka 분류 용 웹 페이지 ARFF 파일로 변환

+0

웹 페이지에서 어떤 정보를 추출할지 지정해야 할 수도 있습니다. 전체 텍스트? 해당 페이지의 숫자 목록? 각 페이지의 정보를 서로 비교하고 싶다면 아마 하나의 ARFF 파일로 통합 할 것입니다. – aldorado

+0

분류기를 사용하여 단어 모델의 가방을 기반으로 웹 페이지를 분류하고 싶습니다. –

답변

2

HTML 서식을 유지하려고한다고 가정하면 비교적 쉽습니다. 별도의 폴더/디렉토리 (각 디렉토리는 클래스)에 HTML 파일을 넣은 다음 Text categorization with WEKA 자습서에 설명 된대로 TextDirectoryLoader 변환기를 적용하십시오.

예를 들어, 당신은 두 개의 클래스를 가지고있다. (그리고이 프로 시저로 얻을 수있는) 파일 당 하나의 인스턴스가있는 단일 ARFF 파일이고 각 파일의 텍스트는 클래스와 함께 텍스트 속성의 단일 필드 (속성 값)에 들어있다. (디렉토리 이름). 그런 다음 StringToWordVector 필터를 사용하여 문서를 용어 벡터로 변환하고 분류를 수행 할 수 있습니다.

+0

잘 작동합니다. 고마워. –

+1

@Jose Maria Gomez Hidalg XML 형식의 Reuters Dataset 용 arff 파일을 생성하는 방법은 무엇입니까? – Ashish

+1

XML 형식의 모든 기사가 포함 된 단일 파일을 의미하는 경우 (즉, 컬렉션의 원래 형식 인 경우, 필자의 논문에서 사용), 예를 들어 각 기사의 텍스트 만 유지하는 변환기를 코딩해야합니다 카테고리에 해당하는 디렉토리에 추가합니다. –