-1

엘리먼트 스타일 (fontSize, fontWeight, ...)을 기반으로 한 html 파일에서 제목과 파라 글래시를 추출하는 가장 좋은 datamining 전략은 무엇입니까? 이미 텍스트와 fontSize 속성을 추출하여 csv 파일에 넣었습니다. 이제이 데이터를 분류 (또는 클러스터 화)하는 방법을 알아야만 fontpize가 20px 인 모든 요소를 ​​제공 할 수 있습니다. ± 5px의 공차 그 요소들은 h1 태그로 변형 될 것입니다.엘리먼트 스타일로 html의 제목과 단락을 추출하십시오. 스타일

EDIT : Weak의 Manhattan distance 함수로 클러스터 알고리즘 Simple KMeans를 사용하여 원하는만큼 많은 클러스터에 fontSizes를 클러스터화할 수 있습니다. 그러나 각 클러스터에 대한 정확한 값을 얻습니다. 예를 들어 글꼴 크기 10px는 100 번, 20px 200 번 등으로 잡았습니다. 모든 값을 포함하는 특정 값 대신 범위가 있어야합니다.

+0

왜이 작업에 클러스터링을 사용합니까? 이것에 대해서는 충분히 신뢰할 수 없습니다. –

+0

나는 너희들에게서 조언을 구하고있다. 너는 무엇을 제안 하는가? –

+0

임계 값을 사용하십시오. –

답변

0

우선이 글은 댓글이 될 것입니다.하지만 저는 새로운 글이므로 지금은 글을 쓸 수 없습니다.

Weka의 맨하탄 거리 함수가있는 클러스터 알고리즘 Simple KMeans를 사용하여 원하는만큼 많은 글꼴로 fontSizes를 클러스터링 할 수 있습니다. 그러나 각 클러스터에 대한 정확한 값을 얻습니다. 예를 들어 글꼴 크기 10px는 100 번, 20px 200 번 등으로 잡았습니다. 모든 값을 포함하는 특정 값 대신 범위가 있어야합니다.

"numClusters"와 같은 옵션을 사용하여 클러스터 수를 지정할 수 있습니다. 그래서 weka가 원하는만큼 많은 클러스터를 만들도록 강제 할 수 있습니다. 즉, 클러스터와 다른 값을 가진다면 특정 숫자 대신 범위를 사용해야합니다.

그러나 여기에 내 질문에 간단한 루프를 사용하지 마십시오. 데이터를 반복하고 사용자가 원하는 것을 수동으로 지정하십시오.

if(fontSize < 10) { 
/*Do s.th*/ 
}else if(fontSize < 20){ 
/*Do s.th. 
} 

같은 뭔가 그 방법이 더 안전하고 쉬운 것으로 보인다 때문입니다. 더 많은 특성이 있더라도 모든 클러스터의 특성 집합을 직접 손으로 정의하고 클러스터 중 하나에 맞는 데이터 집합이 있는지 확인하십시오.

압도적 인 양의 속성이나 클러스터가 있거나 데이터를 잘 이해하지 못하는 경우이 작업에는 weka와 같은 것을 권장합니다. 그러나 당신의 임무는 그렇게 보이지 않습니다.

0

기계 학습 기반 boilerpipe Java API를 사용해보십시오. 다른 모델을 테스트 해 볼 수 있습니다 on-line