엘리먼트 스타일 (fontSize, fontWeight, ...)을 기반으로 한 html 파일에서 제목과 파라 글래시를 추출하는 가장 좋은 datamining 전략은 무엇입니까? 이미 텍스트와 fontSize 속성을 추출하여 csv 파일에 넣었습니다. 이제이 데이터를 분류 (또는 클러스터 화)하는 방법을 알아야만 fontpize가 20px 인 모든 요소를 제공 할 수 있습니다. ± 5px의 공차 그 요소들은 h1 태그로 변형 될 것입니다.엘리먼트 스타일로 html의 제목과 단락을 추출하십시오. 스타일
EDIT : Weak의 Manhattan distance 함수로 클러스터 알고리즘 Simple KMeans를 사용하여 원하는만큼 많은 클러스터에 fontSizes를 클러스터화할 수 있습니다. 그러나 각 클러스터에 대한 정확한 값을 얻습니다. 예를 들어 글꼴 크기 10px는 100 번, 20px 200 번 등으로 잡았습니다. 모든 값을 포함하는 특정 값 대신 범위가 있어야합니다.
왜이 작업에 클러스터링을 사용합니까? 이것에 대해서는 충분히 신뢰할 수 없습니다. –
나는 너희들에게서 조언을 구하고있다. 너는 무엇을 제안 하는가? –
임계 값을 사용하십시오. –