MATLAB을 사용하여 거대한 (즉, 메모리에 저장할 수없는) 데이터 세트에서 이진 분류 결정 트리를 작성하려고합니다. 기본적으로 내가 무엇을하고 있어요 것은 : 거대한 데이터 세트의 결정 트리를 학습하십시오.
- 는
- 데이터에 N 의사 결정 기능을 시도하는 모든 데이터를 수집
- 분할 데이터 내에서 클래스를 분리하기 위해 best decision function을 선택 데이터가 갖는 분할
2
지금 당장 나는 메모리에 보관되어 각 행에 ID를 할당하는 청크 파일에 데이터를 저장하는 것을 고려하고 있으므로 분할 결정은 모든 파일을 순차적으로 읽음으로써 이루어지며 미래의 분할은 ID 번호.
더 나은 방법으로이 작업을 수행하는 방법을 아는 사람이 있습니까?
EDIT은 : 행의 m의 수이고, k 5e8 주위에 약 500
그냥 명확히하기 위해 : k는 거대하지 않으며, 행의 수는 얼마입니까? – Reunanen
예, 행 수, m >> k – Jacob