1
나는 텍스트 처리의 문제를 다루었 다. 아무도 나를 도울 수 있다면 고맙겠습니다. 12,000 개의 기록이있는 데이터 세트가 있습니다. 이 경우 n-gram 추출기를 실행하면 170,000 개의 고유 한 unigram + bigram을 얻을 수 있습니다.이 알고리즘은 기계 학습 알고리즘에서 처리하는 데 너무 오래 걸립니다.n-gram 기능을 줄이는 방법은 무엇입니까?
추출한 기능의 수를 어떻게 줄여야합니까? 어떤 특별한 알고리즘이 있습니까?