1

나는 텍스트 처리의 문제를 다루었 다. 아무도 나를 도울 수 있다면 고맙겠습니다. 12,000 개의 기록이있는 데이터 세트가 있습니다. 이 경우 n-gram 추출기를 실행하면 170,000 개의 고유 한 unigram + bigram을 얻을 수 있습니다.이 알고리즘은 기계 학습 알고리즘에서 처리하는 데 너무 오래 걸립니다.n-gram 기능을 줄이는 방법은 무엇입니까?

추출한 기능의 수를 어떻게 줄여야합니까? 어떤 특별한 알고리즘이 있습니까?

답변

3

모든 N-grram을 유지할 필요가 없습니다. 빈도별로 N 그램 목록을 트리밍해야합니다. 예를 들어 40 회 이상 발생하는 유니 그램 만 고려하십시오. 바이 그램 트리밍을위한 차단은 더 낮습니다. 트라이 그램 (tri-grams) 등등의 경우 여전히 낮을 것입니다.