StringIndexer
을 사용하여 데이터 세트의 1000 개 이상의 카테고리를 순위를 매기고 상대적인 빈도를 나타내는 인덱스를 생성하려고합니다. 그런 다음이 인덱스를 내 모델의 숫자 기능으로 사용할 수 있습니다. 유감스럽게도 StringIndex
은 기본적으로 인덱스에 카테고리를 표시하는 메타 데이터를 저장하므로 모델에서 색인을 category variable으로 사용하도록합니다.StringIndexer를 사용하여 숫자 변수를 생성하는 방법은 무엇입니까?
인덱스 변수를 숫자 변수로 사용할 수 있도록하려면이 방법을 사용할 수 있습니까?
편집 : ML 파이프 라인의 스테이지로 문자열 인덱서를 사용하고 있으므로 솔루션에서 데이터 프레임을 직접 조작하지 않아도됩니다. 또한이 파이프 라인을 저장하고로드하므로 사용자 정의 데이터 변환기가 실용적이지 않을 수 있습니다. Spark이 현재 쓰여지고 있기 때문에 이것이 가능하지 않다고 생각합니다.