random-forest

    0

    1답변

    안녕하세요 저는 여러 모델의 무작위 포리스트로 작업하고 있습니다. 내 모델의 k 최고의 기능을 얻고 싶습니다. 내 모델에서 더 관련성이 높은 3, 4 또는 k 기능을 의미합니다. 그러나이 방법의 문제점은 모든 기능을 음모를 꾸미는 것입니다. 많은 것을 컴퓨팅하고 있기 때문에 이것은 내가 원하는대로 해석 할 수 없으므로 수정할 지원이 필요합니다. 위의 코드는

    2

    2답변

    이것은 초보자 질문입니다. 을 사용하여 Random Forest을 sklearn에서 프로그래밍하고 싶습니다. 몇 가지 변수가 있지만이 변수 중 알고리즘을 사용하여 변수를 선택하는 것이 좋습니다 (열차마다 하나의 트리에서 변수가 SourceID이라고합시다). 어떻게하면됩니까? 나는이 경우 도움이 될 분류 자에 어떤 매개 변수도 보이지 않는다. 도움이 될 것입

    -1

    1답변

    분류를 위해 sklearn의 RF 모델을 교육하려고합니다. 테스트를 위해 얻은 정확도는 지정된 특성 벡터 세트로 상당히 낮습니다. 내가 선택한 특성 벡터가 모델을 오도하는 것으로 가정합니다. 그래서 RFE, RFECV 등을 사용하여 관련 기능 세트를 찾아 냈습니다. 정확성을 향상시키는 데 도움이되지 못했습니다. 아래에서 간단한 기능 선택 과정을 생각해 냈습

    2

    1답변

    나는 랜덤 포리스트 모델 구조를 시각화하기 위해 forestFloor 패키지를 사용 해왔다. caret 패키지의 임의의 포리스트 출력에서 ​​forestFloor()을 사용하려고 시도 할 때까지 모든 것이 잘 진행되었습니다. SMOTE 샘플링 전략을 사용하기 때문에 심하게 불균형 한 클래스가 있기 때문에 randomForest 대신 caret을 사용해야합니

    4

    1답변

    테스트 데이터에서 임의의 포리스트 모델을 실행할 때 같은 데이터 세트 + 모델에 대해 다른 결과가 나타납니다. 차이가 매우 작은 > table((predict(rfModelsL[[1]],newdata = a)) ,a$earlyR) FALSE TRUE FALSE 14 7 TRUE 13 66 > table((predict(rfModelsL

    0

    1답변

    그래서 특정 텍스트 문서를 세 가지 클래스로 분류하려고합니다. 은 내가 많은 데이터를 가지고 있겠지 from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.ml.evaluation import MulticlassClassificationEvaluator # Define a

    1

    1답변

    13 개의 열을 포함하는 데이터 프레임이 있습니다. 13 개의 열에는 문자열이 있습니다. 한 문자열 열은 pd.get_dummies() 2 열을 사용하여 I 1과 0으로 변환 간단한 남성과 여성 모두 from sklearn.feature_extraction.text import CountVectorizer 없음 문제 사용하여 너무 쉽게 배열로 변환 문자열의

    0

    1답변

    최근에 Deep Learning의 경우 데이터를 추가하면 많은 정형화가 필요하지 않은 것으로 설명하는 동영상을 시청했습니다. 이 말은 예를 들어 랜덤 포레스트와 같은 "일반적인"기계 학습 알고리즘을 유지합니까? 그렇다면 알고리즘에 대한 최상의 하이퍼 파라미터를 검색 할 때 이론적으로 입력 데이터 세트 (물론 교차 유효성 검사 세트 등으로 나누어 짐)를 가지

    2

    2답변

    kNN의 도움을 받아 추천 엔진을 개발 중입니다. 데이터는 드물지만 약 1500 개의 샘플과 약 200 개의 기능이 있습니다. 나는 1 또는 0의 값을 갖는 서수 목표를가집니다. 그것에 대한 특징 선택을하는 기술은 무엇입니까? 필자는 기능 선택을 위해 무작위 포리스트를 선택한 경우 선택한 기능이 kNN이 중요한 기능을 담당한다고 가정하는 경우와 다를 수 있

    1

    1답변

    저는 신경망을 사용하여 게임에서 캐릭터의 움직임을 제어하고 있습니다. 현재 엄청난 양의 차원이 있으며 저장 및 코드 관리 효율성을 향상시키기 위해 트리밍을 위해 모든 파생 변수, 즉 이미 네트워크로 전송 된 데이터로 계산할 수있는 변수를 모두 제거하는 것을 고려하고 있습니다. 경로의 a) 위치, b) 속도 및 c) 가속도 간의 관계가 그 예입니다. 현재,