random-forest

0열

1답변

내 모델에서 가장 중요한 k 개의 기능을 가진 그래프를 얻는 방법은 무엇입니까?

안녕하세요 저는 여러 모델의 무작위 포리스트로 작업하고 있습니다. 내 모델의 k 최고의 기능을 얻고 싶습니다. 내 모델에서 더 관련성이 높은 3, 4 또는 k 기능을 의미합니다. 그러나이 방법의 문제점은 모든 기능을 음모를 꾸미는 것입니다. 많은 것을 컴퓨팅하고 있기 때문에 이것은 내가 원하는대로 해석 할 수 없으므로 수정할 지원이 필요합니다. 위의 코드는

2열

2답변

RandomForestClassifier가 훈련 중에 변수를 선택하도록하십시오.

이것은 초보자 질문입니다. 을 사용하여 Random Forest을 sklearn에서 프로그래밍하고 싶습니다. 몇 가지 변수가 있지만이 변수 중 알고리즘을 사용하여 변수를 선택하는 것이 좋습니다 (열차마다 하나의 트리에서 변수가 SourceID이라고합시다). 어떻게하면됩니까? 나는이 경우 도움이 될 분류 자에 어떤 매개 변수도 보이지 않는다. 도움이 될 것입

-1열

1답변

임의의 숲 : 관련 기능 찾기

분류를 위해 sklearn의 RF 모델을 교육하려고합니다. 테스트를 위해 얻은 정확도는 지정된 특성 벡터 세트로 상당히 낮습니다. 내가 선택한 특성 벡터가 모델을 오도하는 것으로 가정합니다. 그래서 RFE, RFECV 등을 사용하여 관련 기능 세트를 찾아 냈습니다. 정확성을 향상시키는 데 도움이되지 못했습니다. 아래에서 간단한 기능 선택 과정을 생각해 냈습

2열

1답변

caret 패키지의 randomForest 출력에 forestFloor()를 사용하는 방법은 무엇입니까?

나는 랜덤 포리스트 모델 구조를 시각화하기 위해 forestFloor 패키지를 사용 해왔다. caret 패키지의 임의의 포리스트 출력에서 forestFloor()을 사용하려고 시도 할 때까지 모든 것이 잘 진행되었습니다. SMOTE 샘플링 전략을 사용하기 때문에 심하게 불균형 한 클래스가 있기 때문에 randomForest 대신 caret을 사용해야합니

4열

1답변

랜덤 포레스트 예측을 사용한 다른 결과 R

테스트 데이터에서 임의의 포리스트 모델을 실행할 때 같은 데이터 세트 + 모델에 대해 다른 결과가 나타납니다. 차이가 매우 작은 > table((predict(rfModelsL[[1]],newdata = a)) ,a$earlyR) FALSE TRUE FALSE 14 7 TRUE 13 66 > table((predict(rfModelsL

0열

1답변

Spark에서 임의의 포리스트

그래서 특정 텍스트 문서를 세 가지 클래스로 분류하려고합니다. 은 내가 많은 데이터를 가지고 있겠지 from pyspark.ml.tuning import CrossValidator, ParamGridBuilder from pyspark.ml.evaluation import MulticlassClassificationEvaluator # Define a

1열

1답변

Scikitlearn randomforest 분류기에서 이름 열을 처리하는 방법. python 3

13 개의 열을 포함하는 데이터 프레임이 있습니다. 13 개의 열에는 문자열이 있습니다. 한 문자열 열은 pd.get_dummies() 2 열을 사용하여 I 1과 0으로 변환 간단한 남성과 여성 모두 from sklearn.feature_extraction.text import CountVectorizer 없음 문제 사용하여 너무 쉽게 배열로 변환 문자열의

0열

1답변

샘플에 대한 정규화와 기계 학습에 대한 전체 데이터 세트

최근에 Deep Learning의 경우 데이터를 추가하면 많은 정형화가 필요하지 않은 것으로 설명하는 동영상을 시청했습니다. 이 말은 예를 들어 랜덤 포레스트와 같은 "일반적인"기계 학습 알고리즘을 유지합니까? 그렇다면 알고리즘에 대한 최상의 하이퍼 파라미터를 검색 할 때 이론적으로 입력 데이터 세트 (물론 교차 유효성 검사 세트 등으로 나누어 짐)를 가지

2열

2답변

kNN의 기능 선택 및 중요한 기능

kNN의 도움을 받아 추천 엔진을 개발 중입니다. 데이터는 드물지만 약 1500 개의 샘플과 약 200 개의 기능이 있습니다. 나는 1 또는 0의 값을 갖는 서수 목표를가집니다. 그것에 대한 특징 선택을하는 기술은 무엇입니까? 필자는 기능 선택을 위해 무작위 포리스트를 선택한 경우 선택한 기능이 kNN이 중요한 기능을 담당한다고 가정하는 경우와 다를 수 있

1열

1답변

신경망 - 모든 파생/계산 된 변수를 제거해야합니까?

저는 신경망을 사용하여 게임에서 캐릭터의 움직임을 제어하고 있습니다. 현재 엄청난 양의 차원이 있으며 저장 및 코드 관리 효율성을 향상시키기 위해 트리밍을 위해 모든 파생 변수, 즉 이미 네트워크로 전송 된 데이터로 계산할 수있는 변수를 모두 제거하는 것을 고려하고 있습니다. 경로의 a) 위치, b) 속도 및 c) 가속도 간의 관계가 그 예입니다. 현재,