scikit-learn

    3

    1답변

    from sklearn import * 또는 from skleanr import datasets을 사용하는 경우 다음과 같은 방식으로 데이터 집합을 사용할 수 있습니다. iris = datasets.load_iris(). 그러나 내가 예상 한대로 import sklearn 및 import sklearn as sk이 작동하지 않습니다. 예를 들어 sklear

    1

    1답변

    나는 텍스트 분류를하고 있으며 내 훈련 데이터에 캡처되지 않은 단어를 처리합니다. 즉 단어를 알 수없는 것으로 처리해야합니다. 훈련 데이터에 scikit의 교차 유효성 검사가 특정 단어를 보이지 않는 것으로 인식하는 경우 누구에게 알 수 있습니까? 또는 훈련 세트에 포함되지 않은 경우에도 모든 단어를 기능으로 처리 할 수 ​​있습니까?

    3

    1답변

    pip install scikit-learn을 파이썬 셸에 입력하면 "잘못된 구문"메시지가 나타납니다. 나는 이미 에 Scipy와 Numpy를 설치 했으므로 어떤 depedency 문제도 없어야합니다. 뭐가 문제 야? 그리고 나는 모듈을 수동으로 설치하고 싶지 않기 때문에 여전히 Python을 처음 사용하고 있습니다. Vista 32 비트에서 Python

    0

    1답변

    훈련 세트와 유효성 검사 세트로 SVM을 실행할 때 혼동 행렬로 결과를 검사하면 모두 좋다. 그런 다음 어떻게 "예제로 쿼리"시스템을 구현할 수 있습니까? 나는 그림을 제공하고 (임계 값을 기준으로) 이미지 집합에서 가장 비슷한 이미지를 반환합니다. python (scikit-learn 모듈 포함)에 예제가 있습니까?

    2

    1답변

    저는 Scikit의 Semi-supervised Naive Bayes (Bernoulli) 구현을 사용하고자합니다. this link in github에 따르면, 1 년 전 (SemisupervisedNB 클래스) 그것에 대해 몇 가지 작업과 토론이있었습니다. 반면에 another different implementation (function fit_sem

    1

    1답변

    커다란 파이썬 객체를로드하는 응용 프로그램이 있습니다.이 클래스는 직렬화 된 scikit-learn 분류 자 ​​및 관련 어휘입니다. 분류기는 크기가 커서 메모리에로드하는 것이 중요하지 않습니다 (1-100MB 정도). 실제 판독은 빠르지 만, unpickling에는 4MB 분류 자의 경우 약 10 초가 소요됩니다. cPickle.dumps/cPickle.

    1

    1답변

    일부 텍스트 분류 작업에서 sklearn.svm.SVC를 실험하고 있습니다. 필자는 SVM을 사용하여 모델링하기 전에 기능 선택을 수행하는 것이 전체 기능 집합을 사용할 때 성능이 최고조에 이르기 때문에 다소 의문의 여지가 있음을 이해합니다. 이것은 학술적 관점에서 볼 때 다른 기능 선택 방법이 기능을 다르게 순위 지정하는 방법을 파악하는 데 여전히 흥미

    0

    1답변

    평균 이동 클러스터링에 문제가 있습니다. 클러스터 수가 적 으면 (2, 3, 4) 매우 빠르게 작동하고 올바른 결과를 출력하지만 클러스터 수가 증가하면 실패합니다. 예를 들어 3 개 클러스터는 잘 감지 : 숫자가 증가 할 때 는 하지만 실패 : 내가 뭐하는 거지 #!/usr/bin/env python import sys import logging

    0

    1답변

    임의의 숲을 훈련 한 후 숲의 모든 나무에 대해 잎의 수를 알고 싶습니다. 예를 들어, 10 개의 나무가있는 포리스트를 교육 한 경우 10 번째 항목이있는 벡터를 얻고 싶습니다. 여기서 i 번째 항목은 i 번째 트리의 잎 수입니다. 감사합니다.

    1

    1답변

    scikit-learn에서 linear_model.lars_path (model = 'lasso')을 실행할 때 올가미 경로의 동작에 대해 혼동스러워합니다. 일단 가중치 (계수)가 활성화되면 (0에서 diff) LARS 알고리즘의 모든 향후 단계에서 활성 상태를 유지해야한다고 생각했습니다. 내 데이터에서 알고리즘을 실행할 때 계수가 활성화되어 나중에 나중에