data-science

1열

3답변

저는 Machine Learning의 초보자입니다. 49 가지 기능을 기반으로 이진 분류를 수행하고 있습니다. 처음 7 가지 기능은 float64 유형입니다. 다음 18 개 특징은 멀티 클래스 유형이고 나머지 I 위의 출력 [ 1.20621145e-01 3.71627370e-02 1.82239903e-05 5.40071522e-03 1.774319

0열

1답변

Sklearn 모델 계수 linear_model

불일치를 예측 I는 ML과 sklearn 비교적 새로운이고 I는 6 개 개의 기능 정규화 매개 변수의 상이한 수치로 linear_model.Lasso를 이용하여 입력 데이터에 대한 선형 모델을 훈련하기 위해 애 쓰고 . 이상적으로 나는 것으로 기대 sum(model.coef_*X[0]) Out[94]: -0.4895022980752311 model.p

0열

1답변

(Python) Markov, Chebyshev, Chernoff 상한 함수

내 학습 경로에 하나의 작업이 있습니다. 평균 μ = np이고 분산이 σ**2=np(1−p) 인 이항 분포 X ~ Bp에 대해 우리는 확률을 P(X≥c⋅μ) for c≥1으로 상한하고 싶습니다. 세 가지 경계 소개 : Formulas 작업이 불평등의 각각에 대해 각각 세 가지 기능을 작성하는 것입니다. 그들은 n , p and c을 입력으로 받아서 위의 M

0열

1답변

파이썬에서의 팩터 분석 (R에서 factal()과 유사)

저는 파이썬에서 sklearn을 사용하여 요인 분석을 수행하기 위해 고심하고 있습니다. R에서 다음 코드를 실행 한 후 : Call: factanal(x = data_final, factors = 2, scores = "regression", rotation = "varimax", lower = 0.01) Uniquenesses: WTI GOLD

0열

2답변

군중에 대한 클러스터 분석

많은 수의 사용자 (수십만)의 위치 데이터가 있습니다. 나는 현재 위치와 약간의 이력 데이터 포인트 (분 데이터가 1 시간 뒤로 돌아 간다)를 저장한다. 생일 파티와 같은 자연스러운 이벤트에 모이는 군중을 어떻게 감지합니까? 심지어 더 작은 군중 (5 명부터 시작한다고 가정 해 봅시다)이 탐지되어야합니다. 알고리즘은 거의 실시간으로 (또는 적어도 1 분

0열

1답변

베이스 라인 Naive Bayes, 다국적 Naive Bayes 및 세미 감독 NB를 결합 할 수 있습니까?

나는 트위터 데이터에 대한 정서 분석을하고있다. 나는 Naive Bayes, Multinomial NB, Bernoulli NB, Semi-supervised NB와 같은 Naive Bayes 모델을 몇 가지 시도해 보았습니다. 여기 내 질문은 성능을 향상시키기 위해 두 가지 방법으로 모델을 결합 할 수있는 방법이 있는지 이해하는 것입니다. NB + MNB

0열

1답변

팬다 : 큰 데이터 집합의 데이터 간의 관계 찾기

저는 데이터 과학에 익숙하지 않고 데이터 간의 관계를 탐구하고 싶습니다. 556784 X 60 개의 행과 열을 포함하는 매우 큰 데이터 집합이 있습니다. 신경망에 공급하기 위해 무시할 변수가 있습니다. 선형 사용 & & 다중 배제을 사용하면 Xlabel과 Ylabel 간의 관계를 찾을 수 있습니다. 그러나 거대한 데이터 세트에서 회귀 분석 기법을 사용하면

1열

1답변

redshift에서 파이썬으로 더 빨리 데이터를 처리하는 방법은 무엇입니까?

나는 python에 익숙하지 않다. 나는 redshift에서 내 데이터를 가지고 있으며 파이썬에서 더 빨리 데이터를 처리하려고한다. 저는 다양한 알고리즘을 실행하고 이러한 데이터에 대한 다양한 계산을 수행하기 때문에 파이썬을 사용하고 있습니다. 이는 레드 쉬프트에서는 불가능합니다. 자습서를 보았지만 파이썬으로로드 할 때마다 너무 많은 시간이 걸립니다. 이

-1열

1답변

제로 데이터가 많은 사기 탐지

일부 광고 게시자의 데이터 세트가 있습니다. 게시자는 광고를 클릭 할 때마다 수익을 얻습니다. 데이터 세트는 게시자 목록과 해당 클릭 수 및 발생한 거래 수로 구성됩니다. 문제는 게시자가 속임수를 쓴 것이고 더 많은 돈을 벌기 위해 자신의 광고를 클릭하는지 여부입니다. 이 게시자 중 일부는 전체 클릭 수가 매우 적고 (10 미만) 따라서 거래 수는 0입니다

1열

1답변

데이터 세트의 열을 파이썬과 비교하면

거대한 데이터 세트 (2653, 17)가 있습니다. value_counts 메서드에서 추론 한 것처럼 두 개의 열과 관련이 있지만 정확하지는 않습니다. 제가 의미하는 것은 I의 해당 항목의 대부분이 M이거나 C가 NaN입니다. 이 방법을 확인하거나이 방법과 관련된 항목 수를 계산할 수 있습니까? 숫자 값으로 변환하고 상관 기법을 사용해 보았지만 여기서는 효