내가 무엇을 요구하는지 더 좋은 방법이 있는지는 확실하지 않습니다. 기본적으로 경로 데이터 (예 : LAX-BWI, SFO-JFK 등)가 있습니다. 나는 기본적으로 모든 공항에 대해 비행이 감동 (방향성은 중요하지 않으므로 LAX-BWI는 BWI-LAX와 동일 함)하는 1을 갖기 때문에 더미로 만들고 싶습니다. 그래서 예를 들면 : ROUTE | OFF
Python Pandas에서 Feature Hashing을 사용하여 약간 손실되었습니다. 여러 종류의 정보가있는 여러 개의 열이있는 DataFrame이 있습니다. 데이터의 클래스를 나타내는 열이 하나 있습니다. 예 : col1 col2 colType
1 1 2 'A'
2 1 1 'B'
3 2 4 'C'
내
을 나는 현재와 같은 값을 갖는 CSV 형식의 데이터 집합을 탐구하고 다음 example 1, class 1
example 2, class 1, class 2
example 3, class 2,
example 4, class 1, class 2, class 4
클래스는 당신이 각 예에 가변 길이에 할당 볼 수 있습니다. 이 데이터를 인스턴스 당 하
으로 내 dataframe 아래에 보여 큰 데이터 프레임에 열의 모든 쌍 계산 코사인 유사성 내가 모든 사용자에 대해 사용자가 사용자 코사인 유사성 행렬을 계산하고자하고 다음 열을 포함합니다. 총 사용자 : 75,541 따라서 총 사용자 쌍 : 2853183570가 나는 .apply() 메소드에 그것을 할 수 있지만 시간이 많이 걸릴 것입니다. 더 빠른 방
파이썬 라이프 라인 패키지 Package website과 Github을 사용하려고합니다. 읽는 웹 사이트에서 예를 실행하려고하면 : from lifelines.datasets import load_waltons
from lifelines import KaplanMeierFitter
df = load_waltons()
T = df['T']
E = d
다음 작업을 위해 python 스크립트를 작성하는 데 도움이 필요합니다. 훈련 데이터 형식 : Record contains: Result:
------------------- ---------
(x,f,r,t,w) -> Positive
(x,f,d,z,w,m,d) -> Positive
(x,f,e,o,p) -> Neg
사용자 정의 함수 내에서 tidyr의 gather()에 대한 호출을 사용하고 싶습니다. 코드는 다음과 같습니다 load_and_prepare_data <- function(xls_file, metric_name) {
xl <- read_excel(xls_file)
xl <- gather(xl, key = "year", value = met
데이터 집합에 많은 수의 클래스가 포함되어 있지만 숫자 클래스가 아닌 숫자가 아닌 변수가있는 경우 대상 클래스가 불균형 일 때와 같은 문제가 발생합니까? 예를 들어 내 변수 중 하나가 title이고 목표가 사람이 비만인지 식별하는 것이 었습니다. 데이터 비만 클래스는 50:50으로 나뉘지만 'Duke'라는 제목이있는 행은 하나뿐입니다.이 행은 비만 클래스에
Naive Bayse 분류기는 선형 것입니다. 그러나 결정 경계를 구현할 때 곡선이 나타납니다 (아래 그림과 같이 선형이 아닙니다). 왜 이런 현상이 발생합니까? 또는 NB를 비선형으로 만드는 이유가 있습니까? 당신이 조각 현명한 차 결정 경계를 생산 가우스 나이브 베이 즈를 사용하는 것처럼