kaggle

1열

1답변

IPplotlib의 Matplotlib에서 xy 선 그래프에 범례를 추가하는 방법은 무엇입니까? 나의 현재 시도 : x = np.linspace(0, 3*np.pi, 500) a = plt.plot(x, np.sin(x**2)) b = plt.plot(x, np.sin(x**0.5)) plt.legend([a,b], ['square', 'square

1열

1답변

큰 .gz 파일의 압축을 해제하십시오.

Kaggle에서 다운로드 한 transactions.gz 파일을 압축 해제해야합니다. 대략 (2.86GB), 3 억 5 천만 행, 11 열. 3기가바이트 : 나는 RStudio, 윈도우 비스타 32 비트, RAM에 노력 transactions <- read.table(gzfile("E:/2014/Proyectos/Kaggle/transactions.gz")

-1열

1답변

데이터를 필터링하는 방법 r에있는 data.table의 integer64 클래스

kaggle (http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data)의 20GB 트랜잭션 데이터 세트가 있습니다. 행은 3 억 변수는 11 입니다 그래서 데이터를 필터링 할 R.으로 처리하기에 너무 무겁습니다. ID 클래스는 interger64입니다. 고유 한 ID 311541이 있고 난 data.

1열

1답변

분할에게 데이터가

import pandas as pd import statsmodels.formula.api as sm train = pd.read_csv('/Users/..../Desktop/train.csv') from sklearn.cross_validation import train_test_split 그래서 내가 기차/테스트에 70/30 분할을 만드는 방법

2열

1답변

왜 교차 유효성 검사를 사용합니까?

나는 지금 Kaggle Machine Learning 경연 대회에 참가하고 있으며, 빠른 질문이 있습니다. 이 대회에서 알고리즘 유효성을 평가하기 위해 교차 검증을 사용하는 이유는 무엇입니까? 확실히이 대회에서 실제 실제 데이터와 비교하여 알고리즘을 테스트 한 공개 리더에서 점수를 얻으면 알고리즘 유효성을보다 정확하게 나타낼 수 있습니까?

0열

1답변

분리하여 하나의 열을 두 개 이상의 열로 나눕니다.

저는 R에 익숙하지 않고 Kaggle의 Titanic 데이터 세트를 사용하여 연습하고 있습니다. 성, 이름, 인사말 및 추가 정보를 별도의 열로 구분하여 성인 또는 어린이의 나이를 분류 할 수 있도록 노력하고 있습니다. select(traindf,Survived,Pclass,Name,Sex) # Source: local data frame [891 x 4

-1열

2답변

데이터웨어 하우징을위한 대형 데이터 세트?

저는 연구 중심의 데이터웨어 하우징 프로젝트를 개발할 것입니다. 인터넷, 웹 페이지 등의 통계 정보와 관련된 데이터 세트를 찾고 있습니다 (Google Analytics, 웹 마이닝). 그래서 지능적인 작업을 수행 할 수 있습니다. 이 문제와 관련된 정보를 아는 분이라면 언제든지 도와주십시오.

1열

1답변

TypeError : fit()는 sklearn 및 sklearn_pandas와 함께 정확히 3 개의 인수 (2 개)를 사용합니다.

저는 skandy_pandas 모듈을 사용하여 팬더에서하는 작업을 확장하고 기계 학습에 힘을 쏟으려고하지만 오류를 수정하는 방법을 실제로 이해하지 못합니다. Kaggle에 대한 다음 데이터 세트를 통해 작업하고있었습니다. 기본적으로 부동 소수점 값이있는 비표준 테이블 (1000 행, 40 피처)입니다. import pandas as pdfrom sklear

6열

1답변

을 사용하여 jpg를 그레이 스케일 CSV로 변환 R

나는 kaggle 경쟁으로 분류하려고하는 JPG 이미지 폴더가 있습니다. 파이썬에서 포럼에서이를 수행 할 것이라고 생각하는 코드를 보았지만 R에서 할 수 있을지 궁금해하고 있었습니까? 나는 많은 jpg 이미지의이 폴더를 각 픽셀의 회색 음영을 나타내는 숫자가있는 CSV 파일로 변환하려고합니다. http://www.kaggle.com/c/digit-recog

2열

1답변

Sci-kit learn 파이프 라인 반환 indexError : 배열에 대한 인덱스가 너무 많습니다.

sci-kit를 사용하여 그립을 얻으려고합니다. 간단한 기계 학습 프로젝트에 대해 배우려고합니다. 그러나 파이프 라인을 사용하지 않고 내가 무엇을했는지 궁금합니다. import pandas as pd train = pd.read_csv(local path to training data) train_labels = pd.read_csv(local pat