나는 내가 시계열 offsets 문서를 확인 매월 값으로 만 15 일 에 대한 재 샘플링하려고하지만 M 월말 주파수 SM 반 월말 존재하고 주파수 (15 ~ 월말) MS 달의 시작 주파수 SMS 반 달의 시작 주파수 (1 ~ 15) 난 그냥 15 일이 필요 동안 ,691,363 2000-01-15 8.7
2000-02-15 6.9
2000-03-15 1
내가 세 clumns와 dataframe이 가치를 선택하는 방법 : 1. ID (INT64) : 개체 ID 2 DATETIME (datetime64 [NS]을) : 날짜 및 시간 Object의 지난 네 개의 값이 수집되었습니다. 빈도는 1 시간 미만이거나 1 시간 이상일 수 있습니다. 두 번의 연속 수집이 1 시간 15 분 이상으로 분리되면 약 15mn 간
월별 데이터 프레임이 있고 연간 데이터로 리샘플링 한 후 팬더 to_period ('M')를 사용하여 월별 형식으로 인덱스를 표시했습니다. 그건 잘 작동합니다. excel로 내보낼 때 datetime 형식입니다. 엑셀로 내보낼 때 형식을 유지하는 방법. Jupyter 노트북에서 데이터 샘플 : Excel에서 2014 1463 146.416667 1110.8
의 this part에서 의 등방성 재구성에 재 샘플링해야하는 이유는 "자동 분석 (예 : ConvNets 사용)에 문제가 될 수 있음"을 작성한 후 "다시 샘플링하는 방법 특정 등방성 해상도에 대한 전체 데이터 세트 "라고합니다. 등방성 해상도로 리샘플링하지 않으면 어떤 종류의 문제가 발생하는지 궁금합니다. 이론적 설명을주는 사람이 있습니까?
내가 늙은 스크립트가하고 완벽하게 작동하는 데 사용, 그것은 틱 걸릴 (입찰 및 문의) 데이터를 다음과 같이, 팬더 .resample 및 .agg를 사용하여 OHLC 데이터로 돌려하도록 설계되었습니다 : df = pd.DataFrame(list(MDB.CHART.find()))
DF = df[['dt','bid','ask']]
DF = DF.set_in
나는 삼십일 시계열 창에 다시 샘플링하고자하는 다음과 같은 일반적인 형식의 데이터가 : 'customer_id','transaction_dt','product','price','units'
1,2004-01-02,thing1,25,47
1,2004-01-17,thing2,150,8
2,2004-01-29,thing2,150,25
3,2017-07-1
팬더 데이터 프레임을 리샘플링하고 다른 기능을 다른 열에 적용하고 싶습니다. 문제는 문자열로 열을 올바르게 처리 할 수 없다는 것입니다. 문자열을 "-"와 같은 구분 기호로 병합하는 함수를 적용하고 싶습니다. 이것은 데이터 예제입니다. import pandas as pd
import numpy as np
idx = pd.date_range('2017
커스텀 샘플러 기능을 사용하여 팬더 데이터 프레임을 샘플링했습니다. 이것은 기본적으로 두 개의 컬럼으로 구성되어 있습니다 : 타임 스탬프 값 내가 동등하게 분산 모든 날짜 시간 (예 : 10 분 간격으로 새로운 데이터 프레임을 생성하고 싶습니다)를 사용하여 샘플링 된 값 (동일한 빈도에서 샘플링 됨)의 누락 된 값을 채 웁니다. Shoudl 색인 다시 작성
나는 기계 학습에 직면하고 있습니다. 불균형 데이터 세트에 대한 작업. 가장 작은 클래스에는 몇 가지 예제가 있습니다 (가장 큰 것에서 2 백 개, 20 만 개). 오버 샘플링을 수행 할 필요가 있습니다. (정확하게 말하자면 더 작은 클래스를 오버 샘플링하고 더 큰 샘플을 중간 값으로 언더 샘플링합니다. 그러나이 질문의 범위를 벗어납니다). 로부터 1) 무