2017-12-22 34 views
2

팬더에서 몇 가지 시계열 분석을하고 있으며 제거하고 싶은 특이한 패턴이 있습니다. 벨로우즈 플롯은 데이터 당신이 산재 유사한 값 그 점을보고있는 라인과 같은 가능성이 악기의 단점을보고해야 할 수있는팬더의 인접 지점에서 너무 많이 어긋나는 점 제거하기

enter image description here

날짜로 첫 번째 열의 두 번째 열이있는 dataframe을 기반으로 제거하십시오. 필자는 rolling_mean, median 및 표준 편차에 기반한 제거를 사용하여 아무런 문제없이 시도했습니다. 조밀도의 아이디어를 위해, 1984 년에서 현재에 매일 측정. 어떤 아이디어?

auge = pd.read_csv('GaugeData.csv', parse_dates=[0], header=None) 
gauge.columns = ['Date', 'Gauge'] 
gauge = gauge.set_index(['Date']) 
gauge['1990':'1995'].plot(style='*') 

그리고 중간

gauge = pd.rolling_mean(gauge, 5, center=True)#gauge.diff() 
gauge['1990':'1995'].plot(style='*') 

After rolling median

+0

당신은 그 음모에 도착하게하는 코드가 있습니까? – Dark

+0

@Dark가 방금 추가되어 그 litteraly가 csv에로드되고 합리적인 하위 집합이 그려집니다. 패턴은 – jdaily

답변

0

롤링 당신은 각 데이터 포인트는 "특정 거리 내에서 데이터 포인트"적어도 "N" "근처 일을 가지고 요구할 수 적용한 결과 D ".

  • N은 2 이상일 수있다.
  • 요소 게이지 [i]에 인접한
  • 은 게이지 [i-1] 및 게이지 [i + 1]와 같은 쌍일 수 있지만 일부에는 이웃이 하나만 있기 때문에 거리가있는 두 개 이상의 요소를 요청할 수 있습니다 gauge [i-2], 게이지 [i + 1], 계기 [i + 2] 중 적어도 2 개가 다음을 만족해야한다고 가정 해 봅시다 : 거리 (게이지 [i], 게이지 [ix]) < D
  • D - 실제 데이터 포인트가 얼마나 가까이에 있는지에 따라 결정할 수 있습니다.

완벽한 것은 아니지만 대부분의 노이즈가 데이터 세트에서 제거되어야합니다.