사람들의 나이를 묘사하는 더러운 데이터가 있습니다. 간격은 I 아래 그래프는 데이터를 표시일부 데이터를 특정 배포판 다음에 임의로 생성 된 숫자로 바꿉니다.
df_members['bd'] = df_members.bd.apply(lambda x: -99999 if float(x)<=1 else x)
df_members['bd'] = df_members.bd.apply(lambda x: -99999 if float(x)>=100 else x)
하여 값을 변경해야 -7000에서 2015이다.
I는 -99999
방법 I 번째 그림과 같이 분포에 영향을주지 않고 -99999의 값을 대체 할 수있는 값을 제외하여 그래프를 플롯? 나이는 15-50 세이며, 평균은 약 29 세이며 생년월일의 중앙값 = 28.0입니다. 나는 15-50 사이의 임의의 숫자를 생성하려고 계획하고 있지만 원래 배포판을 파괴 할까 걱정입니다.
numpy에서 사용 가능한 배포판의 위치 및 배율 매개 변수를 살펴 보셨습니까? 예를 들어'np.normal '에 대한 [docs] (https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.normal.html#numpy.random.normal)를 살펴보십시오. 무작위'. – ChuHo
음, 실제로 배포를 변경 하시겠습니까? outlier -99999가 포함 된 분포는 오류가 있으며 실제로 샘플에서 발견 된 실제 실제 값을 나타내지 않습니다. 그냥 버리고 재 계산하면 올바른 옵션처럼 보입니다. 원래의 데이터를 유지하는 데 어려움을 겪고 있다면 오류가있는 분포는 그래프의 X 축을 기본 데이터를 변경하는 대신 -99999 이전에 멈추도록 변경하십시오. – Dylan
@Dylan 몇 가지 분류 작업을 수행하므로 나이 열을 버려야합니다. 오류가 있거나 해당 값을 임의의 값으로 대체 할 수 있습니다.이 값은 해당 오류 데이터가없는 모양으로 유지됩니다. –