-1

일부 광고 게시자의 데이터 세트가 있습니다. 게시자는 광고를 클릭 할 때마다 수익을 얻습니다. 데이터 세트는 게시자 목록과 해당 클릭 수 및 발생한 거래 수로 구성됩니다. 문제는 게시자가 속임수를 쓴 것이고 더 많은 돈을 벌기 위해 자신의 광고를 클릭하는지 여부입니다. 이 게시자 중 일부는 전체 클릭 수가 매우 적고 (10 미만) 따라서 거래 수는 0입니다.제로 데이터가 많은 사기 탐지

제 질문은 이러한 제로 데이터로 무엇을해야합니까? 그들은 실제로 데이터의 나의 가우스 분포를 망칩니다. 나는 그들과 무엇을해야합니까? 내 데이터 세트에서 그것들을 제거 하시겠습니까? 그런 일을하는 통계적 접근이 있습니까?

나는 데이터 분석에 익숙하지 않고 답이 분명한 경우 변명하지만 웹에서 대답을 찾을 수 없습니다.

답변

1

제거 제로의

>>> x = [0,2,0,5,0,6,77,8,9] 
>>> list(filter((0).__ne__, x)) 
[2, 5, 6, 77, 8, 9] 

변경됩니다 가우스 분포의 모양입니다.

+0

답장을 보내 주셔서 감사합니다. 그러나 배포 및 결과 p (x)를 변경하지는 않습니다. @ 리차드 –