일부 데이터를 특정 열로 그룹화 한 다음 그룹의 롤링 시간 창을 기준으로 일련의 필드를 집계합니다. 다음 가장 빠른 날짜에 시작하고 해당 그룹에 대한 항목과 30 일이 될 때까지 연장 시간 창을 만들, df = spark.createDataFrame([Row(date='2016-01-01', group_by='group1', get_avg=5, get_fi
나는 Spark 2.0.2, Kafka 0.10.1 및 spark-streaming-kafka-0-8 통합을 사용합니다. 다음을 원합니다. NetFlow 연결에서 스트리밍 작업의 기능을 추출하고 k- 평균 모델에 레코드를 적용합니다. 일부 기능은 레코드에서 직접 계산되는 간단한 기능입니다. 그러나 나는 또한 전에 지정된 시간 창에서 레코드에 의존하는 더 복
MAU- 매월 별개의 활성 사용자를 창 함수를 사용하여 계산하는 데 실패합니다. 나는이 내가 지금까지 무엇을 가지고 이전 30 일 동안, 한 달 동안 매일 계산이 필요합니다 select
t.datee
, t.app,i.sourcee
, i.campaign
, t.mobile
, sum(count(distinct t.user_id)) over
스칼라에서 창 함수를 사용하고 싶습니다. 내가 다음 하나 인 CSV 파일이 :이 데이터 프레임을 통해 윈도우 함수를 적용 할 때 id;date;value1
1;63111600000;100
1;63111700000;200
1;63154800000;300
을 는 때로는 작동하고 때로는 실패 val df = loadCSVFile()
val tw = W
레코드 그룹 간의 차이를 계산하려고하며 그룹별로 행 번호도 포함하려고합니다. 이것은 창 함수를 사용하여 HIVE에서 지연 및 행 번호 함수를 사용하여 수행 할 수 있습니다. PIG와 python UDF를 사용하여 이것을 재현하려고합니다. 다음 예에서는 각 이름에 대해 1부터 시작하여 새 월 (새 레코드)에 대해 증가 할 행 번호가 필요합니다. 또한 각 달의
사용자의 첫 번째 이벤트를 결정하기 위해 이벤트 데이터베이스를 쿼리하고 첫 번째 이벤트 이후에 발생하는 다음 2 개의 이벤트를 쿼리하려고합니다. event_user event_time event_name
---------- ---------- ----------
some_id 1000 1st_event
some_id 1005 2nd_ev
어떻게 든 이전에 (BLAB) 데이터를 가져 오는 중 ... (ALAB) ... 에 대한 데이터가 없습니다. 따라서 환자는 일반적으로 프로 시저 전에 프로 시저를 얻었고 프로 시저 후에는 당신이 당신의 행이 표시되는 순서를 참조하는 경우 내 코드가 WITH BLAB AS
(
SELECT /*+PARALLEL*/
PAT.PATID_CD,
전통적인 하위 쿼리 접근법을 사용하여 지난 10 분 동안의 발생 횟수를 계산할 수 있습니다. 예 : drop table if exists [dbo].[readings]
go
create table [dbo].[readings](
[server] [int] NOT NULL, [sampled] [datetime] NOT NULL
)
g
샘플 데이터 날짜 : http://rextester.com/VNGMF66717 나는 다음과 같은 데이터가 있습니다 ID Year Date
1111 2016 2016-02-28
1111 2016 2016-02-28
1111 2016 2016-03-31
1111 2016 2016-03-31
1111 2016 2016-03-31
1111 2016 2
SQL Server 2012에서 창 기능을 사용하고 있는데 커서를 사용하지 않고 행 단위로 이동하기를 원하기 때문에이 기능을 사용할 수 없습니다. 내 문제는 각 레코드에 그룹 번호를 추가해야한다는 것입니다. 까다로운 부분은 그룹 값이 열 값이 변경 될 때마다 증가한다는 것입니다. 그룹 값은 이전 레코드 순서에서 이전 값으로 변경 되더라도 변경됩니다. 여기에