내 윈도우 함수 현재 그것에 대한 분석 쿼리의 하나 (예를 들어)이 될 것입니다 : 너희들은 아마 말할 수PostgreSQL을 쿼리 설계 문제 및 문제에 대한 나의 접근 방식이 불필요하게 복잡 여부에 대해 확실하지 직면 윈도우 함수
with intervals as (
select
(select '09/27/2014'::date) + (n || ' minutes')::interval start_time,
(select '09/27/2014'::date) + ((n+60) || ' minutes')::interval end_time
from generate_series(0, (24*60*7), 60 * 4) n
)
select
extract(epoch from i.start_time)::numeric * 1000 as ts,
extract(epoch from i.end_time)::numeric * 1000 as end_ts,
sum(avg(messages.score)) over (order by i.start_time) as score
from messages
right join intervals i
on messages.timestamp >= i.start_time and messages.timestamp < i.end_time
where messages.timestamp between '09/27/2014' and '10/04/2014'
group by i.start_time, i.end_time
order by i.start_time
-이 쿼리는 "점수"attribut의 평균을 계산 e와 주어진 시간 - 버킷 분포에 대한 메시지를 비교하고 그 옆에있는 버킷 (창을 사용)에 누적을 계산합니다.
다음은 각 버킷의 평균에 가장 가까운 상위 5 개 (예 : messages.text
)를 찾는 것입니다. 나는 내 윈도우 함수를 사용하여 관련된 디자인으로 올라오고에 내 첫 번째 시도로 인해의 단계에서 불가피하게이를 내려 놓고 한
1) Join messages with the time-buckets
2) Compute a score - avg(score) over (partition by start_time) as deviation and save it against each record of the joined relation
3) Compute a rank() over (order by deviation) as rank
4) Select where rank between 1 and 5
그 이유에
는 바로 지금, 내가 가진 유일한 계획입니다 창 기능 (rank() over (partition by start_time, order by score - avg(score) over (partition by start_time))
그리고 나는 그것이 작동 하는지를보기 위해 시도하지는 않았습니다.
내가 올바른 방향으로 가고 있는지에 대한 조언을 구할 수 있습니까?
참고 :'generate_series을()'도 타임 스탬프와 함께 작동합니다. 'generate_series ('2014-09-27', '2014-10-04', '1 hour':: interval)'은 아마도 당신이 원하는 것을 할 것입니다. – wildplasser
수정 :'generate_series ('2014-09-27 00:00:00', '2014-10-04 00:00:00', '1 hour':: interval)' – wildplasser
@wildplasser 아, 네, 맞습니다 - 그건 훌륭한 리팩토링 제안입니다. 제가 해결할 것입니다!^_ ^ – Slania