窗口函数-聚合
Contents
“抛” 计算组内占比 “引” 聚合窗口函数
窗口函数中 求和(sum
)、均值(avg
)、极值(max
, min
)、计数(count
)等结合聚合函数使用的场景也较多。
数据分析过程中经常会遇到计算组内占比的情况。
计算 多个模型分以及多个时间段 的 psi 时,(等频/等距)分箱之后计算各箱样本占总样本数的百分比
示例如下表所示,
model | ym | bucket | act_rate |
---|---|---|---|
A | 202103 | 1 | 0.1209 |
A | 202103 | 2 | 0.1148 |
A | 202103 | 3 | 0.1089 |
A | 202103 | 4 | 0.1041 |
A | 202103 | 5 | 0.1004 |
A | 202103 | 6 | 0.0983 |
A | 202103 | 7 | 0.0984 |
A | 202103 | 8 | 0.0937 |
A | 202103 | 9 | 0.0892 |
A | 202103 | 10 | 0.0714 |
比较方便的操作方式就是结合 sum() over()
函数计算组内占比。
|
|
其他几个聚合函数只是实现的功能不同,最后还是要各取所需了。