高级SQL优化 | 告别临时表分组！PawSQL智能重写让跨表GROUP BY性能提升超百倍

PawSQL

发布于 2026-06-17 20:39:16

900

文章被收录于专栏：PawSQL，在线的自动化SQL优化工具！PawSQL，在线的自动化SQL优化工具！

✨ 引言

在数据分析类 SQL 中，GROUP BY 是最常用的SQL功能之一。然而，当分组字段来自多个不同的表时，往往会导致严重的性能问题。多表分组不仅无法有效利用索引，只能执行全量扫描 + 临时表聚合，性能骤降。

本文将深入解析PawSQL团队开发的GROUP BY优化算法，该算法能够智能识别跨表分组场景，并通过等值关系分析，将多表分组重写为单表分组，从而显著提升查询性能。

⚠️ 问题场景

来看一个典型的多表分组 SQL：

select o.o_custkey, c.c_name, sum(o.O_TOTALPRICE)
from customer as c, orders as o
where c.c_name like 'A%' 
  and o.o_custkey = c.c_custkey
group by c.c_name, o.o_custkey;

问题：

GROUP BY 同时包含了 customer 和 orders 两张表的字段。
尽管 c.c_custkey = o.o_custkey，但优化器无法自动推断合并。
结果：只能进行 全表扫描 + 临时表分组，索引完全失效。

🔧 PawSQL 改写逻辑

从代码可以看出，GroupFromDiffTablesRewrite 主要做了几件事：

检测 GROUP BY 字段来源
- 如果分组字段来自多个表，触发优化逻辑。
查找等值连接关系
- 通过 equals 集合，识别哪些字段在关联条件里等价（如 c.c_custkey = o.o_custkey）。
字段替换
- 将跨表的分组列统一替换为同一张表的字段，例如将 o.o_custkey 替换为 c.c_custkey 。
去重清理
- 删除冗余的分组列（因为 c_custkey和o_custkey 等价，保留一个即可）。

✅ 改写后 SQL

经过 PawSQL 自动改写后，SQL 会变成：

select c.c_custkey as o_custkey, c.c_name, sum(o.O_TOTALPRICE)
from customer as c, orders as o
where c.c_name like 'A%' 
  and o.o_custkey = c.c_custkey
group by c.c_name, c.c_custkey

优化点：