sql:对单个字段去重,distinct和group by性能分析

distinct简单来说就是用来去重的,而group by的设计目的则是用来聚合统计的,两者在能够实现的功能上有些相同之处,但是2者的性能差距很大

对于一个84万数据量的表,count(distinct(XXX))的查询需要20s,而group by仅需1s,性能相差20倍

 

原理分析:

        distinct方式就是两两对比,需要遍历整个表,大多数情况下都会导致对最终结果集进行一次排序;

        group by分组类似先建立索引再查索引,所以两者对比,小表distinct快,不用索引。大表group by快。一般来说小表就算建索引,也不会慢到哪儿去;但如果是TB级大表,遍历简直就是灾难。

        所以distinct一直是sql语言中成本最高的函数之一,很多Oracle项目都禁止使用distinct语句,全部要求替换成group by。

 

你可能感兴趣的