在SQL查询语句中,经常会很多人对in和exists的查询效率进行疑惑,很多人都认为exists查询速度要比in快,其实这个说话不绝对,exists和in都有它们适合的场合,不然在SQL查询标准中,也不会一直不遗余力的进行支持。
先说in,通常情况下我们即认为是先将in子句里面的内容查询出来,然后对In的查询结果进行合并,再根据查询结果对主SQL进行一个个的查询,即相当于以下转换。
select * from T1 where x in (select y from T2);
可以转换成如下
select * from T1,(select distinct y from T2) T2
where T1.x=T2.y;
再说exists,exists即先从主SQL中找到每一条合适的记录,然后将结果放到子SQL中与之匹配,即
select * from T1 where exists (select NULL from T2 where T2.y=T1.x);
可以转换成
for cursor1 in (select * from T1)
loop
if (exists (select NULL from T2 where T2.y=cursor1.x))
then
返回记录;
end if;
end loop;
这样子,即我们很容易会认为在子SQL数据量比较大的时候,exists效率会高于in,而只有在in的结果集非常小的时候,in的效率才能比exists好, 这样是否就正确了呢?通过对很多的SQL进行分析,会发现这个准则也不绝对,特别是10g,11g之后的数据库,in和exist很多时候效果都差不多,这又是为什么呢?
这样子的分析是否准确了呢?in和exists又是不是只有这两种查询方式呢?在基于成本的优化方式中,又如何对in和exists进行优化?SQL的优化又是否与具体数据有关?