那么,是不是“描述”的越多越好呢?我们先不讨论正常数据模型列的数据分布是不是应该有很多的倾斜列。Oracle进行直方图的收集,要针对列每一个数据行进行复杂的检索动作,而且直方图数据要对应额外的存储空间。
如果给每一个数据列都收集统计量直方图,统计量收集过程要消耗很多的性能和空间。这就意味着,我们需要统计那些“需要收集统计量直方图”的列。
参数method_opt的默认值for all columns size auto是目前Oracle选择出的适应性最强的功能取值。我们本部分探讨一下该参数取值的机理。我们先看一下默认取值下的统计量信息。
SQL> exec dbms_stats.gather_table_stats(user,'T',cascade => true,method_opt => 'for all columns size auto');
PL/SQL procedure successfully completed
SQL> select column_name, histogram from dba_tab_col_statistics where wner='SYS' and table_name='T';
COLUMN_NAMEHISTOGRAM
------------------------------ ---------------
OWNERNONE
OBJECT_NAMENONE
SUBOBJECT_NAMENONE
OBJECT_IDNONE
DATA_OBJECT_IDNONE
OBJECT_TYPENONE
CREATEDNONE
LAST_DDL_TIMENONE
TIMESTAMPNONE
STATUSNONE
TEMPORARYNONE
GENERATEDNONE
SECONDARYNONE
NAMESPACENONE
EDITION_NAMENONE
15 rows selected
注意,此时Oracle为“all columns”也就是所有列生成了统计量,但是在目前情况下,没有一个直方图被生成。auto参数没有明确指定为哪个列生成直方图,更没有指定直方图bucket数量。
熟悉dba_objects数据源的朋友很清楚,一些数据列,如status,owner和object_type有明显的数据倾斜特性。
auto取值是和Oracle内部的column使用监控机制有关。我们站在Oracle的角度看待问题,auto选项让Oracle并不是在意所有数据列是否真正倾斜,因为这样做会去探究所有数据列一遍,从而消耗资源。Oracle的做法是:探究一下“使用过”的数据列是不是倾斜的,如果是倾斜的就生成直方图。
这就引入了基表col_usage$。这个内部数据表是列使用监控的一个重要结果记录,当一个SQL发出的时候,会将SQL使用数据列的情况作为统计项目进行记录。
SQL> select object_id from dba_objects where object_name='T' and wner='SYS';
OBJECT_ID
----------
78037
SQL> select * from col_usage$ where obj#=78037;
OBJ#INTCOL# EQUALITY_PREDS EQUIJOIN_PREDS NONEQUIJOIN_PREDS RANGE_PREDS LIKE_PREDS NULL_PREDS TIMESTAMP
---------- ---------- -------------- -------------- ----------------- ----------- ---------- ---------- -----------
以object_id作为检索项,我们可以明确的看到一个数据表的数据列被引用的情况。在之前的数据表T中,因为从来没有针对where列的检索条件,所以没有针对任何列的使用情况,进而也就在auto情况下不会去尝试检测是否需要生成直方图。