冰球突破怎么玩才会爆高分

書名： SQL優化核心思想
作者名：羅炳森黃超鐘僥
本章字數： 2633字
更新時間： 2019-08-06 10:11:04

1.3　直方圖（HISTOGRAM）

前面提到，當某個列基數很低，該列數據分布就會不均衡。數據分布不均衡會導致在查詢該列的時候，要么走全表掃描，要么走索引掃描，這個時候很容易走錯執行計劃。

如果沒有對基數低的列收集直方圖統計信息，基于成本的優化器（CBO）會認為該列數據分布是均衡的。

下面我們還是以測試表test為例，用實驗講解直方圖。

首先我們對測試表test收集統計信息，在收集統計信息的時候，不收集列的直方圖，語句for all columns size 1表示對所有列都不收集直方圖。

SQL> BEGIN
  2    DBMS_STATS.GATHER_TABLE_STATS(ownname          => 'SCOTT',
  3                                  tabname          => 'TEST',
  4                                  estimate_percent => 100,
  5                                  method_opt      => 'for all columns size 1',
  6                                  no_invalidate    => FALSE,
  7                                  degree           => 1,
  8                                  cascade          => TRUE);
  9  END;
 10  /

PL/SQL procedure successfully completed.

Histogram為none表示沒有收集直方圖。

SQL> select a.column_name,
  2         b.num_rows,
  3         a.num_distinct Cardinality,
  4         round(a.num_distinct / b.num_rows * 100, 2) selectivity,
  5         a.histogram,
  6         a.num_buckets
  7    from dba_tab_col_statistics a, dba_tables b
  8   where a.owner = b.owner
  9     and a.table_name = b.table_name
 10     and a.owner = 'SCOTT'
 11     and a.table_name = 'TEST';

COLUMN_NAME       NUM_ROWS CARDINALITY SELECTIVITY HISTOGRAM NUM_BUCKETS
--------------- ---------- ----------- ----------- --------- -----------
OWNER                72462          29         .04 NONE                1
OBJECT_NAME          72462       44236       61.05 NONE                1
SUBOBJECT_NAME       72462         106         .15 NONE                1
OBJECT_ID            72462       72462         100 NONE                1
DATA_OBJECT_ID       72462        7608        10.5 NONE                1
OBJECT_TYPE          72462          44         .06 NONE                1
CREATED              72462        1366        1.89 NONE                1
LAST_DDL_TIME        72462        1412        1.95 NONE                1
TIMESTAMP            72462        1480        2.04 NONE                1
STATUS               72462           1           0 NONE                1
TEMPORARY            72462           2           0 NONE                1
GENERATED            72462           2           0 NONE                1
SECONDARY            72462           2           0 NONE                1
NAMESPACE            72462          21         .03 NONE                1
EDITION_NAME         72462           0           0 NONE                0

15 rows selected.

owner列基數很低，現在我們對owner列進行查詢。

SQL> set autot trace
SQL> select * from test where owner='SCOTT';

7 rows selected.

Execution Plan
----------------------------------------------------------
Plan hash value: 1357081020

--------------------------------------------------------------------------
| Id  | Operation         | Name | Rows  | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|  0  | SELECT STATEMENT  |      |  2499 |   236K|   289   (1)| 00:00:04 |
|* 1  |  TABLE ACCESS FULL| TEST |  2499 |   236K|   289   (1)| 00:00:04 |
--------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   1 - filter("OWNER"='SCOTT')

請注意看粗體字部分，查詢owner＝'SCOTT'返回了7條數據，但是CBO在計算Rows的時候認為owner='SCOTT'返回2 499條數據，Rows估算得不是特別準確。從72 462條數據里面查詢出7條數據，應該走索引，所以現在我們對owner列創建索引。

SQL> create index idx_owner on test(owner);

Index created.
```
我們再來查詢一下。

```
SQL> select * from test where owner='SCOTT';

7 rows selected.

Execution Plan
----------------------------------------------------------
Plan hash value: 3932013684

-------------------------------------------------------------------------------------
| Id |Operation                    |Name     | Rows  | Bytes | Cost(%CPU)| Time     |
-------------------------------------------------------------------------------------
|  0 | SELECT STATEMENT            |         |  2499 |  236K |   73   (0)| 00:00:01 |
|  1 | TABLE ACCESS BY INDEX ROWID |TEST     |  2499 |  236K |   73   (0)| 00:00:01 |
|* 2 | INDEX RANGE SCAN            |IDX_OWNER|  2499 |       |    6   (0)| 00:00:01 |
-------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("OWNER"='SCOTT')

``` 現在我們查詢`owner='SYS'`。

SQL> select * from test where owner='SYS';

30808 rows selected.

Execution Plan
----------------------------------------------------------
Plan hash value: 3932013684

-------------------------------------------------------------------------------------
| Id |Operation                   | Name     | Rows  | Bytes | Cost(%CPU)| Time     |
-------------------------------------------------------------------------------------
|  0 | SELECT STATEMENT           |          |  2499 |   236K|   73   (0)| 00:00:01 |
|  1 | TABLE ACCESS BY INDEX ROWID| TEST     |  2499 |   236K|   73   (0)| 00:00:01 |
|* 2 | INDEX RANGE SCAN           | IDX_OWNER|  2499 |       |    6   (0)| 00:00:01 |
-------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("OWNER"='SYS')

注意粗字體部分，查詢owner='SYS'返回了30 808條數據。從72 462條數據里面返回30 808條數據能走索引嗎？很明顯應該走全表掃描。也就是說該執行計劃是錯誤的。

為什么查詢owner='SYS'的執行計劃會用錯呢？因為owner這個列基數很低，只有29，而表的總行數是72 462。前文著重強調過，當列沒有收集直方圖統計信息的時候，CBO會認為該列數據分布是均衡的。正是因為CBO認為owner列數據分布是均衡的，不管owner等于任何值，CBO估算的Rows永遠都是2 499。而這2 499是怎么來的呢？答案如下。

SQL> select round(72462/29) from dual;

round(72462/29)
--------------
          2499

現在大家也知道了，執行計劃里面的Rows是假的。執行計劃中的Rows是根據統計信息以及一些數學公式計算出來的。很多DBA到現在還不知道執行計劃中Rows是假的這個真相，真是令人遺憾。

在做SQL優化的時候，經常需要做的工作就是幫助CBO計算出比較準確的Rows。注意：我們說的是比較準確的Rows。CBO是無法得到精確的Rows的，因為對表收集統計信息的時候，統計信息一般都不會按照100%的標準采樣收集，即使按照100%的標準采樣收集了表的統計信息，表中的數據也隨時在發生變更。另外計算Rows的數學公式目前也是有缺陷的，CBO永遠不可能計算得到精確的Rows。

如果CBO每次都能計算得到精確的Rows，那么相信我們這個時候只需要關心業務邏輯、表設計、SQL寫法以及如何建立索引了，再也不用擔心SQL會走錯執行計劃了。

Oracle12c的新功能SQL Plan Directives在一定程度上解決了Rows估算不準而引發的SQL性能問題。關于SQL Plan Directives，本書不做過多討論。

為了讓CBO選擇正確的執行計劃，我們需要對owner列收集直方圖信息，從而告知CBO該列數據分布不均衡，讓CBO在計算Rows的時候參考直方圖統計。現在我們對owner列收集直方圖。

SQL> BEGIN
  2   DBMS_STATS.GATHER_TABLE_STATS(ownname         => 'SCOTT',
  3                                tabname          => 'TEST',
  4                                estimate_percent => 100,
  5                                method_opt       => 'for columns owner size skewonly',
  6                                no_invalidate    => FALSE,
  7                                degree           => 1,
  8                                cascade          => TRUE);
  9  END;
 10  /

PL/SQL procedure successfully completed.

查看一下owner列的直方圖信息。

SQL> select a.column_name,
  2         b.num_rows,
  3         a.num_distinct Cardinality,
  4         round(a.num_distinct / b.num_rows * 100, 2) selectivity,
  5         a.histogram,
  6         a.num_buckets
  7    from dba_tab_col_statistics a, dba_tables b
  8   where a.owner = b.owner
  9     and a.table_name = b.table_name
 10     and a.owner = 'SCOTT'
 11     and a.table_name = 'TEST';

COLUMN_NAME       NUM_ROWS CARDINALITY SELECTIVITY HISTOGRAM  NUM_BUCKETS
--------------- ---------- ----------- ----------- ---------- -----------
OWNER                72462          29         .04 FREQUENCY           29
OBJECT_NAME          72462       44236       61.05 NONE                 1
SUBOBJECT_NAME       72462         106         .15 NONE                 1
OBJECT_ID            72462       72462         100 NONE                 1
DATA_OBJECT_ID       72462        7608        10.5 NONE                 1
OBJECT_TYPE          72462          44         .06 NONE                 1
CREATED              72462        1366        1.89 NONE                 1
LAST_DDL_TIME        72462        1412        1.95 NONE                 1
TIMESTAMP            72462        1480        2.04 NONE                 1
STATUS               72462           1           0 NONE                 1
TEMPORARY            72462           2           0 NONE                 1
GENERATED            72462           2           0 NONE                 1
SECONDARY            72462           2           0 NONE                 1
NAMESPACE            72462          21         .03 NONE                 1
EDITION_NAME         72462           0           0 NONE                 0

15 rows selected.

現在我們再來查詢上面的SQL，看執行計劃是否還會走錯并且驗證Rows是否還會算錯。

SQL> select * from test where owner='SCOTT';

7 rows selected.

Execution Plan
----------------------------------------------------------
Plan hash value: 3932013684

-------------------------------------------------------------------------------------
| Id  |Operation                  | Name     | Rows | Bytes | Cost (%CPU)| Time     |
-------------------------------------------------------------------------------------
|  0 | SELECT STATEMENT           |          |    7 |   679 |     2   (0)| 00:00:01 |
|  1 | TABLE ACCESS BY INDEX ROWID| TEST     |    7 |   679 |     2   (0)| 00:00:01 |
|* 2 | INDEX RANGE SCAN           | IDX_OWNER|    7 |       |     1   (0)| 00:00:01 |
-------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("OWNER"='SCOTT')

SQL> select * from test where owner='SYS';

30808 rows selected.

Execution Plan
----------------------------------------------------------
Plan hash value: 1357081020

--------------------------------------------------------------------------
| Id  | Operation         | Name | Rows  | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|   0 | SELECT STATEMENT  |      | 30808 |  2918K|   290   (1)| 00:00:04 |
|*  1 |  TABLE ACCESS FULL| TEST | 30808 |  2918K|   290   (1)| 00:00:04 |
--------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   1 - filter("OWNER"='SYS')

對owner列收集完直方圖之后，CBO估算的Rows就基本準確了，一旦Rows估算對了，那么執行計劃也就不會出錯了。

大家是不是很好奇，為什么收集完直方圖之后，Rows計算得那么精確，收集直方圖究竟完成了什么操作呢？對owner列收集直方圖其實就相當于運行了以下SQL。

select owner,count(*) from test group by owner;

直方圖信息就是以上SQL的查詢結果，這些查詢結果會保存在數據字典中。這樣當我們查詢owner為任意值的時候，CBO總會算出正確的Rows，因為直方圖已經知道每個值有多少行數據。

如果SQL使用了綁定變量，綁定變量的列收集了直方圖，那么該SQL就會引起綁定變量窺探。綁定變量窺探是一個老生常談的問題，這里不多做討論。Oracle11g引入了自適應游標共享（Adaptive Cursor Sharing），基本上解決了綁定變量窺探問題，但是自適應游標共享也會引起一些新問題，對此也不做過多討論。

當我們遇到一個SQL有綁定變量怎么辦？其實很簡單，我們只需要運行以下語句。

select 列, count(*) from test group by 列 order by 2 desc;

如果列數據分布均衡，基本上SQL不會出現問題；如果列數據分布不均衡，我們需要對列收集直方圖統計。

關于直方圖，其實還有非常多的話題，比如直方圖的種類、直方圖的桶數等，本書在此不做過多討論。在我們看來，讀者只需要知道直方圖是用來幫助CBO在對基數很低、數據分布不均衡的列進行Rows估算的時候，可以得到更精確的Rows就夠了。

什么樣的列需要收集直方圖呢？當列出現在where條件中，列的選擇性小于1%并且該列沒有收集過直方圖，這樣的列就應該收集直方圖。注意：千萬不能對沒有出現在where條件中的列收集直方圖。對沒有出現在where條件中的列收集直方圖完全是做無用功，浪費數據庫資源。

下面我們為大家分享本書第二個全自動化優化腳本。

抓出必須創建直方圖的列（大家可以對該腳本進行適當修改，以便用于生產環境）。

SQL> select a.owner,
  2         a.table_name,
  3         a.column_name,
  4         b.num_rows,
  5         a.num_distinct,
  6         trunc(num_distinct / num_rows * 100,2) selectivity,
  7         'Need Gather Histogram' notice
  8    from dba_tab_col_statistics a, dba_tables b
  9   where a.owner = 'SCOTT'
 10     and a.table_name = 'TEST'
 11     and a.owner = b.owner
 12     and a.table_name = b.table_name
 13     and num_distinct / num_rows<0.01
 14      and (a.owner, a.table_name, a.column_name) in
 15         (select r.name owner, o.name table_name, c.name column_name
 16            from sys.col_usage$ u, sys.obj$ o, sys.col$ c, sys.user$ r
 17           where o.obj# = u.obj#
 18             and c.obj# = u.obj#
 19             and c.col# = u.intcol#
 20             and r.name = 'SCOTT'
 21             and o.name = 'TEST')
 22     and a.histogram ='NONE';

OWNER TABLE COLUM   NUM_ROWS NUM_DISTINCT SELECTIVITY NOTICE
----- ----- ----- ---------- ------------ ----------- ----------------------
SCOTT TEST  OWNER      72462           29         .04 Need Gather Histogram

官术网_书友最值得收藏!

SQL優化核心思想

1.3 直方圖（HISTOGRAM）

1.3　直方圖（HISTOGRAM）