1 统计信息说明
MySQL执行SQL会经过SQL解析和查询优化的过程,解析器将SQL分解成数据结构并传递到后续步骤,查询优化器发现执行SQL查询的最佳方案、生成执行计划。查询优化器决定SQL如何执行,依赖于数据库的统计信息。
MySQL统计信息的存储分为两种,非持久化和持久化统计信息。
1.1 非持久化统计信息
非持久化统计信息存储在内存里,如果数据库重启,统计信息将丢失。
有两种方式可以设置为非持久化统计信息:
- 全局变量:INNODB_STATS_PERSISTENT=OFF
- CREATE/ALTER表的参数:STATS_PERSISTENT=0
非持久化统计信息在以下情况会被自动更新:
- 执行ANALYZE TABLE
- innodb_stats_on_metadata=ON情况下,执SHOW TABLE STATUS, SHOW INDEX, 查询 INFORMATION_SCHEMA下的TABLES, STATISTICS
- 启用—auto-rehash功能情况下,使用mysql client登录
- 表第一次被打开
- 距上一次更新统计信息,表1/16的数据被修改
非持久化统计信息的缺点显而易见,数据库重启后如果大量表开始更新统计信息,会对实例造成很大影响,所以目前都会使用持久化统计信息。
1.2 持久化统计信息
从5.6.6开始,MySQL默认使用了持久化统计信息,即INNODB_STATS_PERSISTENT=ON,持久化统计信息保存在表mysql.innodb_table_stats和mysql.innodb_index_stats。
持久化统计信息在以下情况会被自动更新:
- 设置INNODB_STATS_AUTO_RECALC=ON 的情况下,表中10%的数据被修改。
- 增加新的索引
innodb_table_stats是表的统计信息,各字段含义如下:
- database_name 数据库名
- table_name 表名
- last_update 统计信息最后一次更新时间
- n_rows 表的行数
- clustered_index_size 聚集索引的页的数量
- sum_of_other_index_sizes 其他索引的页的数量
innodb_index_stats是索引的统计信息,各字段含义如下:
- database_name 数据库名
- table_name 表名
- index_name 索引名
- last_update 统计信息最后一次更新时间
- stat_name 统计信息名
- stat_value 统计信息的值
- sample_size 采样大小
- stat_description 类型说明
2 统计信息不准确的处理
如果执行计划没有正确使用索引,可能是innodb_index_stats中统计信息差别较大引起,解决方法如下:
手动更新统计信息,注意执行过程中会加读锁:
ANALYZETABLE TABLE_NAME;如果更新后统计信息仍不准确,可考虑增加表采样的数据页,两种方式可以修改:
- 全局变量INNODB_STATS_PERSISTENT_SAMPLE_PAGES,默认为20;
- 单个表可以指定该表的采样:ALTER TABLE TABLE_NAME STATS_SAMPLE_PAGES=40;
注意STATS_SAMPLE_PAGES的最大值是65535,超出会报错。
在MySQL 5.7中并没有提供直方图的功能,某些情况下(如数据分布不均)仅仅更新统计信息不一定能得到准确的执行计划,只能通过index hint的方式指定索引。在MySQL 8.0中会增加直方图功能。