1818IP-服务器技术教程,云服务器评测推荐,服务器系统排错处理,环境搭建,攻击防护等

当前位置:首页 - 运维 - 正文

君子好学,自强不息!

前言

又和大家见面了!又两周过去了,我的云笔记里又多了几篇写了一半的文章草稿。有的是因为质量没有达到预期还准备再加点内容,有的则完全是一个灵感而已,内容完全木有。羡慕很多大佬们,一周能产出五六篇文章,给我两个肝我都不够。好了,不多说废话了…

最近在线上环境遇到了一次SQL慢查询引发的数据库故障,影响线上业务。经过排查后,确定原因是「SQL在执行时,MySQL优化器选择了错误的索引(不应该说是“错误”,而是选择了实际执行耗时更长的索引)」。在排查过程中,查阅了许多资料,也学习了下MySQL优化器选择索引的基本准则,在本文中进行解决问题思路的分享。本人MySQL了解深度有限,如果错误欢迎理性讨论和指正。

「在这次事故中也能充分看出深入了解MySQL运行原理的重要性,这是遇到问题时能否独立解决问题的关键。」 试想一个月黑风高的夜晚,公司线上突然挂了,而你的同事们都不在线,就你一个人有条件解决问题,这时候如果被工程师的基本功把你卡住了,就问你尴不尴尬…

「本文的主要内容:」

  • 故障描述
  • 问题原因排查
  • MySQL索引选择原理
  • 解决方案
  • 思考与总结

正文

故障描述

在7月24日11点线上某数据库突然收到大量告警,慢查询数超标,并且引发了连接数暴增,导致数据库响应缓慢,影响业务。看图表慢查询在高峰达到了每分钟14w次,在平时正常情况下慢查询数仅在两位数以下,如下图:

赶紧查看慢SQL记录,发现都是同一类语句导致的慢查询(隐私数据例如表名,我已经隐去):

select
*
from
sample_table
where
1=1
and(city_id=565)
and(type=13)
orderby
iddesc
limit
0,1

看起来语句很简单,没什么特别的。但是每个执行的查询时间达到了惊人的44s。

简直耸人听闻,这已经不是“慢”能形容的了…

接下来查看表数据信息,如下图:

可以看到表数据量较大,预估行数在83683240,也就是8000w左右,「千万数据量的表」。

大致情况就是这样,下面进入排查问题的环节。

问题原因排查

首先当然要怀疑会不会该语句没走索引,查看建表DML中的索引:

KEY`idx_1`(`city_id`,`type`,`rank`),
KEY`idx_log_dt_city_id_rank`(`log_dt`,`city_id`,`rank`),
KEY`idx_city_id_type`(`city_id`,`type`)

请忽略idx_1和idx_city_id_type两个索引的重复,这都是历史遗留问题了。

「可以看到是有idx_city_id_type和idx_1索引的」,我们的查询条件是city_id和type,这两个索引都是能走到的。

但是,我们的查询条件真的只要考虑city_id和type吗?(机智的小伙伴应该注意到问题所在了,先往下讲,留给大家思考)

既然有索引,接下来就该看该语句实际有没有走到索引了,MySQL提供了Explain可以分析SQL语句。Explain 用来分析 SELECT 查询语句。

Explain比较重要的字段有:

  • select_type : 查询类型,有简单查询、联合查询、子查询等
  • key : 使用的索引
  • rows : 预计需要扫描的行数

更多详细Explain介绍可以

本文来源:1818IP

本文地址:https://www.1818ip.com/post/9876.html

免责声明:本文由用户上传,如有侵权请联系删除!

发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。