我的编程空间,编程开发者的网络收藏夹
学习永远不晚

MySQL索引的坑怎么解决

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

MySQL索引的坑怎么解决

今天小编给大家分享一下MySQL索引的坑怎么解决的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

MySQL索引的坑怎么解决

索引可以说是数据库中的一个大心脏了,如果说一个数据库少了索引,那么数据库本身存在的意义就不大了,和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要,今天来说说MySQL索引,从细节和实际业务的角度看看在MySQL中B+树索引好处,以及我们在使用索引时需要注意的知识点。

合理利用索引

在工作中,我们可能判断数据表中的一个字段是不是需要加索引的最直接办法就是:这个字段会不会经常出现在我们的where条件中。从宏观的角度来说,这样思考没有问题,但是从长远的角度来看,有时可能需要更细致的思考,比如我们是不是不仅仅需要在这个字段上建立一个索引?多个字段的联合索引是不是更好?以一张用户表为例,用户表中的字段可能会有用户的姓名用户的身份证号用户的家庭地址等等。

MySQL索引的坑怎么解决

「1.普通索引的弊端」

现在有个需求需要根据用户的身份证号找到用户的姓名,这时候很显然想到的第一个办法就是在id_card上建立一个索引,严格来说是唯一索引,因为身份证号肯定是唯一的,那么当我们执行以下查询的时候:

SELECT name FROM user WHERE id_card=xxx

它的流程应该是这样的:

  1. 先在id_card索引树上搜索,找到id_card对应的主键id

  2. 通过id去主键索引上搜索,找到对应的name

从效果上来看,结果是没问题的,但是从效率上来看,似乎这个查询有点昂贵,因为它检索了两颗B+树,假设一颗树的高度是3,那么两颗树的高度就是6,因为根节点在内存里(此处两个根节点),所以最终要在磁盘上进行IO的次数是4次,以一次磁盘随机IO的时间平均耗时是10ms来说,那么最终就需要40ms。这个数字一般,不算快。

MySQL索引的坑怎么解决

「2.主键索引的陷阱」

既然问题是回表,造成了在两颗树都检索了,那么核心问题就是看看能不能只在一颗树上检索。这里从业务的角度你可能发现了一个切入点,身份证号是唯一的,那么我们的主键是不是可以不用默认的自增id了,我们把主键设置成我们的身份证号,这样整个表的只需要一个索引,并且通过身份证号可以查到所有需要的数据包括我们的姓名,简单一想似乎有道理,只要每次插入数据的时候,指定id是身份证号就行了,但是仔细一想似乎有问题。

这里要从B+树的特点来说,B+树的数据都存在叶子节点上,并数据是页式管理的,一页是16K,这是什么意思呢?哪怕我们现在是一行数据,它也要占用16K的数据页,只有当我们的数据页写满了之后才会写到一个新的数据页上,新的数据页和老的数据页在物理上不一定是连续的,而且有一点很关键,虽然数据页物理上是不连续的,但是数据在逻辑上是连续的

MySQL索引的坑怎么解决

也许你会好奇,这和我们说的身份证号当主键ID有什么关系?这时你应该关注连续这个关键字,身份证号不是连续的,这意味着什么?当我们插入一条不连续的数据的时候,为了保持连续,需要移动数据,比如原来在一页上的数据有1->5,这时候插入了一条3,那么就需要把5移到3后面,也许你会说这也没多少开销,但是如果当新的数据3造成这个页A满了,那么就要看它后面的页B是否有空间,如果有空间,这时候页B的开始数据应该是这个从页A溢出来的那条,对应的也要移动数据。如果此时页B也没有足够的空间,那么就要申请新的页C,然后移一部分数据到这个新页C上,并且会切断页A与页B之间的关系,在两者之间插入一个页C,从代码的层面来说,就是切换链表的指针。

MySQL索引的坑怎么解决

总结来说,不连续的身份证号当主键可能会造成页数据的移动、随机IO、频繁申请新页相关的开销。如果我们用的是自增的主键,那么对于id来说一定是顺序的,不会因为随机IO造成数据移动的问题,在插入方面开销一定是相对较小的。

其实不推荐用身份证号当主键的还有另外一个原因:身份证号作为数字来说太大了,得用bigint来存,正常来说一个学校的学生用int已经足够了,我们知道一页可以存放16K,当一个索引本身占用的空间越大时,会导致一页能存放的数据越少,所以在一定数据量的情况下,使用bigint要比int需要更多的页也就是更多的存储空间。

「3.联合索引的矛与盾」

由上面两条结论可以得出:

  1. 尽量不要去回表

  2. 身份证号不适合当主键索引

所以自然而然地想到了联合索引,创建一个【身份证号+姓名】的联合索引,注意联合索引的顺序,要符合最左原则。这样当我们同样执行以下sql时:

select name from user where id_card=xxx

不需要回表就可以得到我们需要的name字段,然而还是没有解决身份证号本身占用空间过大的问题,这是业务数据本身的问题,如果你要解决它的话,我们可以通过一些转换算法将原本大的数据转换成小的数据,比如crc32:

crc32.ChecksumIEEE([]byte("341124199408203232"))

可以将原本需要8个字节存储空间的身份证号用4个字节的crc码替代,因此我们的数据库需要再加个字段crc_id_card,联合索引也从【身份证号+姓名】变成了【crc32(身份证号)+姓名】,联合索引占的空间变小了。但是这种转换也是有代价的:

  • 每次额外的crc,导致需要更多cpu资源

  • 额外的字段,虽然让索引的空间变小了,但是本身也要占用空间

  • crc会存在冲突的概率,这需要我们查询出来数据后,再根据id_card过滤一下,过滤的成本根据重复数据的数量而定,重复越多,过滤越慢。

关于联合索引存储优化,这里有个小细节,假设现在有两个字段A和B,分别占用8个字节和20个字节,我们在联合索引已经是[A,B]的情况下,还要支持B的单独查询,因此自然而然我们在B上也建立个索引,那么两个索引占用的空间为 8+20+20=48,现在无论我们通过A还是通过B查询都可以用到索引,如果在业务允许的条件下,我们是否可以建立[B,A]和A索引,这样的话,不仅满足单独通过A或者B查询数据用到索引,还可以占用更小的空间:20+8+8=36。

「4.前缀索引的短小精悍」

有时候我们需要索引的字段是字符串类型的,并且这个字符串很长,我们希望这个字段加上索引,但是我们又不希望这个索引占用太多的空间,这时可以考虑建立个前缀索引,以这个字段的前一部分字符建立个索引,这样既可以享受索引,又可以节省空间,这里需要注意的是在前缀重复度较高的情况下,前缀索引和普通索引的速度应该是有差距的。

alter table xx add index(name(7));#name前7个字符建立索引
select xx from xx where name="JamesBond"

「5.唯一索引的快与慢」

在说唯一索引之前,我们先了解下普通索引的特点,我们知道对于B+树而言,叶子节点的数据是有序的。

MySQL索引的坑怎么解决

假设现在我们要查询2这条数据,那么在通过索引树找到2的时候,存储引擎并没有停止搜索,因为可能存在多个2,这表现为存储引擎会在叶子节点上接着向后查找,在找到第二个2之后,就停止了吗?答案是否,因为存储引擎并不知道后面还有没有更多的2,所以得接着向后查找,直至找到第一个不是2的数据,也就是3,找到3之后,停止检索,这就是普通索引的检索过程。

唯一索引就不一样了,因为唯一性,不可能存在重复的数据,所以在检索到我们的目标数据之后直接返回,不会像普通索引那样还要向后多查找一次,从这个角度来看,唯一索引是要比普通索引快的,但是当普通索引的数据都在一个页内的话,其实也并不会快多少。在数据的插入方面,唯一索引可能就稍逊色,因为唯一性,每次插入的时候,都需要将判断要插入的数据是否已经存在,而普通索引不需要这个逻辑,并且很重要的一点是唯一索引会用不到change buffer(见下文)。

「6.不要盲目加索引」

在工作中,你可能会遇到这样的情况:这个字段我需不需要加索引?。对于这个问题,我们常用的判断手段就是:查询会不会用到这个字段,如果这个字段经常在查询的条件中,我们可能会考虑加个索引。但是如果只根据这个条件判断,你可能会加了一个错误的索引。我们来看个例子:假设有张用户表,大概有100w的数据,用户表中有个性别字段表示男女,男女差不多各占一半,现在我们要统计所有男生的信息,然后我们给性别字段加了索引,并且我们这样写下了sql:

select * from user where sex="男"

如果不出意外的话,InnoDB是不会选择性别这个索引的。如果走性别索引,那么一定是需要回表的,在数据量很大的情况下,回表会造成什么样的后果?我贴一张和上面一样的图想必大家都知道了:

MySQL索引的坑怎么解决

主要就是大量的IO,一条数据需要4次,那么50w的数据呢?结果可想而知。因此针对这种情况,MySQL的优化器大概率走全表扫描,直接扫描主键索引,因为这样性能可能会更高。

「7.索引失效那些事」

某些情况下,因为我们自己使用的不当,导致mysql用不到索引,这一般很容易发生在类型转换方面,也许你会说,mysql不是已经支持隐式转换了吗?比如现在有个整型的user_id索引字段,我们因为查询的时候没注意,写成了:

select xx from user where user_id="1234"

注意这里是字符的1234,当发生这种情况下,MySQL确实足够聪明,会把字符的1234转成数字的1234,然后愉快的使用了user_id索引。 但是如果我们有个字符型的user_id索引字段,还是因为我们查询的时候没注意,写成了:

select xx from user where user_id=1234

这时候就有问题了,会用不到索引,也许你会问,这时MySQL为什么不会转换了,把数字的1234转成字符型的1234不就行了? 这里需要解释下转换的规则了,当出现字符串和数字比较的时候,要记住:MySQL会把字符串转换成数字。也许你又会问:为什么把字符型user_id字段转换成数字就用不到索引了? 这又要说到B+树索引的结构了,我们知道B+树的索引是按照索引的值来分叉和排序的,当我们把索引字段发生类型转换时会发生值的变化,比如原来是A值,如果执行整型转换可能会对应一个B值(int(A)=B),这时这颗索引树就不能用了,因为索引树是按照A来构造的,不是B,所以会用不到索引。

索引优化

「1.change buffer」

我们知道在更新一条数据的时候,要先判断这条数据的页是否在内存里,如果在的话,直接更新对应的内存页,如果不在的话,只能去磁盘把对应的数据页读到内存中来,然后再更新,这会有什么问题呢?

  1. 去磁盘的读这个动作稍显的有点慢

  2. 如果同时更新很多数据,那么即有可能发生很多离散的IO

为了解决这种情况下的速度问题,change buffer出现了,首先不要被buffer这个单词误导,change buffer除了会在公共的buffer pool里之外,也是会持久化到磁盘的。当有了change buffer之后,我们更新的过程中,如果发现对应的数据页不在内存里的话,也不去磁盘读取相应的数据页了,而是把要更新的数据放入到change buffer中,那change buffer的数据何时被同步到磁盘上去?如果此时发生读动作怎么办?首先后台有个线程会定期把change buffer的数据同步到磁盘上去的,如果线程还没来得及同步,但是又发生了读操作,那么也会触发把change buffer的数据merge到磁盘的事件。

MySQL索引的坑怎么解决

需要注意的是并不是所有的索引都能用到changer buffer,像主键索引和唯一索引就用不到,因为唯一性,所以它们在更新的时候要判断数据存不存在,如果数据页不在内存中,就必须去磁盘上把对应的数据页读到内存里,而普通索引就没关系了,不需要校验唯一性。change buffer越大,理论收益就越大,这是因为首先离散的读IO变少了,其次当一个数据页上发生多次变更,只需merge一次到磁盘上。当然并不是所有的场景都适合changer buffer,如果你的业务是更新之后,需要立马去读,changer buffer会适得其反,因为需要不停地触发merge动作,导致随机IO的次数不会变少,反而增加了维护changer buffer的开销。

「2.索引下推」

前面我们说了联合索引,联合索引要满足最左原则,即在联合索引是[A,B]的情况下,我们可以通过以下的sql用到索引:

select * from table where A="xx"
select * from table where A="xx" AND B="xx"

其实联合索引也可以使用最左前缀的原则,即:

select * from table where A like "赵%" AND B="上海市"

但是这里需要注意的是,因为使用了A的一部分,在MySQL5.6之前,上面的sql在检索出所有A是“赵”开头的数据之后,就立马回表(使用的select *),然后再对比B是不是“上海市”这个判断,这里是不是有点懵?为什么B这个判断不直接在联合索引上判断,这样的话回表的次数不就少了吗?造成这个问题的原因还是因为使用了最左前缀的问题,导致索引虽然能使用部分A,但是完全用不到B,看起来是有点“傻”,于是在MySQL5.6之后,就出现了索引下推这个优化(Index Condition Pushdown),有了这个功能以后,虽然使用的是最左前缀,但是也可以在联合索引上搜索出符合A%的同时也过滤非B的数据,大大减少了回表的次数。

MySQL索引的坑怎么解决

「3.刷新邻接页」

在说刷新邻接页之前,我们先说下脏页,我们知道在更新一条数据的时候,得先判断这条数据所在的页是否在内存中,如果不在的话,需要把这个数据页先读到内存中,然后再更新内存中的数据,这时会发现内存中的页有最新的数据,但是磁盘上的页却依然是老数据,那么此时这条数据所在的内存中的页就是脏页,需要刷到磁盘上来保持一致。所以问题来了,何时刷?每次刷多少脏页才合适?如果每次变更就刷,那么性能会很差,如果很久才刷,脏页就会堆积很多,造成内存池中可用的页变少,进而影响正常的功能。所以刷的速度不能太快但要及时,MySQL有个清理线程会定期执行,保证了不会太快,当脏页太多或者redo log已经快满了,也会立刻触发刷盘,保证了及时。

MySQL索引的坑怎么解决

在脏页刷盘的过程中,InnoDB这里有个优化:如果要刷的脏页的邻居页也脏了,那么就顺带一起刷,这样的好处就是可以减少随机IO,在机械磁盘的情况下,优化应该挺大,但是这里可能会有坑,如果当前脏页的邻居脏页在被一起刷入后,邻居页立马因为数据的变更又变脏了,那此时是不是有种多此一举的感觉,并且反而浪费了时间和开销。更糟糕的是如果邻居页的邻居也是脏页...,那么这个连锁反应可能会出现短暂的性能问题。

「4.MRR」

在实际业务中,我们可能会被告知尽量使用覆盖索引,不要回表,因为回表需要更多IO,耗时更长,但是有时候我们又不得不回表,回表不仅仅会造成过多的IO,更严重的是过多的离散IO。

select * from user where grade between 60 and 70

现在要查询成绩在60-70之间的用户信息,于是我们的sql写成上面的那样,当然我们的grade字段是有索引的,按照常理来说,会先在grade索引上找到grade=60这条数据,然后再根据grade=60这条数据对应的id去主键索引上找,最后再次回到grade索引上,不停的重复同样的动作..., 假设现在grade=60对应的id=1,数据是在page_no_1上,grade=61对应的id=10,数据是在page_no_2上,grade=62对应的id=2,数据是在page_no_1上,所以真实的情况就是先在page_no_1上找数据,然后切到page_no_2,最后又切回page_no_1上,但其实id=1id=2完全可以合并,读一次page_no_1即可,不仅节省了IO,同时避免了随机IO,这就是MRR。当使用MRR之后,辅助索引不会立即去回表,而是将得到的主键id,放在一个buffer中,然后再对其排序,排序后再去顺序读主键索引,大大减少了离散的IO。

MySQL索引的坑怎么解决

以上就是“MySQL索引的坑怎么解决”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注亿速云行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

MySQL索引的坑怎么解决

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

小心陷入MySQL索引的坑

索引可以说是数据库中的一个大心脏了,如果说一个数据库少了索引,那么数据库本身存在的意义就不大了,和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要,今天来说说MySQL索引,从细节和实际业务的角度看看在MySQL中B+树索引好处,以及我们在使用索引
小心陷入MySQL索引的坑
2021-02-13

mysql查询索引失效怎么解决

当MySQL查询索引失效时,可以尝试以下几种方法来解决:重新分析表:使用ANALYZE TABLE table_name命令可以重新分析表,让MySQL重新评估索引的使用情况。优化查询语句:检查查询语句是否能够利用到索引,可以通过EXPL
mysql查询索引失效怎么解决
2024-04-09

mysql组合索引失效怎么解决

当MySQL组合索引失效时,可以尝试以下几种解决方法:1. 重新设计索引:检查当前索引是否合适,可能需要重新设计索引来更好地支持查询。可以考虑添加或删除索引,或者调整索引的顺序。2. 优化查询语句:检查查询语句是否存在性能问题,可能需要优化
2023-10-25

mysql中datetime索引失败怎么解决

在MySQL中,如果datetime索引失败,可能有几种常见的原因,例如:索引字段数据类型不匹配:确保索引字段的数据类型与数据库表中datetime字段的数据类型匹配。如果索引字段是datetime类型,确保表中的datetime字段也是d
mysql中datetime索引失败怎么解决
2024-04-09

MySQL索引失效问题怎么解决

MySQL索引失效问题可能是由于索引选择不当、数据分布不均匀、查询条件不符合索引规则等原因造成的。解决这些问题可以尝试以下方法:重新设计索引:分析查询语句的条件和排序规则,重新设计索引以优化查询性能。优化查询语句:对查询语句进行优化,避免使
MySQL索引失效问题怎么解决
2024-04-09

mysql联合索引失效怎么解决

当MySQL联合索引失效时,可以考虑以下几个解决办法:1. 重新设计索引:检查当前的联合索引是否满足查询需求,如果不满足,可以重新设计合适的索引来优化查询效果。可以尝试不同的索引策略,比如创建多个独立的索引来代替联合索引。2. 优化查询语句
2023-10-25

mysql数据库索引失效怎么解决

当MySQL数据库索引失效时,可以尝试以下几种方法来解决问题:重新设计索引:检查数据库表的索引设计是否合理,是否覆盖了常用的查询场景。根据查询的需求和字段选择合适的索引类型,优化索引设计可以提高查询性能。优化查询语句:检查查询语句是否合理,
mysql数据库索引失效怎么解决
2024-04-09

mysql覆盖索引查询失效怎么解决

MySQL中覆盖索引失效通常是由于查询条件太过复杂或者索引选择不当导致的。为了解决这个问题,可以尝试以下几种方法:优化查询条件:尽量简化查询条件,避免使用复杂的函数或表达式,这样可以使MySQL更容易选择正确的索引进行查询。确保MySQL
mysql覆盖索引查询失效怎么解决
2024-03-15

MySQL中不等号索引问题怎么解决

这篇文章主要介绍“MySQL中不等号索引问题怎么解决”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“MySQL中不等号索引问题怎么解决”文章能帮助大家解决问题。在MySQL中,不等号<>在主键字段和唯
2023-07-05

mysql中like索引失效问题怎么解决

在MySQL中,LIKE索引失效的问题通常是由以下几个原因造成的:通配符在开头:如果LIKE操作符的通配符(%)在搜索模式的开头,索引将无法使用。例如,LIKE '%abc'将无法使用索引。解决方法是使用全文本搜索引擎(如MySQL的全文本
mysql中like索引失效问题怎么解决
2024-02-29

mysql隐式转换索引失效怎么解决

明确数据类型:确保在创建表时,将字段的数据类型定义为与查询条件中的数据类型一致。使用合适的函数:在查询中使用函数时,可能会导致索引失效。尽量避免在 WHERE 子句中使用函数,而是在数据插入时进行处理,以确保索引的有效使用。避免类型转换:尽
mysql隐式转换索引失效怎么解决
2024-04-23

MySQL创建聚簇索引失败怎么解决

在MySQL中,创建聚簇索引失败可能是由于多种原因导致的,比如表中数据量过大、硬件资源不足、索引字段重复等。下面是一些可能的解决方法:检查表结构和索引字段:确保表结构和索引字段的设置正确,避免重复或错误的字段设置。优化表数据:如果表中数据量
MySQL创建聚簇索引失败怎么解决
2024-04-24

mysql索引失效如何解决

当MySQL索引失效时,可以尝试以下方法来解决:1. 重新分析表:使用ANALYZE TABLE语句来重新分析表的统计信息,使MySQL重新计算索引的选择性和基数。2. 优化查询语句:检查查询语句的语法、表连接顺序、WHERE条件和排序等方
mysql索引失效如何解决
2024-02-29

mysql怎么用索引

如何使用 mysql 索引索引是 MySQL 数据库中一种很重要的结构,它通过加快数据访问速度来提升查询效率。以下是使用 MySQL 索引的方法:1. 创建索引可以使用 CREATE INDEX 语句创建索引:CREATE INDE
mysql怎么用索引
2024-05-22

编程热搜

目录