07 MySQL索引设计


原文链接: 07 MySQL索引设计

B树与B+树的区别?

  • B树
    • 所有关键字在整颗树中出现,任何一个关键字出现且只出现在一个结点中
    • 搜索在非叶子结点也可以命中
    • 叶子节点间没有链表
  • B+树
    • 所有关键字都在叶子结点出现
    • 搜索不可能在非叶子结点命中
    • 叶子节点间有链表

MySQL中HASH索引和B+树索引的区别?

Hash索引是将索引键通过Hash运算之后,将Hash运算结果的Hash值和所对应的行指针信息存放于一个Hash表中。Hash索引的查询效率要远高于B-Tree索引,索引的检索可以一次定位,不像B-Tree索引需要从根节点到枝节点,最后才能访问到叶子节点这样多次的IO访问。虽然Hash索引效率高,但是Hash索引本身由于其特殊性也带来了很多限制和弊端,主要有以下这些:

  1. Hash索引仅仅能满足=,IN<=>查询,不能使用范围查询
    由于Hash索引比较的是进行Hash运算之后的Hash值,所以它只能用于等值的过滤,不能用于基于范围的过滤,因为经过相应的Hash算法处理之后的Hash值的大小关系,并不能保证和Hash运算前完全一样。
  2. Hash索引无法被用来避免数据的排序操作
    由于Hash索引中存放的是经过Hash计算之后的Hash值,而且Hash值的大小关系并不一定和Hash运算前的键值完全一样,所以数据库无法利用索引的数据来避免任何排序运算;
  3. Hash索引不能利用部分索引键查询
    对于组合索引,Hash索引在计算Hash值的时候是组合索引键合并后再一起计算Hash值,而不是单独计算Hash值,所以通过组合索引的前面一个或几个索引键进行查询的时候,Hash索引也无法被利用。
  4. Hash索引在任何时候都不能避免表扫描
    由于不同索引键存在相同Hash值,所以即使取满足某个Hash键值的数据的记录条数,也无法从Hash索引中直接完成查询,还是要通过访问表中的实际数据进行相应的比较,并得到相应的结果。
  5. Hash索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高
    对于选择性比较低的索引键,如果创建Hash索引,那么将会存在大量记录指针信息存于同一个Hash值相关联。这样要定位某一条记录时就会非常麻烦,会浪费多次表数据的访问,而造成整体性能低下。

聚簇索引与辅助索引的区别?

  聚簇索引和索引组织表(Index Organized Table, IOT)是一个意思,聚簇索引中的数据是按主键存储和排序。聚簇索引就是按照每张表的主键构造一棵B+树,同时叶子节点中存放的即为整张表的行记录数据,也将聚集索引的叶子节点称为数据页。聚簇索引的这个特性决定了索引组织表中数据也是索引的一部分。同B+树数据结构一样,每个数据页都通过一个双向链表来进行链接。由于实际的数据页只能按照一棵B+树进行排序,因此每张表只能拥有一个聚集索引。

  辅助索引(secondary index,也称二级索引),叶子节点并不包含行记录的全部数据,叶子节点除了包含键值以外,每个叶子节点中的索引行中还包含了一个书签。该书签用来告诉Innodb存储引擎哪里可以找到与索引相对应的行数据。由于Innodb存储引擎是索引组织表,因此Innodb存储引擎的辅助索引的书签就是相应行数据的聚集索引键。辅助索引的存在并不影响数据在聚集索引中的组织,因此每张表上可以有多个辅助索引。当通过辅助索引来寻找数据时,Innodb存储引擎会遍历辅助索引并通过叶级别的指针获得指向主键索引的主键,然后再通过主键索引来找到一个完整的行记录。

  一个表中,聚簇索引占用的空间肯定是最大的,因为它是存储了全部数据的,而辅助索引,是建立在某几个需要经常查询的列上面的,除了这几个列之外,剩下的就是用来“回表”的指针信息了,所以相对而言,辅助索引的占用空间都会比聚簇索引小很多,特别是在一个表的列数很多或是这些列中包含大字段的情况下。

`