假定操作系统一次读取一个节点,并且根节点保留在内存中,那么B树在100万个数据中查找目标值,只需要读取两次硬盘。B 树可以看作是对2-3查找树的一种扩展,即他允许每个节点有M-1个子节点。 三、B+树 B+树是B-树的变体,也是一种多路搜索树,其定义基本与B树相同,除了: 非叶子结点的子树指针与关键字个数相同; 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1 四、B树与B+树的对比 B和B+树的区别在于,B+树的非叶子结点只包含导航信息,不包含实际的值,所有的叶子结点和相连的节点使用链表相连,便于区间查找和遍历。 2、B+树的优点 由于B+树在内部节点上不好含数据信息,因此在内存页中能够存放更多的key。 数据存放的更加紧密,具有更好的空间局部性。 而B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻,所以缓存命中性没有B+树好。 3、应用 B树和B+树经常被用于数据库中,作为MySQL数据库索引。
引言 时隔一年,我又想起当初看数据库时,看到的B+树,就是数据库的索引使用的数据结构。再整理一下,看看自己没有忘记很多吧。 概述 B+树之前,先来看一下二叉查找树(1,2,3,4,5,6,7) ? 但想想数据库查找数据的场景: select * from user where id > 10, 显然,对于这种查找区间来说,二叉查找树并不高效。那么B+树是如何解决这个问题的呢? 没错,这就是B+树。 这个结构是怎么想出来的我不知道啊,但是我今天突然发现,他的存储方式和跳表十分之像啊。莫非是受到了跳表的启发?亦或是跳表受到了B+树的启发?咱也不知道。 引申 很好,B+树整明白了,新的问题出现了。如果数据库使用这种数据结构存储,全部放到内存中肯定是不现实的,势必要将其存储到硬盘中,待查找时再到文件中读取。 B+树是不是分叉越多越好 那肯定不是越多越好啊,要是一层就把所有数据都存储了,要他还有什么用,根本没有起到快速定位的作用。 但我想说的并不是这。
B树和B+树都是用于外查找的数据结构,都是平衡多路查找树。 两者的区别 在B+树中,具有n个关键字的结点含有n棵子树,即每个关键字对应一颗子树;而在B树中,具有n个关键字的结点含有(n+1)棵子树。 在B+树中,除根节点外,每个结点中的关键字个数n的取值范围是[m/2]~m,根节点n的取值范围是2~m;而在B树中,除根节点外,其他所有非叶结点的关键字个数n的取值范围是[m/2]-1~m-1,根节点n B+树中的所有叶结点包含了全部关键字,即其他非叶结点中的关键字包含在叶结点中;而在B树中,关键字是不重复的。 B+树中的所有非叶结点仅起到索引的作用,即结点中的每个索引项只含有对应子树的最大关键字和指向该子树的指针,不包含该关键字对应记录的存储地址;而在B树中,每个关键字对应一个记录的存储地址。 通常在B+树上有两个头指针,一个指向根节点,另一个指向关键字最小的叶结点,所有叶结点链接成一个不定长的线性链表,所以B+树可以进行随机查找和顺序查找;而B树只能进行随机查找。
2-3树正是一种绝对平衡的树,任意节点到它所有的叶子节点的深度都是相等的。 2-3树的数字代表一个节点有2到3个子树。它也满足二分搜索树的基本性质,但它不属于二分搜索树。 2-3树查找元素 2-3树的查找类似二分搜索树的查找,根据元素的大小来决定查找的方向。 动画:2-3树插入 2-3树删除元素 2-3树删除元素相对比较复杂,删除元素也和插入元素一样先进行命中查找,查找成功才进行删除操作。 2-3树为满二叉树时,删除叶子节点 2-3树满二叉树的情况下,删除叶子节点是比较简单的。 动画:2-3树删除 -----END---
前面的文章提到过的二叉树,每个节点的孩子个数最多的是2个,并且每个节点只有一个值,而2-3树的节点的孩子个数只能是2个或者3个,这是一种多路树的结构,类似的结构还有2-3-4树,B+树等,多路树的存在除了支持树的平衡外 ,还可以降低树的高度,从而让搜索,插入,删除的性能有所提升,但与此对应的是程序的编码会变得更加复杂,这也是2-3树或者2-3-4树,在开源框架或日常开发中并不如AVL树和红黑树使用频繁的原因,但B+树除外 ,因为B+树是特殊优化后的多路查找树,是专门为数据库结合磁盘文件系统定制的。 2-3树 VS 二叉搜索树 同样的一组数据,在2-3树和二叉搜索树里面的对比如下: ? 2-3树的删除 2-3树节点的删除也会破坏平衡性,同样树本身也会产生分裂和合并,如下: ?
目前常见的主要的三种存储引擎是:哈希、B+树、LSM树。LSM下次再说,hash讲过了。 没有什么B-树,那是 B-tree,国内一直翻译成B-树,其实就是B树。 B树我也不想说了,因为已经被升级过了,叫B+树。 下图来自 小灰的算法之旅,懂得人自然就懂了: ---- 对比一下B树: 这个是B树。 ---- B+树对于B树的改进 1、所有数据都在叶子节点。算法更容易理解了。回头抽空手写一下B+树,正好跳表也要重写了。 2、底层叶子节点使用链表串起来了。 这第二个改进不可谓不秀。 单这么看自然是不明所以的,但是凡事都要放在上下文中去看,B+树的上下文对应的就是磁盘IO的索引呐,那如果我要范围查询呢?比如说我要上面树里面 4-10 的所有数据,B 树怎么作为?B+树怎么作为?
B树、B+树的区别及MySQL为何选择B+树 1. B树和B+树的定义 B树和B+树都是一种多路搜索树,常用于数据库和文件系统中进行索引操作。在介绍B树和B+树的区别之前,先来了解一下它们的定义。 B+树 B+树也是一种多路搜索树,与B树相似,但在B+树中,所有的数据都存储在叶子节点中,而非在非叶子节点中。B+树满足以下条件: 所有关键字都出现在叶子节点的链表中,且链表中的关键字恰好是有序的。 B树和B+树的区别 B树和B+树虽然都是多路搜索树,但它们的区别还是比较明显的。 存储结构 B树的非叶子节点中既包含索引,也包含数据,而B+树的非叶子节点中只包含索引,数据都存储在叶子节点中。 查询性能 B+树的查询性能更优,因为B+树的数据都存储在叶子节点中,而B树的数据既可能存储在非叶子节点中,也可能存储在叶子节点中。 MySQL采用的是B+树作为索引的数据结构,原因如下: B+树的查询性能更好,因为数据都存储在叶子节点中,查询时只需要遍历一次叶子节点即可得到查询结果。
第一次接触红黑树是在关于hashMap,上来就扔五个特性,说满足这五个特点的二分搜索树就是红黑树。 (1)每个节点或者是黑色,或者是红色。 (2)根节点是黑色。 瞬时懵逼……我扔十个特性,是不是能定义一个红绿灯树呢。所以一直不明白红黑树为什么要这么定义。 直到今天了解了2-3树,才豁然开朗。2-3树是一种神奇的树,它能够保证该树是一个完美树。 2-3树可以演化成红黑树,这便是保证红黑树效率的根本。 先说奇葩的2-3树,首先2-3树满足二分搜索树,但每个节点可能存在1或2个数据,对应的该节点就可能存在2或3个子节点 2-3树 ? 2-3树引入.png 2-3树插入操作: ? 2-3树.png 2-3树演化为红黑树 将三节点拆为两个节点,并将左数据节点设为红色来实现2-3树同等功能 ? 红黑树.png
B/B+树的索引数量 B 树的节点中存储:指针、关键字(主键)、数据 B+ 树的非叶子节点:指针、关键字 B+树的叶子节点:指针(链表)、关键字、数据 注意,这里不是绝对的,比如有的 B+ 树中叶子节点存储的不是数据 而且上述是假设数据为 1KB,如果数据没那么大,高度为 3 的 B 树能存储更多的数据,但是如果用在大型数据库索引上还是不够。 B+ 树: B+树 如上图,B+树的核心在于非叶子节点不存储数据。 但是这样也是有缺点的: 无论查询结果如何,都必须走到叶子节点才结束,也就是 I/O 次数固定为 O(h) 或者说是 log(n)(底数为节点子分支个数),这个 h 一般为 2-3,排除掉根节点常驻内存, 高度为 3 的 B+ 树进行两次 I/O 就可以索引千万级别的数据,高度为 4 的 B+ 树,进行 3 次 I/O 就能索引十亿级别的数据量,这个效果还是很好的。 B/B+树的优点 更适合磁盘存储,减少了树的层级,进而减少 I/O 次数; B 树和 B+ 树对比 都是 B 树,但是 B+树更适合范围查询,比如 Mysql,且查询次数很稳定,为 logn。
avl树和m为300的B-树? avl树的高度:log2n = 24层 最差的情况一个节点只存储一个索引? 最差需要24次磁盘IO B-树高度:log(300)n = 3 层 最多花费3次磁盘IO B+树 B+树是B-树的一种变形 非叶子结点只存储索引,不存储数据 B+树的叶子结点包含全部的关键字信息 ,而B-树的数据分散在各个结点当中。 B+树存放的索引项相对于B-树能够存储的更多。 B*树 B*树是B+树的变体,在B+树的非根和叶子结点在增加指向兄弟结点的指针 B*提高了结点的利用率。
这就是B+树的原理,但是写起来就很糟糕,因为会产生大量的随机IO,磁盘寻道速度跟不上。 关于b树 B+树最大的性能问题是会产生大量的随机io。随着新数据的插入,叶子节点会慢慢分裂。 例如,Oracle 的常用索引使用 B+ 树。下面是一个B+树的例子 根节点和分支节点很简单,记录每个叶子节点的最小值,用指针指向叶子节点。 关于lsm树 LSM 树本质上是读写之间的平衡。与B+树相比,它牺牲了部分读取性能来提高写入性能。 读取的时候,因为我们不知道数据在哪棵树上,所以必须遍历所有的树,但是每棵树中的数据都是有序的。 以上就是LSM树最本质的原理,有了原理,再看具体的技术就很简单了: 关于lsm内存结构,可以是B+树,还可以为跳跃表(skip-list)或是一个有序字符串表(SSTables)。
B/B+树的索引数量 B 树的节点中存储:指针、关键字(主键)、数据 B+ 树的非叶子节点:指针、关键字 B+树的叶子节点:指针(链表)、关键字、数据 注意,这里不是绝对的,比如有的 B+ 树中叶子节点存储的不是数据 而且上述是假设数据为 1KB,如果数据没那么大,高度为 3 的 B 树能存储更多的数据,但是如果用在大型数据库索引上还是不够。 B+ 树: B+树 如上图,B+树的核心在于非叶子节点不存储数据。 但是这样也是有缺点的: 无论查询结果如何,都必须走到叶子节点才结束,也就是 I/O 次数固定为 O(h) 或者说是 log(n)(底数为节点子分支个数),这个 h 一般为 2-3,排除掉根节点常驻内存, 高度为 3 的 B+ 树进行两次 I/O 就可以索引千万级别的数据,高度为 4 的 B+ 树,进行 3 次 I/O 就能索引十亿级别的数据量,这个效果还是很好的。 B/B+树的优点 更适合磁盘存储,减少了树的层级,进而减少 I/O 次数; B 树和 B+ 树对比 都是 B 树,但是 B+树更适合范围查询,比如 Mysql,且查询次数很稳定,为 logn。
如果允许每个节点可以有更多的数据项和更多的子节点,就是多叉树; 【2】2-3树,2-3-4树就是多叉树,多叉树通过重新组织节点,减少树的高度,能对二叉树进行优化。如下图就是一个2-3树; ? 2-3 树基本介绍:最简单的 B树结构,具有如下特点: ■ 2-3 树的所有叶子节点都在同一层(只要是B树都满足这一点); ■ 有两个子节点的叫二节点,二节点要么没有子节点,要么有两个子节点 拆后仍需要满足上述条件; ■ 对于三节点的子树的值的大小仍然遵循(BST:二叉排序树)的规则; 2-3 树的插入和删除节点案例:链接 B-Tree树即B(Balanced:平衡)树,有人将B-Tree 三、B树、B+树、B*树 ---- 【1】B树介绍:前面介绍的2-3、2-3-4树就是 B树,在 MySql 中经常听说某种索引是基于 B树、B+树的,如下图: ? 【2】B+树介绍:B+ 树是B树的变体,也是一种多路搜索树,如下图: ? 【3】B* 树介绍:B* 树是B+树的变体,在B+树的非根和非叶子节点增加了指向兄弟的指针,如下图: ?
学习过2-3树之后就知道应怎样去理解红黑树了,如果直接看「算法导论」里的红黑树的性质,是看不出所以然。 此时我们借着2-3树去理解基本的红黑树,当然我会在后几篇文章介绍2-3-4树以及基于2-3-4树的红黑树。 抛开上面二分搜索树满足红黑的性质,我们知道2-3树不是二叉树,我们把它转换成一颗二叉树,2-节点很好转,3-节点转二叉却有两种,如下图: ? (和2-3树等价的,任意节点到其叶子节点的高度都是相同的)。 因为2-3树不存在永久的4-节点,4-节点终归要分解的(在2-3-4树中,为了更好地插入和删除,4-节点可存在于叶子节点和非叶子节点)2-3树一样不行,所以在2-3树中没有任何一个节点能同时和两条红链接相连
M/2的结点;删除结点时,需将两个不足M/2的兄弟结点合并; B+树 B+树是B-树的变体,也是一种多路搜索树: 1.其定义基本与B-树同,除了: 2.非叶子结点的子树指针与关键字个数相同 B+的搜索与B-树也基本相同,区别是B+树只有达到叶子结点才命中(B-树可以在 非叶子结点命中),其性能也等价于在关键字全集做一次二分查找; B+的特性: 1.所有关键字都出现在叶子结点的链表中 是B+树的变体,在B+树的非根和非叶子结点再增加指向兄弟的指针; ? B*树定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替B+树的1/2); B+树的分裂: 当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点 ; 所有关键字在整颗树中出现,且只出现一次,非叶子结点可以命中; B+树:在B-树基础上,为叶子结点增加链表指针,所有关键字都在叶子结点中出现,非叶子结点作为叶子结点的索引;B+树总是到叶子结点才命中
具体区别1、叶子节点B树不存指针,B+树存双向指针,方便范围查找2、B树非叶子节点也存储数据,B+树不存储数据3、B树不会有冗余索引,是唯一的,B+树会有冗余索引4、存放同样的数据,B树的层级比B+树要高 ,因为B+树有冗余索引,所以相同层级的叶子节点的数据就会更多,(可以有更多的分叉)索引:如果存在主键,主键索引就是聚集索引如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引。
定义 参考百度百科及wiki百科定义:B +树是一个N叉排序树,每个节点通常有多个孩子,一棵B+树包含根节点、内部节点和叶子节点。 B+ 树主要价值在于存储用于在面向块的存储环境中高效检索的数据,通常用于数据库和操作系统的文件系统中。B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。 B+ 树元素自底向上插入。 另外说明的一点,B+中的B并不是代表二叉(Binary),而是代表平衡(Balance)。 对于m阶B+树,m的值越大,固定高度的B+树存放的值就越多。 而B+树内部结点只需要1个盘块。当需要把内部结点读入内存中的时候,B 树就比B+树多一次盘块查找时间(在磁盘中就是盘片旋转寻道的时间)。
常见多叉树: (1). 2-3树: 第二层左边的节点,有两个元素,7和5,它又有3个子节点,这就叫做2-3树,其中节点7 5称为3节点,节点9称为2节点。 ? 2-3树 2-3树是最简单的B树,它有以下特点: 首先它也要满足排序树的特点,即左子节点都比父节点小,右子节点都比父节点大,如果3节点,那么中间那个元素要介于左节点和右节点之间,即6是介于4和11之间的 B+树: B+树是B树的变体,和B树的区别就是,B+树所有数据都存放在叶子节点。 B+树所有的数据都存放在叶子节点的链表中,且链表中的数据也是有序的; 非叶子节点中存放的是索引,而不是要操作的数据,每个非叶子节点都会存放叶子节点的索引,也叫稀疏索引; B+树要进行搜素时,从根节点开始 B+树一般用于文件系统; 6. B*树: B*树又是B+树的变体,就是在B+树的基础上,在非根非叶子节点之间增加了指向兄弟节点的指针。
上图就是一棵B+树,每个部分有3个主要概念:物理磁盘块、数据项(蓝色)、指针(红色) 如磁盘块1,包含数据项 17、35,包含指针 P1、P2、P3,P1指向小于17的磁盘块,P2指向在17和35之间的磁盘块 真实的数据存于叶子节点中,即 3、5、9、10、13、15、28、29、36、60、75、79、90、99 非叶子节点中并不存放真实数据项,只存放指引搜索方向的数据项,如 17、35 并不真实存在于数据表中 B+ 树查找过程 如果要查找数据项29 1. 内存中做二分查找找到29,结束查询 总计三次IO,即可找到目标数据项 3层的B+树可以表示上百万的数据,对查询性能的提高是巨大的
阶数与节点容量B+树的阶数m决定了节点的子节点数量和键值容量,通常与磁盘页大小对齐以优化I/O 非根节点:键值数范围:⌈m/2⌉−1≤k≤m−1⌈m/2⌉−1≤k≤m−1(如3阶B+树,非根节点最多2个键值 与B树的区别B+树在以下方面区别于B树 数据存储位置:B树内部节点存数据,B+树仅叶子节点存数据。链表结构:B+树叶子节点通过链表连接,B树无此设计。 查询稳定性:B+树查询必须到叶子节点,路径固定;B树可能在内部节点提前终止查询。5. 一棵B+树可以存放多少行数据? B-Tree,叶子节点和非叶子节点都保存数据,相同的数据量,B+树更矮壮,也是就说,相同的数据量,B+树数据结构,查询磁盘的次数会更少。