[TcaplusDB知识库]TXHDB存储引擎的介绍

2021年3月8日 15:06:37枫少@KillBoy

枫少@KillBoy

管理员

关注

229
文章

0
粉丝

资源分享556,633字数 1656阅读5分31秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

存储引擎的介绍

数据库存储引擎是数据库底层软件组织，数据库管理系统（DBMS）通过数据引擎，对数据进行创建、查询、修改和删除的操作。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能，使用不同的存储引擎，还可以获得数据库特定的功能。

作为数据库的支撑底盘，一个成熟的存储引擎必须要考虑各个方面，包括数据读写的效率，包括如何成本最低风险最小地运作，而TcaplusDB在考虑了以上这些因素后，结合我们是一个键值型数据库的特点，我们选择了腾讯完全自研的TXHDB存储引擎来落地TcaplusDB的数据。下面介绍一下TXHDB存储引擎的格式和优势所在。

存储引擎格式

TcaplusDB的数据文件大致可以分为3个区，头部区、内存映射区和文件访问区，见下图。其中内存映射区和文件访问区是用于存放真实数据的。

其中：

头部区，用于存放元数据、统计数据、Hash桶、空闲块链表头，扩展数据等信息。
内存映射区，这部分空间会在数据文件加载时，通过mmap的方式映射到内存地址空间中，使用读写内存的方式读写该区域，间接地达到缓存在内存中的效果。该区域位于数据文件的前部，默认大小为1G。
文件访问区，紧接着内存映射区后面就是所谓的文件访问区，该区域的数据读写通过普通的文件读写接口进行。

更详细的格式内容如下：

整个文件分为头部控制信息区和数据区域；

数据文件打开时，从文件最开始建立文件映射对象，对于写操作，至少将控制头部区域放入内存映射范围；

Key-value数据记录通过hash表进行组织，hash冲突解决策略有二叉平衡树和线性链两种，通过引擎文件创建时通过参数可以决定使用哪种冲突解决策略；二叉树平衡树通过对key计算另外一个hash值（称为二次hash）建立；

数据在mmap区域外时，对数据的访问通过基于文件起始位置的偏移，使用pread/pwrite来访问。

头部控制区域分为以下几个部分：

基本控制信息区：包含magic、版本信息、文件类型、记录对齐参数、空闲块参数、压缩属性、桶数、记录数、文件大小、首条记录位置、桶信息、空闲块信息等。
Hash桶信息区：存储hash每个桶首条记录的存储偏移；
内存空闲链表头：此文件中处于mmap区域范围内的空闲数据块链表表头；
文件空闲块表头：mmap区域外空闲数据块链表的表头；
LRU信息区域：跟踪mmap区域数据记录访问情况的LRU链；
扩展区域：对txhdb透明存储区域，tcapsvr通过此区域存储数据表描述信息；

空闲块管理

数据记录的大小不一，数据记录在存储过程中，大小改变或删除会导致文件中出现一些空闲块，为减少大小不一空闲块的整理利用的开销。TXHDB采用块空间来存储数据记录，块空间通过一个apow的参数设定其对齐方式，即通过apow定义数据块的最少大小；整个存储块由按照最小对齐单元进行逐层线性增长的块数组组成，数据块的级数通过fpow参数决定，如果apow为8，fpow为10，则空闲数据块起示意图如下：

实际数据key或value通过某一级别的一个或多个空闲块来存储，空闲块分配原则：

优先使用内存空闲块，然后使用文件块
基于内存优先使用连续块，然后使用离散块
基于文件只能使用连续块

如果记录均为小记录，那么整个文件可能会存在过多的离散记录，可以通过数据搬迁整理的方式定期对数据做整理。

Key Value分离

基于HASH表存储数据记录，每个数据的读写都必须访问数据的Key，TXHDB采用Key-value分离的思路，优化数据检索效率，具体如下：

将Key和Value分离存储，分别存储到Key结点和Value结点，Hash值映射到Key结点，Key结点再映射到Value结点。Key结点优先存储在内存中，Value结点有可能存储在内存中也有可能存储在磁盘中。

具体说明如下：

一条记录的key，可能有多个块组成，一个Head块，多个split块，每一个块中记录下一个块的offset. 同时key head块中记录的有value头块的offset。
一条记录的val，也可能有多个块组成，一个head块，多个spl块，val的offset，记录再key的head中。
通过将key的offset记录在hash桶中，冲突的记录，offset记录在keyHead的left和right中以实现链表或二叉树。
线上业务通常width_等于32，即4B。则 keyHead默认最小块为64B（apow的取值最小为6，2**6=64B），其中引擎自有信息需要占用32B – 33B，业务可用为31B到32B, 业务据此可设计更有效的key，使key占用的块尽可能少。

多级LRU链进行数据热度管理

为记录数据的访问热点，对mmap区域内的数据建立多级LRU链来跟踪，LRU链的级数通过参数可以定制，采用多级LRU而非一级LRU链主要是淘汰时除考虑最近访问时间外，还评估最近访问次数。

多级LRU，综合考虑最近访问时间和访问次数
读写访问时增加访问计数，定位扫描时减访问次数
优先淘汰访问次数为1的LRU链中的记录
换出条件：剩余内存低于一定阀值
换入条件：剩余内存高于一定阀值

最后

我们已经了解了 TcaplusDB 个分布式的 NoSql数据库搜素引擎的基本结构，后续我们将揭开更多TcaplusDB设计的特殊奥秘。

https://www.freebuf.com/sectool/264838.html

虚空涟漪 1
2026年1月7日 11:22:24 日本 1F
回复

这引擎设计得还挺细的，key-value分离确实能提速吧？
- 浪里小白龙 1
  2026年1月18日 09:31:47 印度 B1
  回复
  
  @ 虚空涟漪分离存储肯定能减少读放大，提速是有的。
ScalesAndScribbles 1
2026年1月7日 11:23:19 台湾省 2F
回复

这种设计对SSD友好吗？
极光守望者 1
2026年1月7日 11:23:19 北京市 3F
回复

二叉平衡树在数据量大的时候会不会成为瓶颈？
玄墨华章 1
2026年1月7日 11:23:19 印度 4F
回复

内存空闲块和文件块优先级策略在实际场景中效果如何？
醉梦舟 0
2026年1月7日 11:23:19 菲律宾 5F
回复

压缩属性支持哪些算法？
渔夫舟子 0
2026年1月7日 11:23:19 韩国 6F
回复

默认1G的mmap区域能根据负载动态调整吗？
月落寒窗 0
2026年1月7日 11:23:19 浙江省 7F
回复

apow和fpow参数推荐配置是多少？
清晨的小确幸 0
2026年1月7日 11:23:19 美国 8F
回复

key压缩空间能省多少内存？
程序员不熬夜 1
2026年1月7日 11:23:19 河南省平顶山市 9F
回复

这种架构适合物联网时序数据场景吗？
FinsAndFables 1
2026年1月7日 11:23:19 上海市 10F
回复

空闲块链表维护开销大不大？
魍魉游荡 0
2026年1月7日 11:23:19 山东省东营市 11F
回复

LSM树索引空间和传统B+树比有什么优势？
断肠鸦 0
2026年1月7日 17:54:49 江苏省 12F
回复

fpow和apow参数调起来麻烦吗？线上调优有啥经验？
萌小喵 1
2026年1月7日 19:09:27 韩国 13F
回复

前几天刚搞完类似存储结构，空闲块管理真是个坑。
SableSage 2
2026年1月7日 20:35:16 北京市 14F
回复

内存映射区默认1G会不会太大了？小机器扛不住啊🤔
- 胡一刀 0
  2026年1月17日 12:20:32 新加坡 B1
  回复
  
  @ SableSage 默认1G是大了点，不过现在服务器内存都大，问题不大吧。
狂神无双 1
2026年1月7日 21:29:34 江西省南昌市 15F
回复

说白了还是为了高并发读写优化，腾讯这套自研挺硬核。
孤峰绝壁 0
2026年1月8日 15:03:06 北京市 16F
回复

hash冲突用二叉树还是链表，实际性能差多少？
矩阵观察者 0
2026年1月8日 15:15:07 印度 17F
回复

感觉一般，现在很多引擎都做key-value分离了。
红衣女 1
2026年1月9日 12:45:33 江苏省泰州市 18F
回复

mmap区域外的数据访问全靠pread/pwrite？IO压力不小吧
奶盖小熊崽 1
2026年1月10日 00:52:55 韩国 19F
回复

LRU多级淘汰逻辑看着合理，但实现复杂度估计不低。
- 苍梧谣 1
  2026年1月17日 23:11:57 北京市 B1
  回复
  
  @ 奶盖小熊崽多级肯定比单级复杂，但为了精准淘汰也值了。
Socialite Lite 0
2026年1月10日 11:21:16 日本 20F
回复

value可能在磁盘这点有点劝退，延迟怎么压？
咒语之瞳 1
2026年1月10日 14:43:22 山东省滨州市 21F
回复

这个mmap默认1G的设定，实际部署的时候能动态调吗？
LynxLuminary 0
2026年1月11日 07:44:35 陕西省延安市 22F
回复

哈希桶用二叉平衡树，查找效率应该比链表强不少。
烽火台望 0
2026年1月11日 21:45:50 日本 23F
回复

腾讯自研引擎稳定性咋样，有线上大规模使用的案例吗？
小莓蛋糕 0
2026年1月13日 10:37:58 中国 24F
回复

key头块才31B可用，业务设计key得好好抠长度了。
饼干熊 1
2026年1月14日 08:04:11 山东省临沂市 25F
回复

多级LRU听着比单纯LRU靠谱，热点数据能留住。
请叫我靓仔 0
2026年1月15日 09:48:51 澳大利亚 26F
回复

离散块多了就得整理，运维成本上来了。
云剑子 0
2026年1月15日 14:46:20 安徽省六安市 27F
回复

文件访问区用pread/pwrite，感觉像直接操作裸设备啊。
水滴石穿 0
2026年1月16日 12:34:58 江苏省泰州市 28F
回复

这种底层设计对普通开发者太远了，关心怎么用就好。
风车车 1
2026年1月16日 14:42:10 澳大利亚 29F
回复

空闲块管理那套参数看着就头大，调不好性能掉得厉害。
FujiBells 0
2026年1月16日 15:38:41 浙江省绍兴市 30F
回复

key-value分离是趋势，但实现得好不好还得看实测。
铸魂师 0
2026年1月18日 17:00:02 印度 31F
回复

这个mmap映射方式挺巧妙的，省了缓存管理的事儿。
郎中陈九 0
2026年1月20日 23:32:28 湖北省武汉市 32F
回复

key-value分离确实能提升检索效率，实测过吗？
幽默大师 1
2026年1月21日 00:11:53 重庆市 33F
回复

hash桶用二叉树处理冲突，比链表快多少有人测过？
金箍棒 0
2026年1月22日 09:07:39 浙江省 34F
回复

空闲块管理参数调优文档能分享下不？
龙影传说 1
2026年1月23日 21:15:59 印度 35F
回复

LRU多级链这个设计挺细，比单级靠谱多了。
旧时光书页 2
2026年1月26日 13:10:08 印度尼西亚 36F
回复

这存储引擎的设计思路挺清晰，适合键值数据库场景。
- 枫少@KillBoy
  2026年1月26日 13:16:28 宁夏银川市 B1
  回复
  
  @ 旧时光书页设计上确实考虑了键值场景的特性
终界旅者 0
2026年1月26日 14:10:26 中国 37F
回复

文件访问区用pread/pwrite，IO瓶颈怎么解决？
软萌小可爱 1
2026年1月27日 16:32:02 韩国 38F
回复

头部控制信息区字段也太多了，维护起来麻烦吧。
The Woodcarver 1
2026年1月29日 14:25:05 马来西亚 39F
回复

key-value分离这思路可以啊，效率应该能提不少。
- 苍蓝之海 1
  2026年1月29日 14:39:09 贵州省贵阳市 B1
  回复
  
  @ The Woodcarver 感觉读写会快不少
代码收割者 1
2026年1月30日 08:00:06 上海市 40F
回复

小机器部署的话1G内存映射区确实有点吃内存。
湮灭之影 1
2026年1月30日 21:15:57 安徽省合肥市 41F
回复

自研引擎稳定性如何？有生产环境数据吗？
霸气回锅 0
2026年1月31日 16:04:57 新西兰 42F
回复

离散块整理频率一般设置多少合适？
糯糯团 0
2026年2月1日 16:44:57 广东省深圳市 43F
回复

key头块只有31B可用，长key怎么处理？
量子先知 0
2026年2月2日 12:08:16 日本 44F
回复

value在磁盘时延迟能控制在什么水平？
天文观测者 0
2026年2月2日 17:13:49 印度尼西亚 45F
回复

这种底层优化对业务层透明吗？
BushyTailTales 0
2026年2月3日 00:22:45 日本 46F
回复

腾讯这套方案和RocksDB比优势在哪？
焦虑的雾 1
2026年2月3日 13:28:49 日本 47F
回复

多级LRU的阈值设置有什么讲究？
吴倩 1
2026年3月6日 12:55:06 日本 48F
回复

内存映射区默认1G是固定的吗？
PizzaTheHutt 1
2026年3月10日 14:30:04 广东省 49F
回复

Key-Value分离这思路挺巧妙
月光下的呢喃 1
2026年4月24日 20:30:05 河南省开封市 50F
回复

Key-value分离这思路确实蛮酷的

[TcaplusDB知识库]TXHDB存储引擎的介绍

存储引擎的介绍

存储引擎格式

空闲块管理

Key Value分离

多级LRU链进行数据热度管理

最后

热门话题

历年同日文章

Nginx 配置优化与性能调优指南

Lazydocker

泛微OA远程代码执行漏洞批量扫描脚本

2022年最佳开源软件出炉

发表评论

热门搜索

存储引擎的介绍

存储引擎格式

空闲块管理

Key Value分离

多级LRU链 进行数据热度管理

最后

热门话题

历年同日文章

Nginx 配置优化与性能调优指南

Lazydocker

泛微OA远程代码执行漏洞批量扫描脚本

2022年最佳开源软件出炉

发表评论

多级LRU链进行数据热度管理