[TcaplusDB知识库]TcaplusDB的存储分配策略图解

2021年3月12日 15:07:28枫少@KillBoy

枫少@KillBoy

管理员

关注

228
文章

0
粉丝

资源分享326,903字数 877阅读2分55秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

前言

保存数据的方法多种多样，最直接的方法是在内存中建一个数据结构，保存数据。比如用一个List，每当收到一条数据就向List中追加一条记录。

这个方案非常简单，性能良好，但问题是数据存放在内存中，一旦服务器停机或重启，数据就会永久丢失。

为了解决数据丢失问题，可以把数据持久化存放在非易失存储介质（比如硬盘）中。可以使用磁盘的文件，每当收到一条数据就向文件中 Append 一行。这是一个持久化存储数据的解决方案，但如果磁盘损坏呢？ RAID是一个单机冗余存储方案，那如果主机损坏呢？

网络存储是一个解决方案，通过软件层进行存储副本的复制。似乎我们可以解决数据安全问题，但是做存储副本复制过程中是否能保证副本之间的一致性？

TcaplusDB的开发人员考虑到了这些存储问题，在本期的知识库中，TcaplusDB君将介绍TcaplusDB的存储分配策略，关于数据的读写逻辑我们将会在下期的知识库中进行介绍。

存储空间分配的基本策略

TcaplusDB优先使用数据文件的前1G的空间。原因是存储引擎启动时，会将数据文件的前1G空间通过mmap映射到内存中，访问效率较高，而剩余的空间中数据是直接对接文件IO的方式访问的；
数据的Key比数据的Value更有权利优先使用前1G的空间。原因是通常情况下Key的访问频率要比Value高。当前1G空间中原先分配给Key使用的空闲块不足时，会将前1G空间中原先分配给Value使用的空闲块挪给Key使用；
所有数据的Key尽量存放在一起。这是因为我们有很多Key遍历的场景（比如数据迁移），Key放在一起，可以一定程度上加快遍历的过程，减少磁盘IO；
空闲块的查找策略为Best-Fit，即找满足需求的最小空闲块，目的是为了尽可能的让数据存在同一块中，避免数据的Split。

存储空间的详细分配过程参见下图（下图拆分成了两个部分，两幅图通过虚线框的”尝试从文件空间分配“节点联系在一起）：

存储空间详细分配过程图

从文件空间中分配图

策略设计的考虑

存储引擎根据空间分配策略，会先分配数据Value的存储空间，写入数据Value部分后，再分配数据Key的存储空间，并写入数据Key部分。之所以是这样的顺序，有两方面的原因：

数据Key的头部需要记录它所指向的Value的存储地址，需要先分配Value的存储空间，得到Value的存储地址头，再写Key；
数据访问入口是Key，按照这个顺序，Key写成功，我们也基本可以认为Value也是写成功了，可以减少数据不一致的情况。

最后

我们已经了解了 TcaplusDB 的存储分配策略，后续我们将揭开更多TcaplusDB设计的特殊奥秘。

https://www.freebuf.com/sectool/265699.html

使用yarGen提取Linux恶意脚本特征

资源分享 10,186 06/27

Frida-Fuzzer：一款针对API的内存模糊测试框架

资源分享 12,294 06/12

泛微OA系统多版本存在命令执行漏洞-POC

渗透测试 17,283 09/23 2

浅谈信息收集

资源分享 9,589 03/28

评论 32 访客 32

冬至灯暖 0
2026年1月7日 11:13:11 浙江省 1F
回复

这策略挺靠谱的。
墨绿幽影 1
2026年1月7日 18:13:44 广东省广州市 2F
回复

感觉还行。
- 梅雪吟 0
  2026年1月7日 11:13:37 广东省东莞市 B1
  回复
  
  @ 墨绿幽影还行的话，后面如果有更多细节会更有价值。
无尽长廊 1
2026年1月7日 18:37:21 江苏省常州市 3F
回复

前1G空间满了会自动切到后面的文件吗？这会不会影响写入性能？
Rain小雨滴 1
2026年1月7日 19:46:29 河南省郑州市 4F
回复

我之前在用别家DB，Key分散导致遍历慢，这策略倒是省心。
暴躁的火山 1
2026年1月7日 20:14:42 重庆市 5F
回复

这图真是看得眼花。
- 会飞的袜子 1
  2026年1月7日 11:13:37 日本 B1
  回复
  
  @ 暴躁的火山图里层层判断确实密集，建议先抓关键路径再细看。
哗哗啦 1
2026年1月8日 20:26:17 北京市 6F
回复

Best-Fit的空闲块查找其实会产生碎片，建议定期做空间整理。
- 梦影交织 0
  2026年1月7日 11:13:37 印度尼西亚 B1
  回复
  
  @ 哗哗啦的确，定期整理能把碎片压平，保持命中率。
溯光者 0
2026年1月9日 19:32:26 浙江省 7F
回复

看完图后感觉作者把每一步都写得很细致，尤其是热点Key的处理，感觉像在玩高阶的资源调度游戏，真是让人想多了解下内部实现细节。
逆命剑 1
2026年1月10日 07:17:29 福建省宁德市 8F
回复

说的没错，Key优先也可能导致Value被挤压。
神秘的狼人 1
2026年1月10日 09:16:56 韩国 9F
回复

那如果Key特别大，是不是会直接走SSD路径？有没有对应的性能数据？
弹珠将军 1
2026年1月10日 20:08:34 印度 10F
回复

TcaplusDB真不错，👍。
荔枝妹妹 1
2026年1月12日 18:47:00 山东省淄博市 11F
回复

这个Key优先的思路挺实在的。
冷月清霜 0
2026年1月15日 00:07:20 上海市青浦区 12F
回复

前1G映射到内存，读写速度确实能提升不少，尤其是频繁查询的Key。
小 sunshine 0
2026年1月16日 19:06:16 日本 13F
回复

看到Best-Fit配合Key聚集的设计，感觉整体性能调优很到位，尤其是遍历时的IO减少，期待后面Value的处理细节。
烈焰射手 0
2026年1月19日 13:15:57 江西省九江市 14F
回复

其实空闲块也可以先合并再分配，减少碎片。
夜行妖 1
2026年1月21日 12:20:06 印度尼西亚 15F
回复

热点Key的判定阈值是多少？
赛博孢子 0
2026年1月22日 07:35:41 福建省厦门市 16F
回复

如果Key非常大，会不会直接走SSD，性能会不会下降？
琴师魏 1
2026年1月24日 13:55:16 内蒙古呼和浩特市 17F
回复

说碎片会严重，其实Best-Fit本身已经控制得不错。
沉睡的旅人 1
2026年1月25日 07:41:59 澳大利亚 18F
回复

之前用过某DB，遍历慢得要命，这种Key聚集真的提升不少。
爱做梦的烧卖 1
2026年1月25日 12:50:05 湖南省郴州市 19F
回复

Value先写这个顺序挺巧妙的。
超弦理论诗人 0
2026年1月25日 20:05:23 北京市 20F
回复

前段时间我们项目里碰到磁盘IO瓶颈，改用TcaplusDB后Key聚集让迁移速度提升了近两倍。
台步轻 2
2026年1月26日 16:50:05 越南 21F
回复

Best-Fit这个策略挺细的。
浣熊小浣 1
2026年1月27日 09:41:58 台湾省新竹市 22F
回复

图里那层层判断，眼睛都要跟着跑。
独行星 0
2026年1月27日 18:22:29 湖北省武汉市 23F
回复

看到热Key的处理，感觉像玩策略游戏。
清歌浅唱 1
2026年1月29日 14:40:09 北京市 24F
回复

Key优先放一起这思路有点意思。
- 灵息夜语 1
  2026年1月29日 15:01:29 广东省佛山市 B1
  回复
  
  @ 清歌浅唱是吧，感觉对提升性能挺关键的
猴子歌手 0
2026年1月29日 16:47:59 北京市 25F
回复

图里标的‘是否为热点Key’，好像在说：我就是那个被频繁访问的明星Key。
小猪咕咕 1
2026年2月3日 10:25:05 广东省汕头市 26F
回复

Key和Value分配顺序这个细节挺讲究的。
幻梦编织 1
2026年2月4日 21:50:23 湖北省武汉市 27F
回复

整体思路清晰。
铃兰微香 1
2026年2月6日 16:50:05 四川省内江市 28F
回复

Best-Fit这个策略选得挺巧的。

[TcaplusDB知识库]TcaplusDB的存储分配策略图解

前言

存储空间分配的基本策略

策略设计的考虑

最后

热门话题

历年同日文章

使用yarGen提取Linux恶意脚本特征

Frida-Fuzzer：一款针对API的内存模糊测试框架

泛微OA系统多版本存在命令执行漏洞-POC

浅谈信息收集

发表评论

热门搜索

前言

存储空间分配的基本策略

策略设计的考虑

最后

热门话题

历年同日文章

使用yarGen提取Linux恶意脚本特征

Frida-Fuzzer：一款针对API的内存模糊测试框架

泛微OA系统多版本存在命令执行漏洞-POC

浅谈信息收集

发表评论