W-TinyLFU淘汰算法

添码座原创大约 5 分钟

淘汰算法

相对于动辄按TB计的硬盘来说，内存要小得多，而且贵得多，所以不能把所有的数据全都放到内存，而只能够在内存中临时保存更加有价值的数据。

查询一个数据，如果这个数据刚好在内存的缓存里，就称之为缓存命中。因此，缓存命中率就是衡量一个缓存好坏的重要指标。

因为内存装不下那么多的数据，而且有些数据过段时间可能就没用了，所以需要定期清理，淘汰掉一些没用的或过期的数据，这就是缓存淘汰算法。

常见的淘汰算法包括如下几种。

因此，LFU两个很明显的缺点。

TinyLFU利用Count-Min Sketch算法维护近期访问数据的频率信息，可以在具有较大访问量的场景下近似的替代LFU的数据统计部分，其原理有些类似Bloom Filter（布隆过滤器）。

Bloom Filter是一种空间利用效率很高的随机数据结构，它能用bit数组很简洁地表示一个集合。

比如针对key的Hash计算结果会映射到下面的bit数组中。

TinyLFU仍然有LFU的第二个问题：如果访问频率突变，会造成缓存命中率的急剧下降。

例如，微博热点事件，某些词当天被搜索10W次，但是热度过去了，可能就再也不会出现了，然而相关数据却依然还在缓存中没被清理。

W-TinyLFU正是为了解决这类数据过期问题而诞生，它由两部分组成。

窗口缓存Window Cache使用没有任何回收策略的LRU，占总缓存大小的1%，用于存储新到来的数据，主要为应对短期流量突发的访问场景。
主缓存Main Cache使用分段SLRU + TinyLFU，占总缓存大小的99%。
其中SLRU又被分为两个区。
- Probation区，用于存储比较冷门的数据，占用主缓存20%空间。
- Protected区，用于存储比较热门的数据，占用主缓存80%空间。
新添加的数据首先放入窗口缓存Window Cache（LRU）中，同时由TinyLFU完成计数。
如果Window Cache满了，就把Window Cache淘汰的数据转移到主缓存Probation区中。
如果Probation区还未满，并且其中的数据在后续操作中再次被访问时，那么该条数据会进入Protected区。
如果Probation区也满了，就比较从窗口缓存Window Cache转移过来的数据（候选者）和Probation要淘汰的数据（受害者）。
- 首先获取TinyLFU中记录的候选人和受害者的频率。
- 如果候选者频率 > 受害者频率，则淘汰受害者。
- 如果候选者频率 <= 5，则淘汰候选者。
- 其余情况随机处理。
如果Protected区也满了，那么会按照LRU策略将数据驱逐到Probation区

其实W-TinyLFU算法的淘汰过程和JVM GC过程非常像。

在区域划分上
- Window Cache对应S0和S1。
- Probation区对应Eden区。
- Protected区对应老年代。
在数据淘汰流程上
- 先进入Window Cache（S0和S1）。
- 再进入Probation区（Eden区）或从Probation区淘汰。
- 再进入Protected区（老年代）或从Protected区淘汰。

感谢支持

更多内容，请移步《超级个体》。