高并发场景下,保证缓存和数据库的数据一致性:Cache-Aside意为旁路缓存模式,是应用较为广泛的一种缓存策略。在读请求中,首先请求缓存,若缓存命中(cache hit),则直接返回缓存中的数据。
Cache-Aside
Cache-Aside意为旁路缓存模式,是应用较为广泛的一种缓存策略。在读请求中,首先请求缓存,若缓存命中(cache hit),则直接返回缓存中的数据;若缓存未命中(cache miss),则查询数据库并将查询结果更新至缓存,然后返回查询出的数据(demand-filled look-aside)。在写请求中,先更新数据库,再删除缓存(write-invalidate)。
为什么删除缓存,而不是更新缓存?
在Cache-Aside中,对于读请求的处理比较容易理解,但在写请求中,可能会有读者提出疑问,为什么要删除缓存,而不是更新缓存?站在符合直觉的角度来看,更新缓存是一个容易被理解的方案,但站在性能和安全的角度,更新缓存则可能会导致一些不好的后果。
首先是性能,当该缓存对应的结果需要消耗大量的计算过程才能得到时,比如需要访问多张数据库表并联合计算,那么在写操作中更新缓存的动作将会是一笔不小的开销。同时,当写操作较多时,可能也会存在刚更新的缓存还没有被读取到,又再次被更新的情况(这常被称为缓存扰动),显然,这样的更新是白白消耗机器性能的,会导致缓存利用率不高。而等到读请求未命中缓存时再去更新,也符合懒加载的思路,需要时再进行计算。删除缓存的操作不仅是幂等的,可以在发生异常时重试,而且写-删除和读-更新在语义上更加对称。
其次是安全,在并发场景下,在写请求中更新缓存可能会引发数据的不一致问题。参考下面的图示,若存在两个来自不同线程的写请求,首先来自线程1的写请求更新了数据库(step1),接着来自线程2的写请求再次更新了数据库(step3),但由于网络延迟等原因,线程1可能会晚于线程2更新缓存(step4晚于step3),那么这样便会导致最终写入数据库的结果是来自线程2的新值,写入缓存的结果是来自线程1的旧值,即缓存落后于数据库,此时再有读请求命中缓存(step5),读取到的便是旧值。
为什么先更新数据库,而不是先删除缓存?
另外,有读者也会对更新数据库和删除缓存的时序产生疑问,那么为什么不先删除缓存,再更新数据库呢?在单线程下,这种方案看似具有一定合理性,这种合理性体现在删除缓存成功,但更新数据库失败的场景下,尽管缓存被删除了,下次读操作时,仍能将正确的数据写回缓存,相对于Cache-Aside中更新数据库成功,删除缓存失败的场景来说,先删除缓存的方案似乎更合理一些。那么,先删除缓存有什么问题呢?
问题仍然出现在并发场景下,首先来自线程1的写请求删除了缓存(step1),接着来自线程2的读请求由于缓存的删除导致缓存未命中,根据Cache-Aside模式,线程2继而查询数据库(step2),但由于写请求通常慢于读请求,线程1更新数据库的操作可能会晚于线程2查询数据库后更新缓存的操作(step4晚于step3),那么这样便会导致最终写入缓存的结果是来自线程2中查询到的旧值,而写入数据库的结果是来自线程1的新值,即缓存落后于数据库,此时再有读请求命中缓存(step5),读取到的便是旧值。
另外,先删除缓存,由于缓存中数据缺失,加剧数据库的请求压力,可能会增大缓存击穿出现的概率。
如果选择先删除缓存,再更新数据库,那如何解决一致性问题呢?
为了避免“先删除缓存,再更新数据库”这一方案在读写并发时可能带来的缓存脏数据,业界又提出了延时双删的策略,即在更新数据库之后,延迟一段时间再次删除缓存,为了保证第二次删除缓存的时间点在读请求更新缓存之后,这个延迟时间的经验值通常应稍大于业务中读请求的耗时。延迟的实现可以在代码中sleep或采用延迟队列。显而易见的是,无论这个值如何预估,都很难和读请求的完成时间点准确衔接,这也是延时双删被诟病的主要原因。
那么Cache-Aside存在数据不一致的可能吗?
在Cache-Aside中,也存在数据不一致的可能性。在下面的读写并发场景下,首先来自线程1的读请求在未命中缓存的情况下查询数据库(step1),接着来自线程2的写请求更新数据库(step2),但由于一些极端原因,线程1中读请求的更新缓存操作晚于线程2中写请求的删除缓存的操作(step4晚于step3),那么这样便会导致最终写入缓存中的是来自线程1的旧值,而写入数据库中的是来自线程2的新值,即缓存落后于数据库,此时再有读请求命中缓存(step5),读取到的便是旧值。
这种场景的出现,不仅需要缓存失效且读写并发执行,而且还需要读请求查询数据库的执行早于写请求更新数据库,同时读请求的执行完成晚于写请求。足以见得,这种不一致场景产生的条件非常严格,在实际的生产中出现的可能性较小。
除此之外,在并发环境下,Cache-Aside中也存在读请求命中缓存的时间点在写请求更新数据库之后,删除缓存之前,这样也会导致读请求查询到的缓存落后于数据库的情况。
虽然在下一次读请求中,缓存会被更新,但如果业务层面对这种情况的容忍度较低,那么可以采用加锁在写请求中保证“更新数据库&删除缓存”的串行执行为原子性操作(同理也可对读请求中缓存的更新加锁)。加锁势必会导致吞吐量的下降,故采取加锁的方案应该对性能的损耗有所预期。
延伸阅读:
数据传输服务(Data Transmission Service,简称DTS)是云服务商提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间进行数据交互的数据流服务。DTS提供了包括数据迁移、数据订阅、数据同步等在内的多种数据传输能力,常用于不停服数据迁移、数据异地灾备、异地多活(单元化)、跨境数据同步、实时数据仓库、查询报表分流、缓存更新、异步消息通知等多种业务应用场景。
最后建议,企业在引入信息化系统初期,切记要合理有效地运用好工具,这样一来不仅可以让公司业务高效地运行,还能最大程度保证团队目标的达成。同时还能大幅缩短系统开发和部署的时间成本。特别是有特定需求功能需要定制化的企业,可以采用我们公司自研的企业级低代码平台:织信Informat。 织信平台基于数据模型优先的设计理念,提供大量标准化的组件,内置AI助手、组件设计器、自动化(图形化编程)、脚本、工作流引擎(BPMN2.0)、自定义API、表单设计器、权限、仪表盘等功能,能帮助企业构建高度复杂核心的数字化系统。如ERP、MES、CRM、PLM、SCM、WMS、项目管理、流程管理等多个应用场景,全面助力企业落地国产化/信息化/数字化转型战略目标。 版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们微信:Informat_5 处理,核实后本网站将在24小时内删除。版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系邮箱:hopper@cornerstone365.cn 处理,核实后本网站将在24小时内删除。