这是小卷对分布式系统架构学习的第10篇文章,在开始学习分布式缓存之前,先来学习本地缓存的理论基础,了解为什么需要用缓存 1.引入缓存的影响 我们在开发时,用到缓存的情况,无非就是为了减少客户端对相同资源的重复请求 引入缓存后,既有好处也有坏处 引入缓存负面影响: 开发角度,增加了系统复杂度,需考虑缓存失效、更新、一致性问题 运维角度,缓存会掩盖一些缺陷问题 安全角度,缓存可能泄密某些保密数据 引入缓存的理由: 为了缓解 CPU压力,将实时计算运行结果存储起来,节省CPU压力 为了缓解I/O压力,将原本对网络、磁盘的访问改为对内存的访问 2.缓存的属性 选择缓存时,主要考虑吞吐量、命中率、扩展功能、分布式支持。 前3个这篇文章会讲,下一篇再讲分布式缓存 2.1吞吐量 并发场景下,每秒操作数OPS,反映了缓存的工作效率 如Java8并发包的ConcurrentHashMap,线程安全实现原理是CAS+synchronized 但是该类仅有缓存功能,没有命中率、淘汰策略、缓存统计等功能 并发场景下,不可避免的会有读写数据带来的状态竞争问题,当前有2种处理套路: 以Guava Cache为代表的同步处理机制:在访问缓存数据时,一并完成缓存淘汰
分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。 此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。 也可以是本地文件进行测试 env.registerCachedFile("/Users/wangzhiwu/WorkSpace/quickstart/text","a.txt"); 在用户函数中访问缓存文件或者目录 line : lines) { this.dataList.add(line); System.err.println("分布式缓存为 line : lines) { this.dataList.add(line); System.err.println("分布式缓存为
根据存储位置和应用场景的不同,缓存技术分为本地缓存和分布式缓存两种。本文将详细介绍这两种缓存技术,以及它们在性能和效率上的权衡。 三、分布式缓存 分布式缓存概述 分布式缓存是指将数据存储在多个分布式节点上,通过协同工作来提供高性能的数据访问服务。分布式缓存通常使用集群方式进行部署,利用多台服务器来分担数据存储和访问的压力。 分布式缓存的优势 (1)可扩展性强:分布式缓存的节点可以动态扩展,能够支持大规模的数据存储和访问需求。 (2)数据一致性高:通过分布式一致性协议,分布式缓存能够保证数据在多个节点之间的一致性,减少数据不一致的问题。 (3)易于维护:分布式缓存通常采用自动化管理方式,能够降低维护成本和管理的复杂性。 分布式缓存的不足 (1)访问速度相对较慢:相对于本地缓存,分布式缓存的访问速度相对较慢,因为数据需要从多个节点进行访问和协同。
;且缓存主要主机不能少于三台,微软的说法是少于为了缓存群集保持可用,大多数主 要主机必须保持可用。 仅正常的缓存主机操作。 false true SQL Server 执行群集管理角色。如果您将 leadHostManagement 设置更改为 true,则它是主要主机。 仅正常的缓存主机操作。 仅正常的缓存主机操作。 true true 主要主机执行群集管理角色。这是主要主机。 正常的缓存主机操作,并与其他主要主机一起管理群集。 缓存客户端安全设置 与缓存群集安全设置一样,缓存客户端可以使用 securityProperties 元素在应用程序配置文件中配置安全设置。 有关详细信息,请参阅应用程序配置设置(Windows Server AppFabric 缓存)。 缓存客户端和缓存群集使用启用连接的安全设置,这一点非常重要。
图片 这个问题很微妙,可能这位同学内心深处,觉得 Redis 是所有应用缓存的标配。 缓存的世界很广阔,对于应用系统来讲,我们经常将缓存划分为本地缓存和分布式缓存。 分布式缓存:和应用分离的缓存组件或服务,与本地应用隔离,多个应用可直接共享缓存。 1 缓存的本质 我们常常会讲:“加了缓存,我们的系统就会更快” 。 4 分布式缓存 分布式缓存是指将缓存数据分布在多台机器上,以提高缓存容量和并发读写能力的缓存系统。 分布式缓存通常由多台机器组成一个集群,每台机器上都运行着相同的缓存服务进程,缓存数据被均匀地分布在集群中的各个节点上。 2、复杂性 分布式缓存需要考虑序列化、数据分片、缓存大小等问题,相对于本地缓存而言更加复杂。 笔者曾经也认为无脑上缓存 ,系统就一定更快,但直到一次事故,对于分布式缓存的观念才彻底改变。
写缓冲 无处不在的缓存 操作系统缓存 CPU缓存 JVM缓存 数据库缓存 CDN缓存 反向代理缓存 前端缓存 应用程序缓存 分布式对象缓存 缓存本身的数据结构 tree hash 缓存命中率 缓存是否有效依赖于能多少次重用同一个缓存来响应业务请求 命中率是缓存的关键指标 如果查询一个缓存,十次查询九次能够得到正确结果,那么他的命中率就是90% 影响命中率的主要指标: 缓存键集合大小 读取缓存数据时通过缓存键进行精准匹配,缓存键越少,效率越高 可用内存空间 ,对象缓存是一种旁路缓存,旁路缓存通常是一个独立的键值对存储。 对象直接缓存在应用程序内存中 对象存储在共享内存,同一台机器的多个进程可访问 缓存服务作为独立应用和应用程序部署在同一个服务器上,通过localhost访问 分布式对象缓存 分布式寻址算法是分布式对象缓存的关键 当新增节点或某个节点故障时,会有大量key的缓存失效,给数据库带来压力。 一致性hash算法 解决分布式缓存集群扩容时数据访问不一致问题的算法,防止缓存雪崩。
代码下载:https://gitee.com/hong99/spring/issues/I1N1DF 背景 继上文《spring的缓存(cache)-本地》,本文实现集中式缓存(分布式); redis 地址:http://localhost:8082/user/findById/1 结果:发现已实现了分布式缓存,不会再去查库了,而是直接返回redis结果。 Successfully completed request 总结redis注解式 找了全网的资料发现极少涉及该通过redis注解式去实现,大部分都是手动的,当然注解式不管在单 机或者集群方式通过redis实现分布式事务非常便捷 redis在高可用、高并发、高性能基本都杠杠的,当然也引发缓存穿透、缓存击穿、缓存雪崩、热点数据等问题。 建议下载源码学习: 代码实现:https://gitee.com/hong99/spring/issues/I1N1DF 考虑文章长度所以:缓存穿透、缓存击穿、缓存雪崩、热点数据,放到下文。
但是在很长一段时间里,原生是不支持分布式的。后来就出现了很多redis集群类产品,Tair是其中胜出的优秀作品之一。 还有一个必要软设施:一致性哈希算法提供分布式的负载均衡计算。 ? client的作用 1. 在应用端提供访问Tair集群的接口 2.更新并缓存数据分布表和invalidserver 地址等 3. 本地缓存,避免过热数据访问影响Tair集群服务 4. 负载均衡,并行多个key进行计算合并结果(mget) Tair的使用场景 缓存 分布式锁 作为nosql数据库,提供简单类型存储(K/V存储,无复杂查询) Tair使用QA 1.Q:tair可以支持支持什么类型 3.Q:tair的分布式锁使用有什么最佳实践? A:分布式锁使用建议使用带有过期时间的分布式锁,过期时间可传一个绝对的时间戳。解锁时可传入一个非常大的整数,以解掉所有的锁。
RDB全称Redis Database Backup file(Redis**数据备份文件**),也被叫做**Redis数据快照**。简单来说就是把内存中的所有数据都**记录到磁盘**中。当Redis实例故障重启后,从磁盘读取快照文件,恢复数据。
分布式缓存设计 目前常见的缓存方案都是分层缓存,通常可以分为以下几层: NG 本地缓存,命中的话直接返回。 NG 没有命中时则需要查询分布式缓存,如 Redis 。 如果分布式缓存没有命中则需要回源到 Tomcat 在本地堆进行查询,命中之后异步写回 Redis 。 以上都没有命中那就只有从 DB 或者是数据源进行查询,并写回到 Redis 中。 可以有以下解决方案: 可以将多个 Tomcat 中的数据写入到 MQ 队列中,由消费者进行单线程更新缓存。 利用分布式锁,只有获取到锁进程才能写数据。 如何写缓存 写缓存时也要注意,通常来说分为以下几步: 开启事务。 写入 DB 。 提交事务。 写入缓存。 这里可能会存在数据库写入成功但是缓存写入失败的情况,但是也不建议将写入缓存加入到事务中。 更新缓存时也建议做增量更新。 负载策略 缓存负载策略一般有以下两种: 轮询机制。 一致哈希算法。 轮询的优点是负载到各个服务器的请求是均匀的,但是如果进行扩容则缓存命中率会下降。
但是在很长一段时间里,原生是不支持分布式的。后来就出现了很多redis集群类产品,Tair是其中胜出的优秀作品之一。 还有一个必要软设施:一致性哈希算法提供分布式的负载均衡计算。 ? client的作用 1. 在应用端提供访问Tair集群的接口 2.更新并缓存数据分布表和invalidserver 地址等 3. 本地缓存,避免过热数据访问影响Tair集群服务 4. 负载均衡,并行多个key进行计算合并结果(mget) Tair的使用场景 缓存 分布式锁 作为nosql数据库,提供简单类型存储(K/V存储,无复杂查询) Tair使用QA 1. Q:tair的分布式锁使用有什么最佳实践? A:分布式锁使用建议使用带有过期时间的分布式锁,过期时间可传一个绝对的时间戳。解锁时可传入一个非常大的整数,以解掉所有的锁。
1、memcached分布式简介 memcached虽然称为“分布式”缓存服务器,但服务器端并没有“分布式”功能。 (就简称为一致哈希分布式啦)。 服务器的总数 6 private $servers=array(); #存储memcache服务器的具体信息 7 /** 8 * @desc 构造函数 9 * 2、当需要扩容的时候,增加多台memcached服务器,那么原来已经缓存的数据大多数都不能够被命中,即数据无用。 3、一致哈希算法方式 何为一致哈希算法方式分布式呢? 相反它的优点就非常显著,通过虚拟节点的方式实现,可以使不可控的存储节点能够尽可能的均匀分布在圆环上,从而达到数据均匀缓存在各个主机里。其次增加与删除虚拟节点对于之前缓存的整体数据影响非常小。
一 分布式缓存特性 1) 高性能:当传统数据库面临大规模数据访问时,磁盘I/O 往往成为性能瓶颈,从而导致过高的响应延迟.分布式缓存将高速内存作为数据对象的存储介质,数据以key/value 形式存储, ; 4) 并行处理.通常涉及大量中间计算结果需要共享; 5) 事件处理.分布式缓存提供了针对事件流的连续查询(continuous query)处理技术,满足实时性需求; 6) 极限事务处理.分布式缓存为事务型应用提供高吞吐率 三 缓存的分类 1) 本机缓存:数据存储在应用代码所在内存空间.优点是可以提供快速的数据访问;缺点是数据无法分布式共享,无容错处理 2) 分布式缓存系统:数据在固定数目的集群节点间分布存储.优点是缓存容量静态扩展 4) 弹性分布式缓存应用平台:弹性应用平台代表了云环境下分布式缓存系统未来的发展方向.简单地讲,弹性应用平台是弹性缓存与代码执行的组合体,将业务逻辑代码转移到数据所在节点执行,可以极大地降低数据传输开销 ,提升系统性能 也就是本地-分布式缓存中间件-动态分布式缓存中间件-在本机实现动态分布式缓存中间件
前言 目前工作中用到的分布式缓存技术有redis和memcached两种,缓存的目的是为了在高并发系统中有效降低DB的压力,但是在使用的时候可能会因为缓存结构设计不当造成一些问题,这里会把可能遇到的坑整理出来 主从同步延时导致的一致性问题 这种情况要稍微修改下程序的流程图,多出一个从库: 图7 现在读操作走从库,这个时候如果在主库写操作删除缓存后,由于主从同步有可能稍微慢于回源流程触发,回源时读取从库仍然会读到老数据 缓存穿透 1. 什么是缓存穿透? 缓存击穿 1. 什么是缓存击穿? 缓存击穿是指在一个key失效后,大量请求打进回源方法,多线程并发回源的问题。 回源方法内追加分布式锁:这个可以完全避免上面多实例下并发回源的情况,但是缺点也很明显,那就是又引入了一个新的服务,这意味着发生异常的风险会加大。 九. 缓存雪崩 1. 什么是缓存雪崩?
分布式缓存:与应用分离的缓存组件,可以认为是独立的服务,和应用分开,多个应用之间可以共享,但是会存在网络请求。 5 分布式缓存设计可能需要考虑的几个问题站在巨人(Redis)的肩膀上, 我们可以学到很多优秀的设计、理念,设计一个功能比较全面的分布式缓存,到底需要考虑哪些问题? 6 使用分布式缓存可能会遇到的几个问题6.1 1、一致性问题如何保证缓存和数据库的一致性问题,是一个比较大的话题,我们除了保证数据库和缓存一致,分布式缓存的 master 和 slave 也需要保持一致 缓存的过期时间除非比较严格,要不考虑设置一个波动随机值,比如理论十分钟,那这类key的缓存时间都加上一个1~3分钟,过期时间在7~13分钟内波动,有效防止都在同一个时间点上大量过期。 bigkeys 仅能分析并输入六种数据类型(STRING、LIST、HASH、SET、ZSET、STREAM), 命令示例为 redis-cli -h 127.0.0.1 -p 6379 --bigkeys7
score进行排序就可以得到坐标附近的其它元素,通过将score还原成坐标值就可以得到元素的原始坐标 HyperLogLog:统计不重复数据,用于大数据基数统计 Streams:内存版的kafka 数据库实现分布式锁的问题及解决方案 不可重入,如果加锁的方法需要递归,则第二次插入会失败,可以使用记录线程标识解决重入问题 死锁,删除锁失败、则其他线程没办法获取锁,可以设置超时时间、使用定时任务检查 数据库单点故障,数据库高可用 Redis分布式锁实现 异步复制可能造成锁丢失,使用redLock解决 顺序向五个节点请求加锁 根据一定的超时时间来推断是不是跳过该节点 三个节点加锁成功并且花费时间小于锁的有效期 认定加锁成功 往期精彩系列推荐 对线面试官系列 分布式基础概念系列
score进行排序就可以得到坐标附近的其它元素,通过将score还原成坐标值就可以得到元素的原始坐标HyperLogLog:统计不重复数据,用于大数据基数统计Streams:内存版的kafka数据库实现分布式锁的问题及解决方案利用唯一约束键存储 直到获取锁不可重入,如果加锁的方法需要递归,则第二次插入会失败,可以使用记录线程标识解决重入问题死锁,删除锁失败、则其他线程没办法获取锁,可以设置超时时间、使用定时任务检查数据库单点故障,数据库高可用Redis分布式锁实现 ,计数)异步复制可能造成锁丢失,使用redLock解决顺序向五个节点请求加锁根据一定的超时时间来推断是不是跳过该节点三个节点加锁成功并且花费时间小于锁的有效期认定加锁成功往期精彩系列推荐对线面试官系列分布式基础概念系列我正在参与
分布式缓存寻址算法 hash算法: 根据key进行hash函数运算、结果对分片数取模,确定分片适合固定分片数的场景。 哨兵用于实现redis集群的高可用,本身也是分布式的,作为一个哨兵集群去运行,互相协同工作。 故障转移时,判断一个master node是否宕机了,需要大部分的哨兵都同意才行,涉及到了分布式选举 即使部分哨兵节点挂掉了,哨兵集群还是能正常工作的 哨兵通常需要3个实例,来保证自己的健壮性。 Javaredis客户端驱动jedis,支持Redis Sharding功能,即ShardedJedis以及结合缓存池的ShardedJedisPool 优点: 优势在于非常简单,服务端的Redis实例彼此独立 连接不能共享,当应用规模增大时,资源浪费制约优化 也可参考对线面试官系列文章: 对线面试官 Redis | 十 Redis集群模式 往期精彩内容推荐 分布式基础概念系列 对线面试官系列
分布式缓存寻址算法hash算法:根据key进行hash函数运算、结果对分片数取模,确定分片适合固定分片数的场景。 哨兵用于实现redis集群的高可用,本身也是分布式的,作为一个哨兵集群去运行,互相协同工作。 故障转移时,判断一个master node是否宕机了,需要大部分的哨兵都同意才行,涉及到了分布式选举即使部分哨兵节点挂掉了,哨兵集群还是能正常工作的哨兵通常需要3个实例,来保证自己的健壮性。 能力客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可高性能,客户端直连redis服务,免去了proxy代理的损耗缺点运维也很复杂,数据迁移需要人工干预只能使用0号数据库不支持批量操作(pipeline管道操作)分布式逻辑和存储模块耦合等 Javaredis客户端驱动jedis,支持Redis Sharding功能,即ShardedJedis以及结合缓存池的ShardedJedisPool优点:优势在于非常简单,服务端的Redis实例彼此独立
如何避免缓存穿透、缓存击穿、缓存雪崩?缓存雪崩是指缓存同一时间大面积的失效,所以,后面的请求都会落到数据库上,造成数据库短时间内承受大量请求而崩掉。 缓存雪崩解决方案:缓存数据的过期时间设置随机,防止同一时间大量数据过期现象发生。给每一个缓存数据增加相应的缓存标记,记录缓存是否失效,如果缓存标记失效,则更新数据缓存。 和缓存雪崩不同的是,缓存击穿指并发查同一条数据,缓存雪崩是不同数据都过期了,很多数据都查不到从而查数据库。缓存击穿解决方案设置热点数据永远不过期。加互斥锁分布式系统中常用的缓存方案有哪些? 客户端缓存:页面和浏览器缓存,APP缓存,H5缓存,localStorage和sessionStorageCDN缓存:内容存储:数据的缓存,内容分发:负载均衡nginx缓存:静态资源服务端缓存:本地缓存 ,外部缓存数据库缓存:持久层缓存(mybatis,hibernate多级缓存),mysql查询缓存操作系统缓存:Page Cache、Buffer Cache如何保证数据库与缓存的一致性?