首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >为什么大厂都在用 Rsync?一文揭秘其底层原理与高可用架构设计!

为什么大厂都在用 Rsync?一文揭秘其底层原理与高可用架构设计!

作者头像
民工哥
发布2026-03-24 13:39:55
发布2026-03-24 13:39:55
760
举报

特色专栏

MySQL/PostgreSQL/MongoDB

ElasticSearch/Hadoop/Redis

Kubernetes/Docker/DevOps

Kafka/RabbitMQ/Zookeeper

监控平台/应用与服务/集群管理

Nginx/Git/Tools/OpenStack

大家好,我是民工哥!

为什么大厂都在用 Rsync?一文揭秘其底层原理与高可用架构设计!

使用 rsync 复制大文件的一些误解
使用 rsync 复制大文件的一些误解

备份基本概述

什么是备份

备份就是把文件在复制一份存放到另一个位置(简单说就是给源文件增加一个副本)以防原始数据丢失或损坏。 备份可以确保在发生数据丢失的情况下,能够迅速恢复数据,降低损失。备份的方法有很多种,其中包括基于文件、快照、binlog日志、集群等。

  • 文件备份:属于最常见的备份方式,将一份文档存储在外部硬盘或网络驱动器上。这种备份方法适用于个人用户和小型企业,因为它简单易行。
  • 快照备份:快照备份是在某一特定时间点对数据的一种全面拷贝。快照备份通常使用增量技术,只备份自上次快照以来发生变化的数据,例如VMware的快照功能。
  • binlog日志备份:主要备份数据操作记录的过程,例如:数据库被Insert、update、然后不小心delete误删除了,可以将日志文件中的delete删除,然后重新回滚之前的操作恢复数据。
  • 集群方案:多个相同的节点,误删除一条节点的数据,并不影响,因为在其他的节点还有对应的数据;
为什么要做备份
  • 1、数据非常的重要
  • 2、避免数据不丢失
  • 3、便于快速的恢复
能不能不做备份

可以,对于不是特别重要的数据可以不考虑,例如临时文件、日志文件、缓存文件等。

1.4 备份应该怎么做

完全备份,(全备,效率低下、占用空间、浪费带宽)

增量备份,(增备,效率较高、节省空间、节省带宽)

实现备份的工具

备份通常使用什么工具

  • 本地备份:cp
  • 远程备份:scp、rsync

Rsync基本概述

什么是Rsync

rsync简称远程同步,可以实现不同主机之间的同步,同时支持增量和全量的备份。

  • rsync 官方地址:http://rsync.samba.org/
  • rsync 监听端口:873
  • rsync 运行模式:C/S
Rsync同步模式

推: 所有主机推送本地数据至Rsync备份服务器,会导致数据同步缓慢(适合少量数据备份)

拉: rsync备份服务端拉取所有主机上的数据,会导致备份服务器开销大

Rsync应用场景

大量服务器备份场景

异地备份场景

Rsync传输模式

Rsync 使用三种主要的数据传输方式

  • 本地方式
  • 远程方式
  • 守护进程
本地传输

本地传输方式:单个主机本地之间的数据传输(此时类似于cp命令) 本地传输语法:Local: rsync [OPTION...] SRC... [DEST]

本地拷贝数据示例:

代码语言:javascript
复制
[root@backup ~]# rsync  -avz  /etc/passwd  /tmp/
rsync       #备份命令(cp)
[options]   #选项
SRC...      #本地源文件
[DEST]      #本地目标文件
远程传输

远程传输方式:通过ssh通道传输数据,类似scp命令 远程传输语法:

代码语言:javascript
复制
#Pull
rsync [OPTION...] [USER@]HOST:SRC... [DEST]

#Push
rsync [OPTION...] SRC... [USER@]HOST:DEST

Pull拉取数据示例:

代码语言:javascript
复制
# 拉取远程文件
[root@backup ~]# rsync -avz root@172.16.1.31:/etc/hostname ./ 

# 拉取远程目录下的所有文件
[root@backup ~]# rsync -avz root@172.16.1.31:/root/ /backup/

#拉取远程目录以及目录下的所有文件
[root@backup ~]# rsync -avz root@172.16.1.31:/root /backup/    

Pull        #拉取, 下载
rsync       #备份命令
[options]   #选项
[USER@]     #目标主机的系统用户
HOST        #目主机IP地址或域名
SRC...      #目标主机源文件
[DEST]      #下载至本地哪个位置

Push 推送数据示例

代码语言:javascript
复制
[root@backup ~]#  rsync -avz /backup/2018-10-01 root@172.16.1.31:/tmp/

Push        #推送, 上传
rsync       #备份命令
[options]   #选项
SRC...      #本地源文件
[USER@]     #目标主机的系统用户
HOST        #目主机IP地址或域名
[DEST]      #目标对应位置

注意事项:Rsync借助SSH协议同步数据存在的缺陷

  • 1、使用系统用户(不安全)
  • 2、使用普通用户(会导致权限不足情况)
守护进程

守护进程传输方式:rsync自身非常重要的功能(不使用系统用户,更加安全) 守护进程传输语法:

代码语言:javascript
复制
#Pull
rsync [OPTION...] [USER@]HOST::SRC... [DEST]

#Push
rsync [OPTION...] SRC... [USER@]HOST::DEST

Pull拉取数据示例:拉取rsync备份服务的"backup模块"数据至本地/mnt目录

代码语言:javascript
复制
[root@nfs ~]# rsync -avz rsync_backup@172.16.1.21::backup/ /mnt/ --password-file=/etc/rsync.password
rsync           #命令
[OPTION...]     #选项
[USER@]         #远程主机用户(虚拟用户)
HOST::          #远程主机地址  
SRC...          #远程主机模块(不是目录)
[DEST]          #将远程主机数据备份至本地什么位置

push推送数据命令:将本地/mnt目录中的数据推送到备份服务器的backup模块

代码语言:javascript
复制
[root@nfs ~]# rsync -avz /mnt/ rsync_backup@192.172.16.1.21::backup/ --password-file=/etc/rsync.password
rsync           #命令
[OPTION...]     #选项
SRC...          #远程主机模块(不是目录)
[USER@]         #远程主机用户(虚拟用户)
HOST::          #远程主机地址
[DEST]          #将远程主机模块备份至本地什么位置
常用选项
代码语言:javascript
复制
-a   #归档模式传输, 等于-tropgDl
-v   #详细模式输出, 打印速率, 文件数量等
-z   #传输时进行压缩以提高效率
-r   #递归传输目录及子目录,即目录下得所有目录都同样传输。
-t   #保持文件时间信息
-o   #保持文件属主信息
-p   #保持文件权限
-g   #保持文件属组信息
-l   #保留软连接
-P   #显示同步的过程及传输时的进度等信息
-D   #保持设备文件信息
-L    #保留软连接指向的目标文件
-e   #使用的信道协议,指定替代rsh的shell程序
--exclude=PATTERN   #指定排除不需要传输的文件模式
--exclude-from=file #文件名所在的目录文件
--bwlimit=100       #限速传输
--partial           #断点续传
--delete            #让目标目录和源目录数据保持一致

Rsync服务部署

部署环境介绍

主机角色

外网IP(NAT)

内网IP(LAN)

主机名称

Rsync服务端

10.0.0.21

172.16.1.21

backup.oldxu.net

Rsync客户端

10.0.0.22

172.16.1.22

nfs.oldxu.net

Rsync服务端安装
代码语言:javascript
复制
[root@backup ~]# yum -y install rsync
Rsync服务端配置
代码语言:javascript
复制
[root@backup ~]# cat /etc/rsyncd.conf
uid = rsync
gid = rsync
port = 873
fake super = yes
use chroot = no
max connections = 200
timeout = 600
read only = false
list = false
auth users = rsync_backup
secrets file = /etc/rsync.passwd
log file = /var/log/rsyncd.log
#####################################
[backup]
comment = welcome backup!
path = /backup

配置详解

代码语言:javascript
复制
[root@backup ~]# vim /etc/rsyncd.conf
uid = rsync                      # 运行进程的用户
gid = rsync                      # 运行进程的用户组
port = 873                       # 监听端口
fake super = yes                 # 不需要rsync已root身份运行,就可以存储文件的完整属性
use chroot = no                  # 禁锢推送的数据至某个目录, 不允许跳出该目录
max connections = 200            # 最大连接数
timeout = 600                    # 超时时间
ignore errors                    # 忽略错误的日志信息
read only = false                # 对备份数据可读写
list = false                     # 不允许查看模块信息
auth users = rsync_backup        # 定义虚拟用户,作为连接认证用户
secrets file = /etc/rsync.passwd # 定义rsync服务用户连接认证密码文件路径

[backup]                # 定义模块信息
comment = commit        # 模块注释信息
path = /backup          # 定义接收备份数据目录
Rsync服务端初始化

Rsync服务端进行初始化

  • 1.创建rsync账户,不允许登录不创建家目录(用于运行rsync服务的用户身份)
  • 2.创建备份目录(尽可能磁盘空间足够大),授权rsync用户为属主
  • 3.创建虚拟用户密码文件,授权为600安全权限(用于客户端连接时使用的用户)
  • 4.启动rsync服务,并将rsync加入开机自启动
  • 5.检查rsync服务是否正常运行

1、创建rsync用户

代码语言:javascript
复制
[root@backup ~]# useradd -M -s /sbin/nologin rsync

2、创建备份目录,然后授权

代码语言:javascript
复制
[root@backup ~]# mkdir /backup
[root@backup ~]# chown -R rsync.rsync /backup/

3、创建虚拟用户密码文件,并授权为600

代码语言:javascript
复制
[root@backup ~]# echo "rsync_backup:sun" >/etc/rsync.passwd
[root@backup ~]# chmod 600 /etc/rsync.passwd

4、配置rsyncd启动停止脚本,然后启动服务(默认没有提供)

代码语言:javascript
复制
[root@backup ~]# /etc/systemd/system/rsyncd.service
[Unit]
Description=fast remote file copy program daemon
After=network.target

[Service]
ExecStart=/usr/bin/rsync --daemon --no-detach
ExecReload=/bin/kill -HUP $MAINPID
KillMode=process
Restart=on-failure

[Install]
WantedBy=multi-user.target

[root@backup ~]# systemctl daemon-reload 
[root@backup ~]# systemctl start rsyncd
[root@backup ~]# systemctl enable rsyncd

5、检查服务

代码语言:javascript
复制
[root@backup ~]# netstat -lntp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address       Foreign Address     State       PID/Program name    
tcp        0      0 0.0.0.0:873         0.0.0.0:*           LISTEN      4758/rsync
Rsync客户端配置

Rsync客户端仅需配置虚拟用户的密码,并授权为 600安全权限

方式一:适合终端执行,将虚拟用户密码配置至一个文件中;

代码语言:javascript
复制
[root@nfs ~]# yum install rsync -y
[root@nfs ~]# echo "sun" > /etc/rsync.pass
[root@nfs ~]# chmod 600 /etc/rsync.pass

方式二:适合脚本执行,将虚拟用户密码设定为环境变量;

代码语言:javascript
复制
[root@nfs ~]# yum install rsync -y
[root@nfs ~]# export RSYNC_PASSWORD=sun

Rsync场景实践

数据推送与拉取场景

1、客户端推送backup目录下所有内容至Rsync服务端

代码语言:javascript
复制
[root@nfs ~]# export RSYNC_PASSWORD=sun
[root@nfs ~]# rsync -avz /backup/ rsync_backup@172.16.1.21::backup/

2、客户端拉取Rsync服务端 backup 模块数据至本地客户端的 /backup 目录

代码语言:javascript
复制
[root@nfs ~]# export RSYNC_PASSWORD=sun
[root@nfs ~]#rsync -avz rsync_backup@172.16.1.21::backup /backup/
数据无差异同步场景

Rsync实现本地数据与远程数据无差异同步

1、拉取远端数据:远端与本地保持一致,远端没有本地有会被删除, 造成客户端数据丢失

代码语言:javascript
复制
[root@nfs ~]# export RSYNC_PASSWORD=sun
[root@nfs ~]# rsync -avz --delete rsync_backup@172.16.1.21::backup/ /data/

2、推送数据至远端:本地与远端保持一致, 本地没有远端会被删除, 造成服务器端数据丢失

代码语言:javascript
复制
[root@nfs ~]# export RSYNC_PASSWORD=sun
[root@nfs ~]# rsync -avz --delete /data/ rsync_backup@172.16.1.21::backup/
推送数据限速场景

故障案例: 某DBA使用rsync拉取备份数据时,由于文件过大导致内部交换机带宽被沾满,导致用户的请求无法响应;

代码语言:javascript
复制
[root@nfs ~]# export RSYNC_PASSWORD=oldxu

# 单位MB
[root@nfs ~]# rsync -avz --bwlimit=1 rsync_backup@172.16.1.31::backup/ /data/
Rsync常见问题

rsync,rsync_backup,是否存在关系;

以上内容来源:https://blog.csdn.net/Sunfeiyanghtml/article/ details/140007999

为什么大厂都在用Rsync?

回到文章开头的最初问题,大厂之所以都在用它,是因为 Rsync 其高效的数据同步能力、灵活的同步模式、可靠的数据传输保障、支持自动化操作以及广泛的适用场景等强大功能。

Rsync采用增量传输算法,只传输源目录和目标目录之间有差异的部分,而非全量复制。这一特性极大地减少了数据传输量,提高了同步效率,尤其适合处理大型文件库或频繁更新的数据。

Rsync支持多种同步模式,包括本地目录同步、远程SSH同步以及通过rsync守护进程的高效传输。这种灵活性使得Rsync能够适应不同的网络环境和同步需求,无论是内网环境还是跨地域的数据中心,都能实现高效的数据同步。

Rsync在传输过程中会检测文件的完整性,通过校验和来验证文件是否正确传输。同时,它还能保留文件的权限、时间戳、符号链接等属性,确保数据的准确性和一致性。

Rsync可以与定时任务工具(如crontab)结合,实现自动化同步。这对于需要定期备份或同步数据的场景非常有用,能够大大减轻运维人员的工作负担。

Rsync在服务器备份、数据迁移、文件分发、网站部署等多种场景中都有广泛应用。大厂通常拥有复杂的IT架构和大量的数据,Rsync的这些特性使得它成为处理这些任务的理想选择

#备份 #数据备份 #数据恢复 #数据同步 #同步软件 #开源软件 #全量备份 #增量备份 #Rsync #高可用架构 #科技 #IT运维 #软件工具 #Linux运维

👍 如果你喜欢这篇文章,请点赞并分享给你的朋友!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 民工哥技术之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 备份基本概述
    • 什么是备份
    • 为什么要做备份
    • 能不能不做备份
    • 1.4 备份应该怎么做
    • 实现备份的工具
  • Rsync基本概述
    • 什么是Rsync
    • Rsync同步模式
    • Rsync应用场景
    • Rsync传输模式
    • 常用选项
  • Rsync服务部署
    • 部署环境介绍
    • Rsync服务端安装
    • Rsync服务端配置
    • Rsync服务端初始化
    • Rsync客户端配置
  • Rsync场景实践
    • 数据推送与拉取场景
    • 数据无差异同步场景
    • 推送数据限速场景
    • Rsync常见问题
  • 为什么大厂都在用Rsync?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档