数据实时同步
数据实时同步概述
什么是实时同步
实时同步是一种只要当前目录发生变化,则会触发一个事件,事件触发后会自动将变化的目录同步至远程服务器。
为什么要实时同步
- 保证数据的连续性,平滑的迁移
- 减少人力维护成本,减少人为的干预
- 解决nfs单点故障,备份
- 解决大量的静态资源迁移(本地迁移云端)
实现实时同步要利用监控服务inotify
,监控同步数据服务器目录中信息的变化,发现目录中数据产生变化,就利用rsync
服务推送到备份服务器上,也就是需要inotify + rsync
配合使用。
但是:
- 随着文件数量的增大到100W+,目录下的文件列表就达20M,在网络状况不佳或者限速的情况下,变更的文件可能10来个才几M,却因此要发送的文件列表就达20M,严重减低的带宽的使用效率以及同步效率;
- 假如inotifywait在5s内监控到10个小文件发生变化,便会触发10个rsync同步操作,结果就是真正需要传输的才2-3M的文件,比对的文件列表就达200M。
- 使用这两个组合的好处在于,它们都是最基本的软件,可以通过不同选项做到很精确的控制,比如排除同步的目录,同步多个模块或同步到多个主机。
因此,我们通常使用基于inotify + rsync
开发的软件实现实时同步:
sersync
:github- 金山公司周洋在 inotify 软件基础上进行开发的,使用c++编写,采用多线程的方式进行同步,失败后还有重传机制,对临时文件过滤,自带crontab定时同步功能。
- 采用xml配置文件,可读性较好,有些原生功能没有实现:
- 无法实现多目录同步,只能通过多个配置文件启动多个进程
- 文件排除功能太弱。
lsyncd
:github- 是一个支持实时、双向、多机器的多模式文件同步工具。使用 Lua 语言封装了 inotify 和 rsync 。
- 完美解决了
inotify+rsync
海量文件同步带来的文件频繁发送文件列表的问题 —— 通过时间延迟或累计触发事件次数实现。 - 实现简单高效的本地目录同步备份(网络存储挂载也当作本地目录),本地目录cp,本地目录rsync,远程目录rsyncssh。
inotify基本概述
inotify
是异步的文件系统事件监控机制,利用事件驱动机制,而无须通过诸如cron等的轮询机制来获取事件,linux内核从2.6.13起支持 inotify,通过inotify可以监控文件系统中添加、删除,修改、移动等各种事件。
查看服务器内核是否支持inotify
Linux下支持inotify的内核最小为2.6.13
$ ll /proc/sys/fs/inotify # 列出下面的文件,说明服务器内核支持inotify
-rw-r--r-- 1 root root 0 Dec 7 10:10 max_queued_events
-rw-r--r-- 1 root root 0 Dec 7 10:10 max_user_instances
-rw-r--r-- 1 root root 0 Dec 6 05:54 max_user_watches
inotify内核参数
参数说明:参看man 7 inotify
max_queued_events: inotify事件队列最大长度,如值太小会出现 Event Queue Overflow 错误,默认值:16384
max_user_watches: 可以监视的文件数量(单进程),默认值:8192
max_user_instances: 每个用户创建inotify实例最大值,默认值:128
inotify参考文档
https://github.com/rvoicilas/inotify-tools/wiki
客户端安装inotify
:基于epel源
yum -y install inotify-tools
Inotify-tools包主要文件:
inotifywait: 在被监控的文件或目录上等待特定文件系统事件(open close delete等)发生,常用于实时同步的目录监控
inotifywatch:收集被监控的文件系统使用的统计数据,指文件系统事件发生的次数统计
inotifywait命令常见选项:
-m, --monitor 始终保持事件监听
-d, --daemon 以守护进程方式执行,和-m相似,配合-o使用
-r, --recursive 递归监控目录数据信息变化
-q, --quiet 静默,仅打印时间信息
--exclude <pattern> 指定排除文件或目录,使用扩展的正则表达式匹配的模式实现
--excludei <pattern> 和exclude相似,不区分大小写
-o, --outfile <file> 打印事件到文件中,相当于标准正确输出
-s, --syslogOutput 发送错误到syslog,相当于标准错误输出
--timefmt <fmt> 指定时间输出格式,参考 man 3 strftime
%Y 年份信息,包含世纪信息
%y 年份信息,不包括世纪信息
%m 显示月份,范围 01-12
%d 每月的第几天,范围是 01-31
%H 小时信息,使用 24小时制,范围 00-23
%M 分钟,范围 00-59
--format <fmt> 指定事件输出格式;即实际监控输出内容
%T 输出时间格式中定义的时间格式信息,通过 --timefmt option 语法格式指定时间信息
%w 事件出现时,监控文件或目录的名称信息
%f 事件出现时,将显示监控目录下触发事件的文件或目录信息,否则为空
%e 显示发生的事件信息,不同的事件默认用逗号分隔
%Xe 显示发生的事件信息,不同的事件指定用X进行分隔
-e 指定监控的事件,用逗号分隔,如果省略,表示所有事件都进行监听
access 文件或目录内容被读取
modify 文件或目录内容被写入
create 文件或目录创建
delete 文件或目录被删除
attrib 文件或目录属性改变
open 文件或目录被打开
close 文件或目录关闭,不管读或是写模式
close_write 文件或目录关闭,在写入模式打开之后关闭的
close_nowrite 文件或目录关闭,在只读模式打开之后关闭的
moved_to 文件或目录被移动到监控的目录中
moved_from 文件或目录从监控的目录中被移动
move 文件或目录不管移动到或是移出监控目录都触发事件
delete_self 文件或目录被删除,目录本身被删除
unmount 取消挂载
示例:
--timefmt "%Y-%m-%d %H:%M"
--format "%T %w %f event: %;e"
--format '%T %w %f'
-e create,delete,moved_to,close_write
监控一次性事件
inotifywait /data
持续监控
inotifywait -mrq /data
持续后台监控,并记录日志
inotifywait -o /root/inotify.log -drq /data --timefmt "%Y-%m-%d %H:%M" --format "%T %w%f event: %e"
持续后台监控特定事件
inotifywait -mrq /data --timefmt "%F %H:%M" --format "%T %w%f event: %;e" -e create,delete,moved_to,close_write,attrib
持续后台监控特定事件测试
(1)安装inotify-tools包
yum install inotify-tools -y
[root@centos7 ~]#
(2)监控backup目录下的文件
inotifywait -mrq /backup --timefmt "%F %H:%M" --format "%T %w%f event: %;e" -e create,delete,moved_to,close_write,attrib
(3)新开一个窗口在data目录下进行操作
[root@centos7 data]# touch f1
[root@centos7 data]# chown wang f2
(4)可以看到监控窗口下实时监控此时对data目录的操作记录
[Fri Aug 28 11:40:05 CST 2020] [root@nfs ~]
$ inotifywait -mrq /backup --timefmt "%F %H:%M" --formate,attrib
2020-08-31 08:51 /backup/f1 event: CREATE
2020-08-31 08:51 /backup/f1 event: ATTRIB
2020-08-31 08:51 /backup/f1 event: CLOSE_WRITE;CLOSE
2020-08-31 08:52 /backup/f1 event: ATTRIB
inotify + rsync实现实时同步
(1)安装配置rsync服务
(2)服务端对backup目录进行监控,1秒监控一次目录
[root@backup ~]# watch -n1 ls -l /backup
(3)客户端测试rsync同步数据
[root@nfs ~]# export RSYNC_PASSWORD=123456
[Mon Aug 31 15:36:01 CST 2020] [root@nfs ~]
rsync -avz /backup/ rsync_backup@172.16.1.41::backup
sending incremental file list
./
f1
i
sent 164 bytes received 65 bytes 458.00 bytes/sec
total size is 0 speedup is 0.00
(4)服务器端此时监控到backup目录下的文件已经同步过来
Every 1.0s: l... Mon Aug 31 15:36:48 2020
total 0
-rwxrwxrwx 1 rsync rsync 0 Aug 31 08:51 f
1
-rw-r--r-- 1 rsync rsync 0 Aug 30 22:56 i
(5)客户端安装inotify
:基于epel源
[root@nfs ~]# yum -y install inotify-tools
(6)客户端创建脚本vi inotify_rsync.sh
,实现实时同步效果
#!/bin/bash
SRC='/backup/'
DEST='rsync_backup@172.16.1.41::backup'
inotifywait -mrq --timefmt '%Y-%m-%d %H:%M' --format '%T %w %f' -e attrib,create,delete,moved_to,close_write ${SRC} | while read DATE TIME DIR FILE;do
FILEPATH=${DIR}${FILE}
rsync -az --delete --password-file=/etc/rsync.passwd $SRC $DEST && echo "At ${TIME} on ${DATE}, file $FILEPATH was backuped up via rsync" >> /var/log/changelist.log # 指定日志文件
done &
(7)客户端执行脚本,并跟踪指定的日志文件
[root@nfs ~]# bash inotify_rsync.sh
[root@nfs ~]# tail -f /var/log/changelist.log
At 16:16 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:16 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:16 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:16 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:17 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:17 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:17 on 2020-08-31, file /backup/1 was backuped up via rsync
At 16:17 on 2020-08-31, file /backup/1 was backuped up via rsync
(8)服务端跟踪此时backup目录内容
[root@backup ~]# watch -n1 ls -l /backup
(9)验证效果,在客户端backup目录下进行文件操作
[root@nfs ~]# cd /backup
[root@nfs /backup]# touch 1
[root@nfs /backup]# echo 111 >> 1b
[root@nfs /backup]# rm -rf 1
观察:
客户端日志文件变化情况
服务端backup目录内容跟踪结果
(10)想要注销后仍在后台运行进程,使用nohup
nohup bash inotify_rsync.sh
注意:
输出重定向到当前目录的 nohup.out
或者$HOME/nohup.out
停止只能使用kill -9 PID
(11)开机启动,将(10)命令加入/etc/rc.local
lsyncd —— 多机器实时同步文件神器
lsyncd 是一个支持实时、双向、多机器的多模式文件同步工具。
使用 Lua 语言封装了 inotify 和 rsync 工具,采用了 Linux 内核(2.6.13 及以后)里的 inotify 触发机制,然后通过 rsync 去差异同步,达到实时的效果。
安装
基于epel源安装:
yum -y install lsyncd
源码编译安装:
从源码编译安装可以使用最新版的lsyncd程序,但必须要相应的依赖库文件和编译工具:yum install lua lua-devel asciidoc cmake
。
从 googlecode lsyncd 上下载的lsyncd-2.1.5.tar.gz
,直接./configure
、make && make install
就可以了。
从github上下载lsyncd-master.zip 的2.1.5版本使用的是 cmake 编译工具,无法./configure
:
uzip lsyncd-master.zip
cd lsyncd-master
cmake -DCMAKE_INSTALL_PREFIX=/usr/local/lsyncd-2.1.5
make && make install
我这个版本编译时有个小bug,如果按照INSTALL
在build
目录中make,会提示:
[100%] Generating doc/lsyncd.1
Updating the manpage
a2x: failed: source file not found: doc/lsyncd.1.txt
make[2]: *** [doc/lsyncd.1] Error 1
make[1]: *** [CMakeFiles/manpage.dir/all] Error 2
make: *** [all] Error 2
解决办法是要么直接在解压目录下cmake,不要mkdir build
,要么在CMakeList.txt
中搜索doc
字符串,在前面加上${PROJECT_SOURCE_DIR}
。
配置
lsyncd 主配置文件,假设放置在/etc/lsyncd.conf
:
settings {
nodaemon = false,
logfile = "/var/log/lsyncd.log",
statusFile = "/var/log/lsyncd.status",
inotifyMode = "CloseWrite",
maxProcesses = 8
}
-- 可以有多个sync,各自的source,各自的target,各自的模式,互不影响。
sync {
default.rsyncssh,
source = "/home/wwwroot/web1/",
host = "111.222.333.444",
targetdir = "/home/wwwroot/web1/",
-- 忽略文件路径规则,可用table也可用外部配置文件
-- excludeFrom = "/etc/lsyncd_exclude.lst",
exclude = {
".svn",
"Runtime/**",
"Uploads/**",
},
-- maxDelays = 5,
delay = 0,
-- init = false,
rsync = {
binary = "/usr/bin/rsync",
archive = true,
compress = true,
verbose = true,
_extra = {"--bwlimit=2000"},
},
}
编译安装的,简化配置
# cd /usr/local/lsyncd-2.1.5
# mkdir etc var
# vi etc/lsyncd.conf
settings {
logfile ="/usr/local/lsyncd-2.1.5/var/lsyncd.log",
statusFile ="/usr/local/lsyncd-2.1.5/var/lsyncd.status",
inotifyMode = "CloseWrite",
maxProcesses = 7,
-- nodaemon =true,
}
sync {
default.rsync,
source = "/tmp/src",
target = "/tmp/dest",
-- excludeFrom = "/etc/rsyncd.d/rsync_exclude.lst",
rsync = {
binary = "/usr/bin/rsync",
archive = true,
compress = true,
verbose = true
}
}
lsyncd.conf 配置选项说明
settings
里面是全局设置,--
开头表示注释,下面是几个常用选项说明:
logfile
定义日志文件stausFile
定义状态文件nodaemon=true
表示不启用守护模式,默认statusInterval
将lsyncd的状态写入上面的statusFile的间隔,默认10秒inotifyMode
指定inotify监控的事件,默认是CloseWrite
,还可以是Modify
或CloseWrite or Modify
maxProcesses
同步进程的最大个数。假如同时有20个文件需要同步,而maxProcesses = 8
,则最大能看到有8个rysnc进程maxDelays
累计到多少所监控的事件激活一次同步,即使后面的delay
延迟时间还未到
sync
里面是定义同步参数,可以继续使用maxDelays
来重写settings的全局变量。一般第一个参数指定lsyncd
以什么模式运行:rsync
、rsyncssh
、direct
三种模式:
-
default.rsync
:本地目录间同步,使用rsync,也可以达到使用ssh形式的远程rsync效果,或daemon方式连接远程rsyncd进程;
default.direct
:本地目录间同步,使用cp
、rm
等命令完成差异文件备份;
default.rsyncssh
:同步到远程主机目录,rsync的ssh模式,需要使用key来认证 -
source
同步的源目录,使用绝对路径。 -
target
定义目的地址.对应不同的模式有几种写法:
/tmp/dest
:本地目录同步,可用于direct
和rsync
模式
172.29.88.223:/tmp/dest
:同步到远程服务器目录,可用于rsync
和rsyncssh
模式,拼接的命令类似于/usr/bin/rsync -ltsd --delete --include-from=- --exclude=* SOURCE TARGET
,剩下的就是rsync的内容了,比如指定username,免密码同步
172.29.88.223::module
:同步到远程服务器目录,用于rsync
模式
三种模式的示例会在后面给出。 -
init
这是一个优化选项,当init = false
,只同步进程启动以后发生改动事件的文件,原有的目录即使有差异也不会同步。默认是true
-
delay
累计事件,等待rsync同步延时时间,默认15秒(最大累计到1000个不可合并的事件)。也就是15s内监控目录下发生的改动,会累积到一次rsync同步,避免过于频繁的同步。(可合并的意思是,15s内两次修改了同一文件,最后只同步最新的文件) -
excludeFrom
排除选项,后面指定排除的列表文件,如excludeFrom = "/etc/lsyncd.exclude"
,如果是简单的排除,可以使用exclude = LIST
。这里的排除规则写法与原生rsync有点不同,更为简单:
- 监控路径里的任何部分匹配到一个文本,都会被排除,例如
/bin/foo/bar
可以匹配规则foo
- 如果规则以斜线
/
开头,则从头开始要匹配全部 - 如果规则以
/
结尾,则要匹配监控路径的末尾 ?
匹配任何字符,但不包括/
*
匹配0或多个字符,但不包括/
**
匹配0或多个字符,可以是/
- 监控路径里的任何部分匹配到一个文本,都会被排除,例如
-
delete
为了保持target与souce完全同步,Lsyncd默认会delete = true
来允许同步删除。它除了false
,还有startup
、running
值,请参考 [Lsyncd 2.1.x ‖ Layer 4 Config ‖ Default Behavior](https://github.com/axkibe/lsyncd/wiki/Lsyncd 2.1.x ‖ Layer 4 Config ‖ Default Behavior)。
rsync
(提示一下,delete
和exclude
本来都是rsync的选项,上面是配置在sync中的,我想这样做的原因是为了减少rsync的开销)
bwlimit
限速,单位kb/s,与rsync相同(这么重要的选项在文档里竟然没有标出)compress
压缩传输默认为true
。在带宽与cpu负载之间权衡,本地目录同步可以考虑把它设为false
perms
默认保留文件权限。- 其它rsync的选项
其它还有rsyncssh模式独有的配置项,如host
、targetdir
、rsync_path
、password_file
,见后文示例。rsyncOps={"-avz","--delete"}
这样的写法在2.1.*版本已经不支持。
lsyncd.conf
可以有多个sync
,各自的source,各自的target,各自的模式,互不影响。
lsyncd.conf其它模式示例
settings {
logfile = "/var/log/lsyncd/lsyncd.log",
statusFile = "/var/log/lsyncd/lsyncd.status",
inotifyMode = "CloseWrite",
maxProcesses = 8,
}
-- I. 本地目录同步,direct:cp/rm/mv。 适用:500+万文件,变动不大
sync {
default.direct,
source = "/tmp/src",
target = "/tmp/dest",
delay = 1
maxProcesses = 1
}
-- II. 本地目录同步,rsync模式:rsync
sync {
default.rsync,
source = "/tmp/src",
target = "/tmp/dest1",
excludeFrom = "/etc/rsyncd.d/rsync_exclude.lst",
rsync = {
binary = "/usr/bin/rsync",
archive = true,
compress = true,
bwlimit = 2000
}
}
-- III. 远程目录同步,rsync模式 + rsyncd daemon
sync {
default.rsync,
source = "/tmp/src",
target = "syncuser@172.29.88.223::module1",
delete="running",
exclude = { ".*", ".tmp" },
delay = 30,
init = false,
rsync = {
binary = "/usr/bin/rsync",
archive = true,
compress = true,
verbose = true,
password_file = "/etc/rsyncd.d/rsync.pwd",
_extra = {"--bwlimit=200"}
}
}
-- IV. 远程目录同步,rsync模式 + ssh shell
sync {
default.rsync,
source = "/tmp/src",
target = "172.29.88.223:/tmp/dest",
-- target = "root@172.29.88.223:/remote/dest",
-- 上面target,注意如果是普通用户,必须拥有写权限
maxDelays = 5,
delay = 30,
-- init = true,
rsync = {
binary = "/usr/bin/rsync",
archive = true,
compress = true,
bwlimit = 2000
-- rsh = "/usr/bin/ssh -p 22 -o StrictHostKeyChecking=no"
-- 如果要指定其它端口,请用上面的rsh
}
}
-- V. 远程目录同步,rsync模式 + rsyncssh,效果与上面相同
sync {
default.rsyncssh,
source = "/tmp/src2",
host = "172.29.88.223",
targetdir = "/remote/dir",
excludeFrom = "/etc/rsyncd.d/rsync_exclude.lst",
-- maxDelays = 5,
delay = 0,
-- init = false,
rsync = {
binary = "/usr/bin/rsync",
archive = true,
compress = true,
verbose = true,
_extra = {"--bwlimit=2000"},
},
ssh = {
port = 1234
}
}
上面的内容几乎涵盖了所有同步的模式,其中第III
个要求像rsync一样配置rsyncd服务端,见本文开头。
免密登录
第IV
、V
配置ssh方式同步,达到的效果相同,但实际同步时你会发现每次同步都会提示输入ssh的密码,可以通过以下方法解决:
在远端被同步的服务器上开启ssh无密码登录,请注意用户身份:
user$ ssh-keygen -t rsa
...一路回车...
user$ cd ~/.ssh
user$ cat id_rsa.pub >> authorized_keys
把id_rsa
私钥拷贝到执行lsyncd的机器上
user$ chmod 600 ~/.ssh/id_rsa
测试能否无密码登录
user$ ssh user@172.29.88.223
配置lsyncd日志文件轮转,防止日志文件太大
修改配置文件/etc/logrotate.d/lsyncd
/var/log/lsyncd/*log {
missingok
notifempty
sharedscripts
postrotate
/etc/rc.d/init.d/lsyncd restart 2>&1 > /dev/null || true
endscript
}
忽略规则
需要忽略同步的文件或文件夹,excludeFrom 选项才配置该文件,exclude 类型的配置不用该配置文件。假设配置文件放在/etc/lsyncd_exclude.lst
。
.svn
Runtime/**
Uploads/**
启动
lsyncd -log Exec /etc/lsyncd.conf
# 启动
# 开机启动