从构建分布式秒杀系统聊聊分布式锁

从构建分布式秒杀系统聊聊分布式锁
前言

最近懒成一坨屎，学不动系列一波接一波，大多还都是底层原理相关的。上周末抽时间重读了周志明大湿的 JVM 高效并发部分，每读一遍都有不同的感悟。路漫漫，借此，把前段时间搞着玩的秒杀案例中的分布式锁深入了解一下。

案例介绍

在尝试了解分布式锁之前，大家可以想象一下，什么场景下会使用分布式锁？

单机应用架构中，秒杀案例使用ReentrantLcok或者synchronized来达到秒杀商品互斥的目的。然而在分布式系统中，会存在多台机器并行去实现同一个功能。也就是说，在多进程中，如果还使用以上JDK提供的进程锁，来并发访问数据库资源就可能会出现商品超卖的情况。因此，需要我们来实现自己的分布式锁。

实现一个分布式锁应该具备的特性：
- 高可用、高性能的获取锁与释放锁
- 在分布式系统环境下，一个方法或者变量同一时间只能被一个线程操作
- 具备锁失效机制，网络中断或宕机无法释放锁时，锁必须被删除，防止死锁
- 具备阻塞锁特性，即没有获取到锁，则继续等待获取锁
- 具备非阻塞锁特性，即没有获取到锁，则直接返回获取锁失败
- 具备可重入特性，一个线程中可以多次获取同一把锁，比如一个线程在执行一个带锁的方法，该方法中又调用了另一个需要相同锁的方法，则该线程可以直接执行调用的方法，而无需重新获得锁
在之前的秒杀案例中，我们曾介绍过关于分布式锁几种实现方式：
- 基于数据库实现分布式锁
- 基于 Redis 实现分布式锁
- 基于 Zookeeper 实现分布式锁
前两种对于分布式生产环境来说并不是特别推荐，高并发下数据库锁性能太差，Redis在锁时间限制和缓存一致性存在一定问题。这里我们重点介绍一下 Zookeeper 如何实现分布式锁。

实现原理

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它内部是一个分层的文件系统目录树结构，规定同一个目录下只能存在唯一文件名。

ZooKeeper数据模型与文件系统目录树(源自网络)

数据模型
- PERSISTENT 持久化节点，节点创建后，不会因为会话失效而消失
- EPHEMERAL 临时节点，客户端session超时此类节点就会被自动删除
- EPHEMERAL_SEQUENTIAL 临时自动编号节点
- PERSISTENT_SEQUENTIAL 顺序自动编号持久化节点，这种节点会根据当前已存在的节点数自动加 1
监视器（watcher）

当创建一个节点时，可以注册一个该节点的监视器，当节点状态发生改变时，watch被触发时，ZooKeeper将会向客户端发送且仅发送一条通知，因为watch只能被触发一次。

根据zookeeper的这些特性，我们来看看如何利用这些特性来实现分布式锁：
- 创建一个锁目录lock
- 线程A获取锁会在lock目录下，创建临时顺序节点
- 获取锁目录下所有的子节点，然后获取比自己小的兄弟节点，如果不存在，则说明当前线程顺序号最小，获得锁
- 线程B创建临时节点并获取所有兄弟节点，判断自己不是最小节点，设置监听(watcher)比自己次小的节点
- 线程A处理完，删除自己的节点，线程B监听到变更事件，判断自己是最小的节点，获得锁
代码分析

尽管ZooKeeper已经封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。但是如果让一个普通开发者去手撸一个分布式锁还是比较困难的，在秒杀案例中我们直接使用 Apache 开源的curator 开实现 Zookeeper 分布式锁。

这里我们使用以下版本，截止目前最新版4.0.1：
1. 
2. <dependency>
3. <groupId>org.apache.curator</groupId>
4. <artifactId>curator-recipes</artifactId>
5. <version>2.10.0</version>
6. </dependency>
首先，我们看下InterProcessLock接口中的几个方法：
1. /**
2. * 获取锁、阻塞等待、可重入
3. */
4. public void acquire() throws Exception;
6. /**
7. * 获取锁、阻塞等待、可重入、超时则获取失败
8. */
9. public boolean acquire(long time, TimeUnit unit) throws Exception;
11. /**
12. * 释放锁
13. */
14. public void release() throws Exception;
16. /**
17. * Returns true if the mutex is acquired by a thread in this JVM
18. */
19. boolean isAcquiredInThisProcess();
获取锁：
1. //获取锁
2. public void acquire() throws Exception
3. {
4. if ( !internalLock(-1, null) )
5. {
6. throw new IOException("Lost connection while trying to acquire lock: " + basePath);
7. }
8. }
具体实现：
1. private boolean internalLock(long time, TimeUnit unit) throws Exception
2. {
3. /*
4. 实现同一个线程可重入性，如果当前线程已经获得锁，
5. 则增加锁数据中lockCount的数量(重入次数)，直接返回成功
6. */
7. //获取当前线程
8. Thread currentThread = Thread.currentThread();
9. //获取当前线程重入锁相关数据
10. LockData lockData = threadData.get(currentThread);
11. if ( lockData != null )
12. {
13. //原子递增一个当前值，记录重入次数，后面锁释放会用到
14. lockData.lockCount.incrementAndGet();
15. return true;
16. }
17. //尝试连接zookeeper获取锁
18. String lockPath = internals.attemptLock(time, unit, getLockNodeBytes());
19. if ( lockPath != null )
20. {
21. //创建可重入锁数据，用于记录当前线程重入次数
22. LockData newLockData = new LockData(currentThread, lockPath);
23. threadData.put(currentThread, newLockData);
24. return true;
25. }
26. //获取锁超时或者zk通信异常返回失败
27. return false;
28. }
Zookeeper获取锁实现：
1. String attemptLock(long time, TimeUnit unit, byte[] lockNodeBytes) throws Exception
2. {
3. //获取当前时间戳
4. final long startMillis = System.currentTimeMillis();
5. //如果unit不为空(非阻塞锁)，把当前传入time转为毫秒
6. final Long millisToWait = (unit != null) ? unit.toMillis(time) : null;
7. //子节点标识
8. final byte[] localLockNodeBytes = (revocable.get() != null) ? new byte[0] : lockNodeBytes;
9. //尝试次数
10. int retryCount = 0;
12. String ourPath = null;
13. boolean hasTheLock = false;
14. boolean isDone = false;
15. //自旋锁，循环获取锁
16. while ( !isDone )
17. {
18. isDone = true;
20. try
21. {
22. //在锁节点下创建临时且有序的子节点，例如:_c_008c1b07-d577-4e5f-8699-8f0f98a013b4-lock-000000001
23. ourPath = driver.createsTheLock(client, path, localLockNodeBytes);
24. //如果当前子节点序号最小，获得锁则直接返回，否则阻塞等待前一个子节点删除通知(release释放锁)
25. hasTheLock = internalLockLoop(startMillis, millisToWait, ourPath);
26. }
27. catch ( KeeperException.NoNodeException e )
28. {
29. //异常处理，如果找不到节点，这可能发生在session过期等时，因此，如果重试允许，只需重试一次即可
30. if ( client.getZookeeperClient().getRetryPolicy().allowRetry(retryCount++, System.currentTimeMillis() - startMillis, RetryLoop.getDefaultRetrySleeper()) )
31. {
32. isDone = false;
33. }
34. else
35. {
36. throw e;
37. }
38. }
39. }
40. //如果获取锁则返回当前锁子节点路径
41. if ( hasTheLock )
42. {
43. return ourPath;
44. }
46. return null;
47. }
判断是否为最小节点：
1. private boolean internalLockLoop(long startMillis, Long millisToWait, String ourPath) throws Exception
2. {
3. boolean haveTheLock = false;
4. boolean doDelete = false;
5. try
6. {
7. if ( revocable.get() != null )
8. {
9. client.getData().usingWatcher(revocableWatcher).forPath(ourPath);
10. }
11. //自旋获取锁
12. while ( (client.getState() == CuratorFrameworkState.STARTED) && !haveTheLock )
13. {
14. //获取所有子节点集合
15. List<String> children = getSortedChildren();
16. //判断当前子节点是否为最小子节点
17. String sequenceNodeName = ourPath.substring(basePath.length() + 1); // +1 to include the slash
19. PredicateResults predicateResults = driver.getsTheLock(client, children, sequenceNodeName, maxLeases);
20. //如果是最小节点则获取锁
21. if ( predicateResults.getsTheLock() )
22. {
23. haveTheLock = true;
24. }
25. else
26. {
27. //获取前一个节点，用于监听
28. String previousSequencePath = basePath + "/" + predicateResults.getPathToWatch();
30. synchronized(this)
31. {
32. try
33. {
34. //这里使用getData()接口而不是checkExists()是因为，如果前一个子节点已经被删除了那么会抛出异常而且不会设置事件监听器，而checkExists虽然也可以获取到节点是否存在的信息但是同时设置了监听器，这个监听器其实永远不会触发，对于Zookeeper来说属于资源泄露
35. client.getData().usingWatcher(watcher).forPath(previousSequencePath);
36. if ( millisToWait != null )
37. {
38. millisToWait -= (System.currentTimeMillis() - startMillis);
39. startMillis = System.currentTimeMillis();
40. //如果设置了获取锁等待时间
41. if ( millisToWait <= 0 )
42. {
43. doDelete = true; // 超时则删除子节点
44. break;
45. }
46. //等待超时时间
47. wait(millisToWait);
48. }
49. else
50. {
51. wait();//一直等待
52. }
53. }
54. catch ( KeeperException.NoNodeException e )
55. {
56. // it has been deleted (i.e. lock released). Try to acquire again
57. //如果前一个子节点已经被删除则deException，只需要自旋获取一次即可
58. }
59. }
60. }
61. }
62. }
63. catch ( Exception e )
64. {
65. ThreadUtils.checkInterrupted(e);
66. doDelete = true;
67. throw e;
68. }
69. finally
70. {
71. if ( doDelete )
72. {
73. deleteOurPath(ourPath);//获取锁超时则删除节点
74. }
75. }
76. return haveTheLock;
77. }
释放锁：
1. public void release() throws Exception
2. {
4. Thread currentThread = Thread.currentThread();
5. LockData lockData = threadData.get(currentThread);
6. //没有获取锁，你释放个球球，如果为空抛出异常
7. if ( lockData == null )
8. {
9. throw new IllegalMonitorStateException("You do not own the lock: " + basePath);
10. }
11. //获取重入数量
12. int newLockCount = lockData.lockCount.decrementAndGet();
13. //如果重入锁次数大于0，直接返回
14. if ( newLockCount > 0 )
15. {
16. return;
17. }
18. //如果重入锁次数小于0，抛出异常
19. if ( newLockCount < 0 )
20. {
21. throw new IllegalMonitorStateException("Lock count has gone negative for lock: " + basePath);
22. }
23. try
24. {
25. //释放锁
26. internals.releaseLock(lockData.lockPath);
27. }
28. finally
29. {
30. //移除当前线程锁数据
31. threadData.remove(currentThread);
32. }
33. }
测试案例

为了更好的理解其原理和代码分析中获取锁的过程，这里我们实现一个简单的Demo：
1. /**
2. * 基于curator的zookeeper分布式锁
3. */
4. public class CuratorUtil {
5. private static String address = "192.168.1.180:2181";
7. public static void main(String[] args) {
8. //1、重试策略：初试时间为1s 重试3次
9. RetryPolicy retryPolicy = new ExponentialBackoffRetry(1000, 3);
10. //2、通过工厂创建连接
11. CuratorFramework client = CuratorFrameworkFactory.newClient(address, retryPolicy);
12. //3、开启连接
13. client.start();
14. //4 分布式锁
15. final InterProcessMutex mutex = new InterProcessMutex(client, "/curator/lock");
16. //读写锁
17. //InterProcessReadWriteLock readWriteLock = new InterProcessReadWriteLock(client, "/readwriter");
19. ExecutorService fixedThreadPool = Executors.newFixedThreadPool(5);
21. for (int i = 0; i < 5; i++) {
22. fixedThreadPool.submit(new Runnable() {
23. @Override
24. public void run() {
25. boolean flag = false;
26. try {
27. //尝试获取锁，最多等待5秒
28. flag = mutex.acquire(5, TimeUnit.SECONDS);
29. Thread currentThread = Thread.currentThread();
30. if(flag){
31. System.out.println("线程"+currentThread.getId()+"获取锁成功");
32. }else{
33. System.out.println("线程"+currentThread.getId()+"获取锁失败");
34. }
35. //模拟业务逻辑，延时4秒
36. Thread.sleep(4000);
37. } catch (Exception e) {
38. e.printStackTrace();
39. } finally{
40. if(flag){
41. try {
42. mutex.release();
43. } catch (Exception e) {
44. e.printStackTrace();
45. }
46. }
47. }
48. }
49. });
50. }
51. }
52. }
这里我们开启5个线程，每个线程获取锁的最大等待时间为5秒，为了模拟具体业务场景，方法中设置4秒等待时间。开始执行main方法，通过ZooInspector监控/curator/lock下的节点如下图：

对，没错，设置4秒的业务处理时长就是为了观察生成了几个顺序节点。果然如案例中所述，每个线程都会生成一个节点并且还是有序的。

观察控制台，我们会发现只有两个线程获取锁成功，另外三个线程超时获取锁失败会自动删除节点。线程执行完毕我们刷新一下/curator/lock节点，发现刚才创建的五个子节点已经不存在了。

小结

通过分析第三方开源工具实现的分布式锁方式，收获还是满满的。学习本身就是一个由浅入深的过程，从如何调用API，到理解其代码逻辑实现。想要更深入可以去挖掘Zookeeper的核心算法ZAB协议。

最后为了方便大家学习，小结了学习过程中遇到的几个关键词：重入锁、自旋锁、有序节点、阻塞、非阻塞、监听，希望对大家有所帮助。

参考

https://yq.aliyun.com/articles/60663

http://www.hollischuang.com/archives/1716

http://www.cnblogs.com/sunddenly/p/4033574.html
相关阅读:
交叉熵的数学原理及应用——pytorch中的CrossEntropyLoss()函数
 pytorch中如何使用DataLoader对数据集进行批处理
 Pytorch中的自动求导函数backward()所需参数含义
 Pytorch中的torch.cat()函数
 Pytorch中的squeeze()和unsqueeze()函数
 UBUNTU18.04安装网易云音乐并直接图标启动
 UBUNTU18.4环境下使用更好用的搜索引擎（无奈，只能起这样的标题）
Ubuntu 18.04换国内源中科大源阿里源 163源清华源
 共享栈
 C++（十七） — 宏代码、内联函数
原文地址：https://www.cnblogs.com/williamjie/p/9406031.html

从构建分布式秒杀系统聊聊分布式锁

前言

案例介绍

实现原理

数据模型

监视器（watcher）

代码分析

获取锁：

释放锁：

测试案例

小结

参考