之前我們使用的定時(shí)任務(wù)都是只部署在了單臺(tái)機(jī)器上,為了解決單點(diǎn)的問題,為了保證一個(gè)任務(wù),只被一臺(tái)機(jī)器執(zhí)行,就需要考慮鎖的問題,于是就花時(shí)間研究了這個(gè)問題。到底怎樣實(shí)現(xiàn)一個(gè)分布式鎖呢?
鎖的本質(zhì)就是互斥,保證任何時(shí)候能有一個(gè)客戶端持有同一個(gè)鎖,如果考慮使用redis來實(shí)現(xiàn)一個(gè)分布式鎖,最簡(jiǎn)單的方案就是在實(shí)例里面創(chuàng)建一個(gè)鍵值,釋放鎖的時(shí)候,將鍵值刪除。但是一個(gè)可靠完善的分布式鎖需要考慮的細(xì)節(jié)比較多,我們就來看看如何寫一個(gè)正確的分布式鎖。
單機(jī)版分布式鎖 SETNX
所以我們直接基于 redis 的 setNX (SET if Not eXists)命令,實(shí)現(xiàn)一個(gè)簡(jiǎn)單的鎖。直接上偽碼
鎖的獲取:
SET resource_name my_random_value NX PX 30000
鎖的釋放:
if redis.call("get",KEYS[1]) == ARGV[1] then
return redis.call("del",KEYS[1])
else
return 0
end
幾個(gè)細(xì)節(jié)需要注意:
首先在獲取鎖的時(shí)候我們需要設(shè)置設(shè)置超時(shí)時(shí)間。設(shè)置超時(shí)時(shí)間是為了,防止客戶端崩潰,或者網(wǎng)絡(luò)出現(xiàn)問題以后鎖一直被持有。真?zhèn)€系統(tǒng)就死鎖了。
使用 setNX 命令,保證查詢和寫入兩個(gè)步驟是原子的
在鎖釋放的時(shí)候我們判斷了KEYS[1]) == ARGV[1],在這里 KEYS[1]是從redis里面取出來的value,ARGV[1]是上文生成的my_random_value。之所以進(jìn)行以上的判斷,是為了保證鎖被鎖的持有者釋放。我們假設(shè)不進(jìn)行這一步校驗(yàn):
- 客戶端A獲取鎖,后發(fā)線程掛起了。時(shí)間大于鎖的過期時(shí)間。
- 鎖過期后,客戶端B獲取鎖。
- 客戶端A恢復(fù)以后,處理完相關(guān)事件,向redis發(fā)起 del命令。鎖被釋放
- 客戶端C獲取鎖。這個(gè)時(shí)候一個(gè)系統(tǒng)中同時(shí)兩個(gè)客戶端持有鎖。
造成這個(gè)問題的關(guān)鍵,在于客戶端B持有的鎖,被客戶端A釋放了。
鎖的釋放必須使用lua腳本,保證操作的原子性。鎖的釋放包含了get,判斷,del三個(gè)步驟。如果不能保證三個(gè)步驟的原子性,分布式鎖就會(huì)有并發(fā)問題。
注意了以上細(xì)節(jié),一個(gè)單redis節(jié)點(diǎn)的分布式鎖就達(dá)成了。
在這個(gè)分布式鎖中還是存在一個(gè)單點(diǎn)的redis。也許你會(huì)說,Redis是 master-slave的架構(gòu),發(fā)生故障的時(shí)候切換到slave就好,但是Redis的復(fù)制是異步的。
- 如果在客戶端A在master上拿到了鎖。
- 在master將數(shù)據(jù)同步到slave上之前,master宕機(jī)。
- 客戶端B就從slave上又一次拿到了鎖。
這樣由于Master的宕機(jī),造成了同時(shí)多人持有鎖。如果你的系統(tǒng)可用接受短時(shí)時(shí)間內(nèi),有多人持有鎖。這個(gè)簡(jiǎn)單的方案就能解決問題。
但是如果解決這個(gè)問題。Redis的官方提供了一個(gè)Redlock的解決方案。
RedLock 的實(shí)現(xiàn)
為了解決,Redis單點(diǎn)的問題。Redis的作者提出了RedLock的解決方案。方案非常的巧妙和簡(jiǎn)潔。
RedLock的核心思想就是,同時(shí)使用多個(gè)Redis Master來冗余,且這些節(jié)點(diǎn)都是完全的獨(dú)立的,也不需要對(duì)這些節(jié)點(diǎn)之間的數(shù)據(jù)進(jìn)行同步。
假設(shè)我們有N個(gè)Redis節(jié)點(diǎn),N應(yīng)該是一個(gè)大于2的奇數(shù)。RedLock的實(shí)現(xiàn)步驟:
- 取得當(dāng)前時(shí)間
- 使用上文提到的方法依次獲取N個(gè)節(jié)點(diǎn)的Redis鎖。
- 如果獲取到的鎖的數(shù)量大于 (N/2+1)個(gè),且獲取的時(shí)間小于鎖的有效時(shí)間(lock validity time)就認(rèn)為獲取到了一個(gè)有效的鎖。鎖自動(dòng)釋放時(shí)間就是最初的鎖釋放時(shí)間減去之前獲取鎖所消耗的時(shí)間。
- 如果獲取鎖的數(shù)量小于 (N/2+1),或者在鎖的有效時(shí)間(lock validity time)內(nèi)沒有獲取到足夠的說,就認(rèn)為獲取鎖失敗。這個(gè)時(shí)候需要向所有節(jié)點(diǎn)發(fā)送釋放鎖的消息。
對(duì)于釋放鎖的實(shí)現(xiàn)就很簡(jiǎn)單了。想所有的Redis節(jié)點(diǎn)發(fā)起釋放的操作,無論之前是否獲取鎖成功。
同時(shí)需要注意幾個(gè)細(xì)節(jié):
重試獲取鎖的間隔時(shí)間應(yīng)當(dāng)是一個(gè)隨機(jī)范圍而非一個(gè)固定時(shí)間。這樣可以防止,多客戶端同時(shí)一起向Redis集群發(fā)送獲取鎖的操作,避免同時(shí)競(jìng)爭(zhēng)。同時(shí)獲取相同數(shù)量鎖的情況。(雖然概率很低)
如果某master節(jié)點(diǎn)故障之后,回復(fù)的時(shí)間間隔應(yīng)當(dāng)大于鎖的有效時(shí)間。
- 假設(shè)有A,B,C三個(gè)Redis節(jié)點(diǎn)。
- 客戶端foo獲取到了A、B兩個(gè)鎖。
- 這個(gè)時(shí)候B宕機(jī),所有內(nèi)存的數(shù)據(jù)丟失。
- B節(jié)點(diǎn)回復(fù)。
- 這個(gè)時(shí)候客戶端bar重新獲取鎖,獲取到B,C兩個(gè)節(jié)點(diǎn)。
- 此時(shí)又有兩個(gè)客戶端獲取到鎖了。
所以如果恢復(fù)的時(shí)間將大于鎖的有效時(shí)間,就可以避免以上情況發(fā)生。同時(shí)如果性能要求不高,甚至可以開啟Redis的持久化選項(xiàng)。
總結(jié)
了解了Redis分布式的實(shí)現(xiàn)以后,其實(shí)覺得大多數(shù)的分布式系統(tǒng)其實(shí)原理很簡(jiǎn)單,但是為了保證分布式系統(tǒng)的可靠性需要注意很多的細(xì)節(jié),瑣碎異常。
RedLock算法實(shí)現(xiàn)的分布式鎖就是簡(jiǎn)單高效,思路相當(dāng)巧妙。
但是RedLock就一定安全么?我還會(huì)寫一篇文章來討論這個(gè)問題。敬請(qǐng)大家期待。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:- Java編程redisson實(shí)現(xiàn)分布式鎖代碼示例
- 深入理解redis分布式鎖和消息隊(duì)列
- Redis實(shí)現(xiàn)分布式鎖的幾種方法總結(jié)
- Redis構(gòu)建分布式鎖
- redisson實(shí)現(xiàn)分布式鎖原理
- Redis上實(shí)現(xiàn)分布式鎖以提高性能的方案研究
- 基于Redis實(shí)現(xiàn)分布式鎖以及任務(wù)隊(duì)列
- Redis數(shù)據(jù)庫(kù)中實(shí)現(xiàn)分布式鎖的方法