用Python輕松完成一個分布式事務TCC,保姆級教程
什么是分布式事務?銀行跨行轉賬業務是一個典型分布式事務場景,假設A需要跨行轉賬給B,那么就涉及兩個銀行的數據,無法通過一個數據庫的本地事務保證轉賬的ACID,只能夠通過分布式事務來解決。
分布式事務就是指事務的發起者、資源及資源管理器和事務協調者分別位于分布式系統的不同節點之上。在上述轉賬的業務中,用戶A-100操作和用戶B+100操作不是位于同一個節點上。本質上來說,分布式事務就是為了保證在分布式場景下,數據操作的正確執行。
什么是TCC分布式事務,TCC是Try、Confirm、Cancel三個詞語的縮寫,最早是由 Pat Helland 于 2007 年發表的一篇名為《Life beyond Distributed Transactions:an Apostate’s Opinion》的論文提出。
TCC組成
TCC分為3個階段
- Try 階段:嘗試執行,完成所有業務檢查(一致性), 預留必須業務資源(準隔離性)
- Confirm 階段:如果所有分支的Try都成功了,則走到Confirm階段。Confirm真正執行業務,不作任何業務檢查,只使用 Try 階段預留的業務資源
- Cancel 階段:如果所有分支的Try有一個失敗了,則走到Cancel階段。Cancel釋放 Try 階段預留的業務資源。
TCC分布式事務里,有3個角色,與經典的XA分布式事務一樣:
- AP/應用程序,發起全局事務,定義全局事務包含哪些事務分支
- RM/資源管理器,負責分支事務各項資源的管理
- TM/事務管理器,負責協調全局事務的正確執行,包括Confirm,Cancel的執行,并處理網絡異常
如果我們要進行一個類似于銀行跨行轉賬的業務,轉出(TransOut)和轉入(TransIn)分別在不同的微服務里,一個成功完成的TCC事務典型的時序圖如下:
TCC實踐
對于前面的跨行轉賬操作,最簡單的做法是,在Try階段調整余額,在Cancel階段反向調整余額,Confirm階段則空操作。這么做帶來的問題是,如果A扣款成功,金額轉入B失敗,最后回滾,把A的余額調整為初始值。在這個過程中如果A發現自己的余額被扣減了,但是收款方B遲遲沒有收到余額,那么會對A造成困擾。
更好的做法是,Try階段凍結A轉賬的金額,Confirm進行實際的扣款,Cancel進行資金解凍,這樣用戶在任何一個階段,看到的數據都是清晰明了的。
下面我們進行一個TCC事務的具體開發
目前可用于TCC的開源框架,主要為Java語言,其中以seata為代表。我們的例子采用Python語言,使用的分布式事務框架為https://github.com/yedf/dtm,它對分布式事務的支持非常優雅。下面來詳細講解TCC的組成
我們首先創建兩張表,一張是用戶余額表,一張是凍結資金表,建表語句如下:
- CREATE TABLE dtm_busi.`user_account` (
- `id` int(11) AUTO_INCREMENT PRIMARY KEY,
- `user_id` int(11) not NULL UNIQUE ,
- `balance` decimal(10,2) NOT NULL DEFAULT '0.00',
- `create_time` datetime DEFAULT now(),
- `update_time` datetime DEFAULT now()
- );
- CREATE TABLE dtm_busi.`user_account_trading` (
- `id` int(11) AUTO_INCREMENT PRIMARY KEY,
- `user_id` int(11) not NULL UNIQUE ,
- `trading_balance` decimal(10,2) NOT NULL DEFAULT '0.00',
- `create_time` datetime DEFAULT now(),
- `update_time` datetime DEFAULT now()
- );
trading表中,trading_balance記錄正在交易的金額。
我們先編寫核心代碼,凍結/解凍資金操作,會檢查約束balance+trading_balance >= 0,如果約束不成立,執行失敗
- def tcc_adjust_trading(cursor, uid, amount):
- affected = utils.sqlexec(cursor, "update dtm_busi.user_account_trading set trading_balance=trading_balance + %d where user_id=%d and trading_balance + %d + (select balance from dtm_busi.user_account where id=%d) >= 0" % (amount, uid, amount, uid))
- if affected == 0:
- raise Exception("update error, maybe balance not enough")
然后是調整余額
- def tcc_adjust_balance(cursor, uid, amount):
- utils.sqlexec(cursor, "update dtm_busi.user_account_trading set trading_balance = trading_balance+ %d where user_id=%d" %( -amount, uid))
- utils.sqlexec(cursor, "update dtm_busi.user_account set balance=balance+%d where user_id=%d" %(amount, uid))
下面我們來編寫具體的Try/Confirm/Cancel的處理函數
- @app.post("/api/TransOutTry")
- def trans_out_try():
- # 事務以及異常處理
- tcc_adjust_trading(c, out_uid, -30)
- return {"dtm_result": "SUCCESS"}
- @app.post("/api/TransOutConfirm")
- def trans_out_confirm():
- # 事務以及異常處理
- tcc_adjust_balance(c, out_uid, -30)
- return {"dtm_result": "SUCCESS"}
- @app.post("/api/TransOutCancel")
- def trans_out_cancel():
- # 事務以及異常處理
- tcc_adjust_trading(c, out_uid, 30)
- return {"dtm_result": "SUCCESS"}
- @app.post("/api/TransInTry")
- def trans_in_try():
- # 事務以及異常處理
- tcc_adjust_trading(c, in_uid, 30)
- return {"dtm_result": "SUCCESS"}
- @app.post("/api/TransInConfirm")
- def trans_in_confirm():
- # 事務以及異常處理
- tcc_adjust_balance(c, in_uid, 30)
- return {"dtm_result": "SUCCESS"}
- @app.post("/api/TransInCancel")
- def trans_in_cancel():
- # 事務以及異常處理
- tcc_adjust_trading(c, in_uid, -30)
- return {"dtm_result": "SUCCESS"}
到此各個子事務的處理函數已經OK了,然后是開啟TCC事務,進行分支調用
- @app.get("/api/fireTcc")
- def fire_tcc():
- # 發起tcc事務
- gid = tcc.tcc_global_transaction(dtm, utils.gen_gid(dtm), tcc_trans)
- return {"gid": gid}
- # tcc事務的具體處理
- def tcc_trans(t):
- req = {"amount": 30} # 業務請求的負荷
- # 調用轉出服務的Try|Confirm|Cancel
- t.call_branch(req, svc + "/TransOutTry", svc + "/TransOutConfirm", svc + "/TransOutCancel")
- # 調用轉入服務的Try|Confirm|Cancel
- t.call_branch(req, svc + "/TransInTry", svc + "/TransInConfirm", svc + "/TransInCancel")
至此,一個完整的TCC分布式事務編寫完成。
如果您想要完整運行一個成功的示例,那么按照dtmcli-py-sample項目的說明tcc的例子即可
TCC的回滾
假如銀行將金額準備轉入用戶2時,發現用戶2的賬戶異常,返回失敗,會怎么樣?我們修改代碼,模擬這種情況:
- @app.post("/api/TransInTry")
- def trans_in_try():
- # 事務以及異常處理
- tcc_adjust_trading(c, in_uid, 30)
- return {"dtm_result": "FAILURE"}
這是事務失敗交互的時序圖
這個跟成功的TCC差別就在于,當某個子事務返回失敗后,后續就回滾全局事務,調用各個子事務的Cancel操作,保證全局事務全部回滾。
TCC網絡異常
TCC在整個全局事務的過程中,可能發生各類網絡異常情況,典型的是空回滾、冪等、懸掛,由于TCC的異常情況,和SAGA、可靠消息等事務模式有相近的地方,因此我們把所有異常的解決方案統統放在這篇文章分布式事務最經典的七種解決方案的異常處理章節進行講解
小結
在這篇文章里,我們介紹了TCC的理論知識,也通過一個例子,完整給出了編寫一個TCC事務的過程,涵蓋了正常成功完成,以及成功回滾的情況。相信讀者通過這邊文章,對TCC已經有了深入的理解。