數(shù)據(jù)庫連接配置策略和實(shí)踐指南
一 前言
應(yīng)用執(zhí)行SQL請求完成的過程中,數(shù)據(jù)庫連接占很重要一部分。尤其是涉及到流量瞬間暴漲,需要?jiǎng)?chuàng)建大量連接,或者網(wǎng)絡(luò)異常導(dǎo)致重連時(shí),從業(yè)務(wù)端來看,sql執(zhí)行緩慢的問題,此時(shí)sql執(zhí)行并非真的慢。本文是基于我們自己的生產(chǎn)環(huán)境的Durid實(shí)踐,僅供各位參考,當(dāng)然不同公司的鏈路/業(yè)務(wù)壓力可能不一樣。具體到個(gè)別參數(shù)需要區(qū)別對待。
二 具體實(shí)踐
從整體系統(tǒng)的角度,我們要考慮幾個(gè)點(diǎn) ,數(shù)據(jù)庫連接數(shù)配置多少合適,針對空閑連接,網(wǎng)絡(luò)異常的超時(shí)時(shí)間,如何高效復(fù)用連接,druid 版本選擇這幾個(gè)方面來介紹。
2.1 如何設(shè)置連接池大小
合適的連接池大小和業(yè)務(wù)請求的 QPS 和 單個(gè)請求的 RT(單位為毫秒)。基本公式:
連接數(shù) = QPS /(1000/RT) + N = QPS * RT /1000 + N
注意: 此處 QPS 和 RT 為單個(gè)應(yīng)用端統(tǒng)計(jì)。假定隨連接數(shù)量增加,客戶端能處理的請求數(shù)線性增加。
舉個(gè)例子
- 比如 一個(gè)請求的耗時(shí)rt=2ms,每個(gè)連接能處理的請求數(shù)量
- S = 1000/2 =500 ,
- 業(yè)務(wù)層總請求量是 M=5000 ,那么合理的連接數(shù)為
- M/S=5000/500=10
- 為了避免連接數(shù)被占滿,我們會在上面的連接數(shù)的基礎(chǔ)上再加上N ,最終的連接數(shù)為10+N .
統(tǒng)計(jì)平時(shí)的最大 QPS 和此時(shí)的 RT,以此計(jì)算 minIdle,并設(shè)置 initialSize = minIdle。
統(tǒng)計(jì)峰值時(shí)的 QPS 和此時(shí)的 RT,以此計(jì)算 maxActive。
可以通過以下方法,通過 jmx 觀察 Druid 實(shí)際的連接池狀況,重點(diǎn)關(guān)注 ActiveCount:活動連接數(shù),PoolingCount:池子中的連接數(shù)。并根據(jù)實(shí)際情況考慮調(diào)整。
- java -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+TieredCompilation -XX:TieredStopAtLevel=1 -Xverify:none -client -jar /PATH/cmdline-jmxclient-0.10.3.jar - 127.0.0.1:7777 'com.alibaba.druid:type=DruidDataSourceStat' DataSourceList |& grep -E 'ActiveCount|PoolingCount'
2.2 如何設(shè)置超時(shí)時(shí)間
連接池中的超時(shí)時(shí)間主要有:
- connectTimeout 建立 TCP 連接的超時(shí)時(shí)間
- maxWait 從連接池獲取連接的最長等待時(shí)間
- socketTimeout 發(fā)送請求后等待響應(yīng)的超時(shí)時(shí)間
其中,connectTimeout 建議不要小于 1200ms。TCP 在建立連接時(shí),SYN 包的超時(shí)重傳時(shí)間為 1s。connectTimeout 設(shè)置過短,很可能造成應(yīng)用發(fā)布時(shí),初始化連接池過程中由于網(wǎng)絡(luò)抖動,或中間網(wǎng)絡(luò)設(shè)備需要初始化狀態(tài)發(fā)生丟包觸發(fā)超時(shí),從而造成連接池初始化失敗而導(dǎo)致發(fā)布失敗。
socketTimeout 可以根據(jù)應(yīng)用最長的查詢返回時(shí)間設(shè)置。過長會造成生網(wǎng)絡(luò)問題,或數(shù)據(jù)庫服務(wù)有問題時(shí)雪崩;過短也會造成頻繁請求超時(shí)。不要短于 300ms。TCP 的最小 RTO 為 200ms,并根據(jù)延遲動態(tài)調(diào)整。過短的超時(shí)時(shí)間會造成單個(gè)丟包就造成請求超時(shí)。生產(chǎn)環(huán)境數(shù)據(jù)庫都配置有 SQL Killer,會自動殺死執(zhí)行時(shí)間過長的請求。因此,設(shè)置過長的 socketTimeout 也是沒有意義的。
maxWait 可以根據(jù)應(yīng)用期待的等待時(shí)間設(shè)置。為避免在發(fā)生網(wǎng)絡(luò)問題,或數(shù)據(jù)庫服務(wù)有問題時(shí)雪崩,這個(gè)時(shí)間設(shè)置不要過大。下面的默認(rèn)值 800ms 是個(gè)保守的設(shè)置。應(yīng)用可以設(shè)置一個(gè)更短的時(shí)間,如 300ms。過短的時(shí)間也會造成在連接池中連接數(shù)不足,需要新建連接時(shí)造成大量超時(shí)。建議不要低于 100ms。
2.3 如何設(shè)置連接保持時(shí)間
設(shè)置連接保持活躍的時(shí)間需要考慮是直連還是通過數(shù)據(jù)庫中間件proxy連接。一般現(xiàn)在的生產(chǎn)環(huán)境大多為:
- App -> LVS -> Proxy -> DB
其中應(yīng)用到 RDS 的訪問路徑為 App -> LVS -> Proxy 。
其中,LVS 空閑連接保留時(shí)間為 90s。Proxy 為了避免訪問到已被關(guān)閉的連接,自身的空閑連接保留時(shí)間為 [70, 85) s。因此,應(yīng)用程序?yàn)榱吮苊鈴倪B接池獲取到已被關(guān)閉的連接,應(yīng)當(dāng)設(shè)置自身保留空閑連接時(shí)間不能超過70s。打開KeepAlive之后的效果
- 初始化連接池時(shí)會填充到minIdle數(shù)量。
- 連接池中的minIdle數(shù)量以內(nèi)的連接,空閑時(shí)間超過
- minEvictableIdleTimeMillis,則會執(zhí)行keepAlive操作。
- 當(dāng)網(wǎng)絡(luò)斷開等原因產(chǎn)生的由ExceptionSorter檢測出來的死連接被清除后,自動補(bǔ)充連接到minIdle數(shù)量。
- timeBetweenEvictionRunsMillis=10000,
- minEvictableIdleTimeMillis=44000,
- maxEvictableIdleTimeMillis=55000。
2.4 必選配置項(xiàng)
以下默認(rèn)配置可以根據(jù)實(shí)際情況調(diào)整。
- <bean id="cartDataSource" class="com.alibaba.druid.pool.DruidDataSource"
- init-method="init" destroy-method="close">
- <property name="url" value="${cluster.jdbc.url}"/>
- <property name="username" value="${cluster.jdbc.username}"/>
- <property name="password" value="${cluster.jdbc.password}"/>
- <property name="connectionInitSqls" value="set names utf8mb4"/>
- <!-- 連接池初始連接數(shù) -->
- <property name="initialSize" value="5" />
- <!-- 允許的最大同時(shí)使用中(在被業(yè)務(wù)線程持有,還沒有歸還給druid) 的連接數(shù) -->
- <property name="maxActive" value="20" />
- <!-- 允許的最小空閑連接數(shù),空閑連接超時(shí)踢除過程會最少保留的連接數(shù) -->
- <property name="minIdle" value="5" />
- <!-- 從連接池獲取連接的最大等待時(shí)間 800毫秒;業(yè)務(wù)方根據(jù)可以自行調(diào)整-->
- <property name="maxWait" value="800" />
- <!-- 一條物理連接的最大存活時(shí)間 120分鐘-->
- <property name="phyTimeoutMillis" value="7200000"/>
- <!-- 強(qiáng)行關(guān)閉從連接池獲取而長時(shí)間未歸還給druid的連接(認(rèn)為異常連接)-->
- <property name="removeAbandoned" value="true"/>
- <!-- 異常連接判斷條件,超過180 秒 則認(rèn)為是異常的,需要強(qiáng)行關(guān)閉 -->
- <property name="removeAbandonedTimeout" value="180"/>
- <!-- 從連接池獲取到連接后,如果超過被空閑剔除周期,是否做一次連接有效性檢查 -->
- <property name="testWhileIdle" value="true"/>
- <!-- 從連接池獲取連接后,是否馬上執(zhí)行一次檢查 -->
- <property name="testOnBorrow" value="false"/>
- <!-- 歸還連接到連接池時(shí)是否馬上做一次檢查 -->
- <property name="testOnReturn" value="false"/>
- <!-- 連接有效性檢查的SQL -->
- <property name="validationQuery" value="SELECT 1"/>
- <!-- 連接有效性檢查的超時(shí)時(shí)間 1 秒 -->
- <property name="validationQueryTimeout" value="1"/>
- <!-- 周期性剔除長時(shí)間呆在池子里未被使用的空閑連接, 10秒一次-->
- <property name="timeBetweenEvictionRunsMillis" value="10000"/>
- <!-- 空閑多久可以認(rèn)為是空閑太長而需要剔除 44 秒-->
- <property name="minEvictableIdleTimeMillis" value="44000"/>
- <!-- 如果空閑時(shí)間太長即使連接池所剩連接 < minIdle 也會被剔除 55 秒 -->
- <property name="maxEvictableIdleTimeMillis" value="55000"/>
- <!-- 是否設(shè)置自動提交,相當(dāng)于每個(gè)語句一個(gè)事務(wù) -->
- <property name="defaultAutoCommit" value="true"/>
- <!-- 記錄被判定為異常的連接 -->
- <property name="logAbandoned" value="true"/>
- <!-- 網(wǎng)絡(luò)讀取超時(shí),網(wǎng)絡(luò)連接超時(shí)
- socketTimeout : 對于線上業(yè)務(wù)小于5s,對于BI等執(zhí)行時(shí)間較長的業(yè)務(wù)的SQL,需要設(shè)置大一點(diǎn)
- -->
- <property name="connectionProperties" value="socketTimeout=3000;connectTimeout=1200"/>
- <property name="proxyFilters">
- <list>
- <ref bean="log-filter"/>
- </list>
- </property>
- </bean>
1.0.28版本之后,新加入keepAlive配置,缺省關(guān)閉。使用keepAlive功能,建議使用1.1.16或者更高版本。一般業(yè)務(wù)無需打開,除非分鐘請求量在個(gè)位數(shù)或者啟動時(shí)間超長導(dǎo)致初始連接都過期。
2.5 druid版本
建議使用最新版本,不要使用太老的版本,以免遇到 bug。
e.g. Maven 配置:
- <dependency>
- <groupId>com.alibaba</groupId>
- <artifactId>druid</artifactId>
- <version>1.0.27</version>
- </dependency>
三 小結(jié)
本文算是數(shù)據(jù)庫連接池配置(案例及排查指南) 的一個(gè)補(bǔ)充,希望對需要關(guān)注數(shù)據(jù)庫連接配置的朋友有所幫助。