FlowHFT: 基于模仿學習的高頻交易框架,有效實現復雜極端市場情境中的策略優化
“FlowHFT: Flow Policy Induced Optimal High-Frequency Trading under Diverse Market Conditions”
市場做市(MM)是一種通過同時下買賣單來從買賣差價中獲利的交易策略,提供流動性并提高市場效率。高頻交易(HFT)是市場做市的一種形式,以毫秒或微秒的速度執行訂單,利用小幅價格變動獲利。
傳統HFT策略(如AS模型和GLFT模型)依賴歷史市場數據進行參數校準,但在市場條件變化時效果受限,容易導致次優表現。
本文提出FlowHFT框架,基于流匹配策略,能夠從多個專家模型中學習,適應不同市場狀態。FlowHFT包含網格搜索微調機制,能在復雜或極端市場情境中優化策略。
測試結果顯示,FlowHFT能夠在隨機環境中學習有效的交易策略,整合了不同市場情境下專家策略的知識,快速適應市場變化。FlowHFT在開發自適應高效高頻交易策略方面具有前景。
摘要
高頻交易(HFT)策略依賴歷史數據模型,假設未來市場狀態與過去相似,限制了模型的適用性。傳統模型在特定市場條件下表現最佳,但現實市場動態多變且常常波動。本文提出FlowHFT框架,基于流匹配策略,能夠從多個專家模型中學習,適應不同市場狀態。FlowHFT包含網格搜索微調機制,能在復雜或極端市場情境中優化策略。測試結果顯示,FlowHFT在隨機市場環境中有效學習交易策略,且在各市場條件下表現優于最佳專家。
簡介
市場做市(MM)是一種通過同時下買賣單來從買賣差價中獲利的交易策略,提供流動性并提高市場效率。高頻交易(HFT)是市場做市的一種形式,以毫秒或微秒的速度執行訂單,利用小幅價格變動獲利。
傳統HFT策略(如AS模型和GLFT模型)依賴歷史市場數據進行參數校準,但在市場條件變化時效果受限,容易導致次優表現。強化學習(RL)將HFT問題視為代理與市場環境的互動,旨在學習最大化累積獎勵的策略,但往往只優化單步動作,可能導致錯誤累積。HFT需要長遠視角,因為盈利依賴于從多個小收益中積累。每個動作都會影響后續的可行性和盈利能力。
本文提出FlowHFT框架,基于流匹配策略,結合模仿學習和網格搜索機制。第一部分通過模仿學習開發預訓練模型,觀察市場狀態并生成交易動作,模擬多種市場場景,選出最佳表現模型作為“專家”。FlowHFT通過模仿專家的動作整合多種策略,即使在次優情況下也能學習并改進。第二部分使用網格搜索機制微調預訓練模型提出的初始動作,生成最終交易動作。FlowHFT是首次將流匹配策略應用于金融隨機控制問題,展示出在市場條件變化時的適應性。
框架支持毫秒級快速推理,生成交易動作,并在價格劇烈波動時表現出顯著的魯棒性。通過生成動作序列而非單步決策,FlowHFT考慮了短期軌跡,減少了復合誤差,提高了戰略穩定性和表現。
預備知識
高頻交易(HFT)利用自動化算法在毫秒或微秒級別執行訂單,目標是通過買賣限價單從買賣差價中獲利。HFT市場做市任務可建模為離散時間步驟的隨機控制過程,時間集為T = {0, 1, ..., T}。觀察狀態空間O包含時間t的市場信息L_t(如限價訂單簿中的股票價格和買賣差價)和代理信息Z_t(如余額、當前庫存水平和時間t),即O ? L × Z × T。狀態S_t通常滿足馬爾可夫性質。
市場做市商選擇行動 A_t 來設置買賣報價,通常通過相對于參考價格 p_{ref}^t 的價差 (delta_b^t, delta_a^t) 參數化。系統演變由隨機轉移概率 P(O_{t+1} | O_t, A_t) 決定,反映市場狀態 L_{t+1} 和代理庫存 I_{t+1} 的變化。代理尋求最優策略 ( pi: O to A ),以最大化目標函數 J(pi) ,通常是期望最終價值與庫存風險懲罰的組合。優化問題為 max_{pi} J(pi),需要在復雜的隨機環境中動態平衡盈利能力與庫存和逆向選擇風險。
FlowHFT
FlowHFT骨干模型:流匹配策略
FlowHFT的核心是條件流匹配策略πθ(A t+1 | O t),通過模仿學習從專家演示中訓練,映射市場觀察O t到交易動作A t+1。目標是訓練神經網絡vθ(a, t | O t)來參數化條件向量場,定義從簡單先驗分布p prior(a 0)到專家交易動作序列p expert(a E | O t)的概率流。
訓練過程通過最小化網絡預測向量場vθ與目標向量場u t之間的差異,使用Flow Matching損失函數C_{FA}(θ)。
推理時,從先驗分布中采樣初始動作序列a 0,迭代求解常微分方程以生成高頻交易動作序列。
通過快捷策略加速推理
為滿足高頻交易的低延遲要求,引入快捷策略s?(a, t, ?t | O t),專門訓練以在更少的離散化步驟中生成高質量動作序列。
策略s ?的訓練旨在實現更大、更有信息量的離散步伐。結合了修正流和一致性模型的兩種策略。
在訓練數據的一部分中,策略通過直接目標向量x 1 ? x 0進行引導。
x 0為噪聲樣本,x 1為專家樣本,x t為插值。通過設置d = 0,模型s ?被訓練以對齊直接路徑速度,促進更直、更高效的生成路徑。
使用自一致性目標訓練策略,模型s ?通過預測較大步長的速度來匹配兩個小步長的結果,目標為s target ← stopgrad(s t + s t+d )/2,提升大步長的準確性。
訓練后的策略s ?可通過算法4以較少步驟(如1到5)生成高質量的動作序列,顯著降低推理延遲。
微調預訓練模型
框架的第一部分是流匹配策略,模仿專家策略;第二部分對預訓練策略進行微調,以超越專家表現。通過線性變換快速校準預訓練模型的動作,結合當前市場信息,提升實時適應性,效率高于傳統高頻交易模型。
預訓練模型輸出的動作序列通過線性變換調整,形式為 a' = a cdot a + b,其中 a 為標量縮放因子,b 為向量偏移量,二者通過驗證集校準。調整后的動作序列 a' 用于策略執行,通常從中執行第一個動作 a'_{t+1}。
模仿學習數據生成
市場模擬和專家模型
FlowHFT 是一個模仿學習框架,需準備高質量學習材料。生成多種市場場景,并評估候選專家(包括傳統算法和強化學習代理),選擇表現最佳者作為該場景的“專家”。使用專家策略生成的動作創建狀態-動作對,用于訓練 FlowHFT。
中間價格 S_t 被建模為跳躍-擴散過程,描述連續價格變動和突發跳躍。隨機微分方程為:
- mu:漂移系數,表示資產的預期收益。
- sigma:波動率,量化價格波動。
- dB_H(t):分數布朗運動增量,捕捉連續價格變動。
- J:跳躍大小,服從正態分布 N(mu_J, sigma_J^2)。
- dN_t:強度為 lambda_J 的泊松過程,建模跳躍發生。
訂單到達使用互激勵的霍克斯過程建模,捕捉自激勵和交叉激勵效應。
- 自激勵:先前的買(或賣)訂單增加后續相同類型訂單的到達。
- 交叉激勵:買訂單影響賣訂單的到達,反之亦然。
買賣訂單強度模型:
- 買單強度 λ_a(t) = μ_a + P α - β(t - t_i) - β(t - t_j)
- 賣單強度 λ_b(t) = μ_b + P α + β(t - t_j)
μ_a、μ_b 為基線強度;α_bb、α_aa 為自激勵效應;α_ba、α_ab 為交叉激勵效應;β 為衰減率;N_a、N_b 為過去訂單時間戳集合。
FlowHFT專家演示生成使用多種專家模型:
- Avellaneda-Stoikov (AS) 模型:考慮庫存風險和市場波動的最優報價框架。
- Guéant-Lehalle-Fernandez-Tapia (GLFT) 模型:擴展最優控制方法,包含訂單流動態。
- 修改版 GLFT 模型:加入價格漂移成分,適應趨勢市場。
- 基于強化學習的無模型代理:使用近端策略優化(PPO)訓練,最大化獎勵函數。
市場情景生成
創建高、中、低流動性市場場景,測試模型在壓力下的表現。模擬市場環境的參數:
- Hurst成分水平:Hurst指數H反映長期記憶特性,H>0.5為趨勢跟隨,H<0.5為均值回歸,H=0.5為無記憶性。
- 波動性水平:通過波動參數σ控制,高σ導致更大價格波動。
- 流動性水平:通過基線強度μb、μa和Hawkes過程的激勵參數調整,高流動性對應高到達率。
- 突發市場變化:通過引入跳躍事件,增加跳躍強度λJ和跳躍大小J。
其中:
- 時間步長(dt):0.01, 0.02
- 漂移(μ):0.01, 0.05, 0.2
- 波動率(σ):0.1, 0.2, 0.4
- Hurst指數(H):0.3, 0.5, 0.7
- 跳躍強度(λ j):0.05, 0.1, 0.2
- 買賣基線強度(μ a, μ b):10, 20, 40
- 策略:主導隨機策略
- 參數組合總數:486
狀態-動作對的生成
為每個市場生成狀態-動作對,模擬100個回合。每個回合包含1/dt時間步,收集專家策略的狀態-動作對。從候選策略(AS, GLFT, GLFT-Drift, PPO)中獲取主導隨機策略的狀態-動作對。總共收集了162萬狀態-動作對,作為擴散策略的訓練數據集。數據集覆蓋廣泛的市場條件,確保穩健的策略學習。
實驗
實驗在不同于訓練階段的市場條件下進行,以評估FlowHFT的適應性和性能。研究問題包括:
- FlowHFT能否將專家演示學習的策略有效推廣到新市場條件?
- 集成微調機制是否顯著提升預訓練模型提出的行動表現?
- FlowHFT框架在挑戰性外樣本情況下能否實現更高的盈利能力?
測試市場環境設定
設置Hurst指數(H)為0.2、0.5、0.8,分別模擬強均值回歸、隨機游走和強趨勢市場。漂移參數(μ)為0或0.2,分別表示無趨勢市場和一般看漲市場。形成6種市場場景(2×3)基于趨勢和記憶特性。進一步細分為4種微觀市場結構:高波動/高到達率(HH)、高波動/低到達率(HL)、低波動/高到達率(LH)、低波動/低到達率(LL),共24種場景(6×4)。設計用于評估高頻交易策略在不同市場條件下的適應性和表現。通過驗證集調整參數,隨后在交易階段應用于流匹配模型的行動調節。
評估指標
- 利潤與損失(PnL):衡量交易策略產生的總利潤。
- 夏普比率(SR):評估風險調整后的收益。
- 最大回撤(MDD):衡量風險,計算PnL的最大峰值到谷值的下降幅度。
結果分析
GLFT模型通常優于AS模型,預訓練的流匹配策略模型與GLFT教師的表現相當,表明其成功學習了有效策略。微調后的流匹配策略模型在各測試環境中顯著超越傳統基線模型(AS和GLFT)及初始預訓練模型,驗證了框架的第二核心目標。微調過程使模型能夠根據驗證集校準“感知”市場條件,調整行為以適應特定市場環境。表4-7擴展了波動率和到達率選項,以研究更廣泛的未見場景。
總結
本文提出了新型模仿學習框架FlowHFT,首次將流匹配策略應用于金融隨機控制任務。FlowHFT能夠在隨機環境中學習有效的交易策略。該框架整合了不同市場情境下專家策略的知識,快速適應市場變化。引入的網格搜索機制優化了行動,尤其在專家策略不佳時表現突出。
本文轉載自??靈度智能??,作者:靈度智能
