Finarena:基于大模型智能體的金融市場分析和預測人機協作框架
金融市場復雜且動態,受經濟指標、地緣政治事件和投資者行為的影響,傳統線性分析方法難以捕捉其非線性特征。傳統統計方法(如CAPM、ARIMA)無法有效利用非結構化數據(如新聞、經濟報告)進行分析和預測。
本文提出FinArena框架,結合人機協作以改善股票趨勢預測和個性化投資決策。人模塊通過交互界面捕捉個體風險偏好,制定個性化投資策略。機器模塊利用基于大型語言模型的多代理系統整合多種金融數據源。
FinArena在股票趨勢預測和交易模擬中優于傳統和先進基準,顯示出提升投資結果的潛力。
論文地址:https://arxiv.org/pdf/2503.02692
【 掃描文末二維碼加入星球獲取論文 】
摘要
本文提出FinArena框架,結合人機協作以改善股票趨勢預測和個性化投資決策。人模塊通過交互界面捕捉個體風險偏好,制定個性化投資策略。機器模塊利用基于大型語言模型的多代理系統整合多種金融數據源。采用自適應檢索增強生成(RAG)方法處理非結構化新聞數據,解決LLM的幻覺問題。通用專家代理根據提取的特征和投資者風險偏好做出投資決策。實驗表明,FinArena在股票趨勢預測和交易模擬中優于傳統和先進基準,顯示出提升投資結果的潛力。
簡介
金融市場復雜且動態,受經濟指標、地緣政治事件和投資者行為的影響,傳統線性分析方法難以捕捉其非線性特征。傳統統計方法(如CAPM、ARIMA)無法有效利用非結構化數據(如新聞、經濟報告)進行分析和預測。
大型語言模型(LLMs)如GPT系列在金融分析中展現出潛力,能夠處理非結構化數據,提取情感和趨勢。領域特定模型(如FinBERT、BloombergGPT)在金融情感分析和實體識別等任務中表現良好。LLMs在多項金融任務中的初步應用顯示其有效性,能夠整合交易數據、技術分析和情感評分進行價格趨勢預測。LLM在金融分析中的應用面臨三大挑戰:
- 不確定性:LLM對未在訓練數據中出現的信息處理能力差,可能導致生成不準確的信息,影響分析和預測的可靠性。
- 多模態數據整合:金融市場分析需整合時間序列、表格和非結構化數據,LLM主要處理語言,如何有效利用多種數據仍需深入研究。
- 人機協作缺乏:現有研究多集中于機器學習方法與人類專家的對抗,缺乏針對普通投資者的協作框架研究。
本研究提出了一個名為FinArena的人機協作框架,用于處理多模態金融數據分析和投資者風險偏好輸入。該框架采用混合專家(MoE)方法,分為人類模塊和機器模塊。人類模塊通過交互界面捕捉個體風險偏好,實現個性化投資策略。機器模塊整合多個專注于不同金融數據類型的LLM(大語言模型),如歷史股價、企業新聞和財務報表。每個專家組獨立分析特定信息,最終由通用專家模型綜合分析結果,并考慮投資者的風險偏好。在新聞數據處理中,采用自反過程過濾無關信息,并引入自適應檢索增強生成(RAG)方法,減少無關響應和幻覺問題。財務報表分析采用迭代分析過程,使多個LLM逐步推理分析,類似人類思維,輸出公司基本面的洞察和置信度。
本文貢獻主要體現在三個方面:
- 開源小規模金融數據集,包含新聞文章、歷史股價和財務報表,關注散戶投資者的信息獲取。
- 提出基于MoE方法的人機協作框架,處理多模態金融數據,采用自適應RAG減少LLM的幻覺現象。
- 對FinArena與多基線模型進行全面評估,設計輸入模塊捕捉投資者風險偏好,識別最佳時機,并討論A股與美股的實驗表現差異。
相關工作
基于歷史股票價格的財務模型
金融市場的隨機性和波動性使得確定性模型難以準確描述,需發展應對不確定性的模型。歷史股價數據是時間序列分析的主要來源,ARIMA模型推動了金融分析的統計預測,但其在非平穩性和高階差分方面存在局限。GARCH模型能捕捉波動聚集,但對沖擊和極值的捕捉能力不足,且計算復雜性高,普通投資者難以使用。
機器學習方法(如CNN和LSTM)在金融時間序列預測中取得進展,但存在滯后效應問題。混合模型(如ARIMA-LSTM和WT-ARIMA-LSTM)嘗試結合傳統與機器學習方法,但仍依賴單一歷史股價數據,未能突破預測性能。當前金融建模存在依賴單一數據特征的顯著缺口,需整合更多金融數據特征,解決延遲和可解釋性問題,以滿足市場需求。
LLM代理用于金融市場分析
傳統股票價格預測模型依賴于歷史價格數據,但這種方法過于簡化,無法捕捉金融市場的復雜動態。金融市場中存在大量非結構化數據,傳統模型難以處理,而大語言模型(LLMs)在提取非結構化信息方面表現優異。LLMs可分為超大模型(如GPT-3、GPT-4)和經過微調的模型(如FinBERT、BloombergGPT、Xuanyuan 2.0、BBT-Fin等),后者專注于金融領域的優化。LLMs的進步改變了金融市場分析方式,提高了市場動態理解和預測準確性,預計將成為金融市場分析方法演變的基石。
現有多代理LLM系統的探討
現有的通用LLM在處理多模態金融數據時效果不佳,主要因預訓練數據不足,無法捕捉特定信息。研究方向轉向使用專門的LLM處理不同類型數據,如RiskLabs、SEP和FinAgent等系統已展示了多LLM組合的有效性。當前研究存在問題:數據需求大且成本高,不利于普通投資者;依賴預訓練知識,易產生幻覺;忽視投資者的風險偏好,導致決策單一。
本研究提出人機協作框架FinArena,解決上述問題:部署多LLM分析多模態數據,引入自適應RAG方法處理新聞文本幻覺,設計投資者風險偏好輸入模塊,實現AI與人類的協作投資決策。
整體框架
概覽
FinArena由兩個部分組成:三個專門的代理和一個分析單元。三個代理分別為:
- 時間序列代理:處理股票時間序列數據,預測未來股價。
- 新聞代理:總結新聞文章,提取見解,訪問在線資源。
- 財務報表代理:分析財務指標,具備迭代推理能力。
分析單元綜合三者的結果,依據投資者的風險偏好提供個性化投資建議(買入或賣出)。
生成時間序列的代理
傳統股票價格預測方法主要依賴數學模型(如ARIMA、GARCH)和機器學習算法(如XGBoost、LSTM),但這些方法需要復雜模型和特定實施策略,適用性有限。
FinArena采用專門的LLM進行時間序列分析,用戶只需輸入股票時間序列數據,代理即可預測未來股票價格。
預測模型通過最大化條件概率P來構建,X為歷史價格和協變量的特征空間,P為未來價格的預測空間。
預測空間P的生成基于一個微分方程,表示預測空間隨時間的變化率。
時間序列代理生成預測空間P后,通過函數H將其轉化為0-1的趨勢輸出時間序列O。
不確定性驅動的自適應新聞代理
新聞文章分析在金融投資決策中的需求增加,但處理長文本新聞仍具挑戰。LLM在文本處理上強大,但對不熟悉的詞匯可能無能為力。RAG方法提高了準確性、效率和個性化。
本文設計了一種自適應RAG方法,使LLM能夠進行不確定性驅動的信息檢索。新聞代理結合LLM的優勢,適應動態新聞內容。傳統信息檢索依賴靜態預訓練語料,無法涵蓋現代新聞的動態詞匯。過度依賴RAG可能降低處理簡單問題的效率,尤其對低成本投資者而言,頻繁調用搜索引擎API成本高。
新聞代理引入判斷模塊(J),判斷復雜查詢是否可由預訓練語料直接解決。J為隨機過程,返回0表示預訓練足夠,返回1表示不足。
S表示新聞代理的總結、分析和預測,O為未來股價走勢的預測。
財務報表分析的迭代推理代理
FinArena開發了一個迭代推理代理(Statement Agent),用于分析公司財務報表,包含三個步驟。
- 第一步:LLM識別公司財務報表中的季節性模式,理解公司財務健康的周期性。
- 第二步:將第一步提取的季節性模式與原始財務報表一起提交給第二個LLM,進行全面的年度運營分析。
- 第三步:LLM預測公司股票的潛在漲跌,并根據前一步的分析賦予信心等級。
輸出O來自第三步,包含公司股票價格變化的長期趨勢和LLM的信心水平。迭代推理代理相較于傳統的思維鏈(CoT)微調,更充分利用財務報表并整合自身對數據的理解,增強可解釋性。
信息聚合系統與人機協作
現代金融投資決策復雜,需團隊合作,單一決策者難以完成。有效團隊合作對解決超出個人能力的大規模問題至關重要。投資決策通常通過小組協作進行,各角色專注不同領域(市場分析、風險管理、戰略分析)。多智能體大語言模型(LLMs)可模擬這種協作,利用不同模型的優勢進行分析。例如,TimeGPT適合處理時間數據,而LLaMA和GPT系列適合文本分析。這種聚合系統能像投資團隊一樣,完成復雜的投資決策任務。
人類專家在投資決策中不可或缺,提供多代理系統無法復制的細膩、直覺和適應性。FinArena系統促進不同LLM代理的協作,并優先整合人類專家的參與。投資者可主動參與決策,監控分析結果、評估響應概率,并與AI專家互動。
報告代理為人機互動提供接口,允許投資者在預測和投資建議前表達風險偏好。模型功能T將投資者的風險偏好R與輸出空間O結合,生成投資建議A。Kt為狀態轉移修正,調整LLM代理對人類反饋的理解。
FinArena強調人機協作在復雜投資問題中的重要性,確保投資者的獨特見解和風險偏好被納入決策過程。
數據集
本研究選擇構建私有數據集,以彌補公共數據集的不足,如信息相關性差、過時或內容長度不足。公共數據集常包含多種新聞主題,可能稀釋金融因素的關注度,且僅提供標題,缺乏上下文。自建數據集確保數據的時效性和相關性,全面捕捉金融新聞及其對市場動態的影響。數據集規模考慮到小型投資者的需求,避免過大或過于昂貴。
實驗在A股和美國股市進行,數據時間范圍為2023年1月1日至2024年3月30日,以減少對LLM預訓練數據的過度估計。選擇公司基于影響力、信息透明度和數據可用性,確保所選公司在行業內具有顯著影響力和高信息披露水平。股票價格數據關注開盤價、收盤價和交易量,作為市場表現的基本指標,便于投資者使用。
財務新聞對市場情緒和投資決策至關重要,及時準確的信息幫助投資者在動態市場中做出明智選擇。現有公共數據集缺乏具體性、時效性和主題聚焦,構建定制數據集以提高研究相關性和影響力。對于A股公司,系統爬取《國家商報》網站的相關新聞;對美國公司,使用《商業今日》網站,提取包含特定關鍵詞的文章。新聞數據包括“標題”、“日期”和“文本”三個字段,經過時間格式標準化和無關文本刪除后,使用k-means聚類選擇同日期范圍內的代表性文章。
財務報表反映公司運營狀況,但完整報告龐大,難以有效提取信息。采用Tsanghi API選擇資產負債表、現金流量表和利潤表的關鍵財務指標,合并為單一輸入文件,支持已有研究認為財務表格數據的增值有限。
實驗
本文評估FinArena框架在股票運動預測和交易模擬中的表現。
- RQ1:FinArena在股票運動預測上與傳統基準的比較。
- RQ2:廣泛使用非結構化數據(如新聞數據)的優勢。
- RQ3:個體市場預期對AI專家決策準確性的影響。
- RQ4:FinArena的有效利用及個體風險偏好對交易模擬效果的影響。
實驗設置
使用DeepSeek-v2模型創建新聞代理和聲明代理,處理非結構化數據;TimeGPT用于歷史股價數據,開發股票代理;最終AI專家基于gpt-4o-mini模型構建。
針對RQ2,使用LLAMA-3-70B和Kimi模型創建非結構化數據代理,分別處理英文和中文文本。
股票運動預測中,AI專家生成二元預測,評估方法使用準確率和F1分數。
股票交易模擬中,基于趨勢預測提供買賣持有建議,考慮四種風險配置:保守型、中度保守型、中度激進型和激進型,分別在交易中分配不同比例的閑置資金。
評估FinArena及基線模型的表現,使用年化收益、夏普比率和最大回撤比率等指標。
基線
比較FinArena與ARIMA、LSTM和TimeGPT等基準模型在股票預測中的表現。ARIMA模型使用AIC和BIC確定差分階數為2,并通過網格搜索選擇滯后階數。LSTM模型為4層,訓練200個epoch,批量大小為32。TimeGPT模型將開盤價、最高價和最低價作為外生變量預測收盤價變化。
股票交易模擬中,比較隨機策略和特定交易方法,如買入上漲連續和賣出下跌連續策略(BRSF)。評估基于ARIMA和LSTM模型的策略,并補充僅依賴新聞數據的實驗結果作為基線。
所有方法經過嚴格評估,以確保在數據集中的全面性能比較。
結果
股票走勢預測
FinArena在八個案例中超越多個基線模型,表明多模態數據分析優于單一股票價格分析,回答RQ1和RQ2。Kimi和LLaMA 3相較于DeepSeek-v2表現下降,說明過度關注新聞語言風格可能引入人類偏見,影響分析準確性。在使用DeepSeek-v2時,預先告知投資者市場態度會導致性能下降,尤其是“無敏感”態度影響最小,回答RQ3。RAG的引入顯著提升模型的準確性和F1-Score,尤其在A股公司中效果更顯著,可能因信息復雜性更高。
股票交易模擬
對FinArena與基線模型的性能進行全面回測,時間范圍為2024年1月1日至3月27日,結果已年化以便比較。不同策略基于FinArena預測結果的收益普遍超過基線,M.Agg在年化收益率和夏普比率表現最佳,但最大回撤表現最差。不同風險偏好影響投資回報,FinArena通過整合信息提高了收益的下限,最終回報仍由投資者掌控。
FinArena在多股票投資中表現優于平均投資者,驗證了人機協作架構的有效性。在Nvidia等個別股票上,BRSF“經驗法”表現優異,AR和SR結果最高。A股市場中,FinArena的投資方法均導致負收益,而基準方法實現正收益。績效不佳歸因于個體投資者數據集的不完整和不足,未來研究方向為如何利用不完整數據提高分析和預測準確性,以服務小規模低成本投資者。
討論
FinArena在美國股市數據集上的預測性能優于其他方法,具有最高準確率和最低方差,表明不同數據類型的利潤相關信息分布良好。在A股市場數據集上,FinArena的效果較差,傳統機器學習模型(如LSTM)在某些股票預測上有優勢,但整體表現平平。A股市場的信息不對稱問題嚴重,許多公司缺乏足夠的新聞覆蓋,且正面新聞占比異常高,可能與監管政策和信息披露限制有關。投資策略偏好在兩市場中顯著影響最終收益,且沒有單一策略明顯占優,反映出市場結構、信息可及性和投資者行為的復雜性。
總結
FinArena是一個創新的人機協作框架,利用多個專門的LLM代理進行金融數據分析和預測,旨在提高股票走勢預測的準確性和可靠性。通過整合多種金融數據(如股票價格、新聞文章和財務報表),FinArena在預測股票運動方面優于傳統和先進基準,取得更高的準確率和F1分數。在股票交易模擬中,FinArena根據不同風險偏好展現出不同的收益,適度激進策略獲得最佳年化收益和夏普比率,而保守策略則提供更好的風險管理。
FinArena在美國市場表現優異,但在A股市場表現不穩定,可能與信息披露和數據質量有關,強調市場成熟度和透明度對多代理LLM投資模型表現的重要性。FinArena的多模態方法和自適應機制解決了傳統金融建模中的關鍵挑戰,為個性化投資決策提供了強有力的解決方案。
本文轉載自???靈度智能???,作者: 靈度智能
