大型語言模型能打敗華爾街嗎?揭示人工智能在選股方面的潛力
人工智能(AI)在金融領域的應用已經引起了廣泛的關注和討論,尤其是在股票市場的分析和預測方面。隨著大數據的發展和深度學習的進步,越來越多的研究者和投資者試圖利用AI的強大計算和推理能力,來提取和利用各種類型的數據,包括市場價格、財務報告、新聞報道、宏觀經濟等,以期獲得更高的收益和更低的風險。AI在金融領域的應用仍然面臨著許多挑戰和限制,例如數據的質量和可靠性、模型的復雜性和可解釋性、市場的動態性和不確定性等。
LLM在金融領域的應用引起了研究者的興趣,尤其是在利用文本數據進行股票分析和預測方面。文本數據是一種重要的非結構化數據,包含了大量的信息和情感,對股票市場的走勢和股票的表現有著重要的影響。文本數據的處理和分析是一項具有挑戰性的任務,需要對語言的語法、語義、邏輯、修辭等進行深入的理解和推理。LLM的出現為解決這一問題提供了一種新的可能,它可以利用其強大的語言能力,從文本數據中提取和生成有價值的信息和信號,從而 幫助投資者做出更好的選股決策。
本文介紹了一篇最新的論文,題為《Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection》,該論文由來自希臘雅典信息技術研究所(AIT)的Georgios Fatouros、Konstantinos Metaxas、John Soldatos和Dimosthenis Kyriazis等四位作者撰寫,于2024年1月8日在arXiv上發表。該論文提出了一個創新的基于AI的股票分析和選擇框架,名為MarketSenseAI,利用GPT-4的先進推理能力,實現了可擴展的選股信號的生成。MarketSenseAI結合了思維鏈(Chain of Thought)和情境學習(In-Context Learning)的方法,分析了包括市場價格動態、財經新聞、公司基本面和宏觀經濟報告等在內的多種數據源,模擬了著名的金融投資團隊的決策過程。該論文詳細介紹了MarketSenseAI的開發、實現和實證驗證,重點關注了它提供的可行的投資信號(買入、持有、賣出),以及這些信號背后的有說服力的解釋。該論文的一個顯著特點是,它不僅將GPT-4作為一種預測工具,還將其作為一種評估器,揭示了AI生成的解釋對于投資信號的可靠性和接受度的重要影響。在對標普100指數的股票進行了廣泛的實證評估后,該論文發現,MarketSenseAI在保持與市場相當的風險水平的同時,超過了基準指數13%,實現了高達40%的回報。這些結果證明了LLM在復雜的金融決策中的有效性,標志著將AI集成到金融分析和投資策略中的重大進步。該論文為金融AI領域做出了貢獻,展示了一種創新的方法,強調了AI在革新傳統的金融分析和投資方法方面的變革潛力。
本文將對該論文進行全面的解讀,從以下幾個方面進行分析:(1)該論文的主要貢獻和創新點;(2)該論文的核心方法和技術;(3)該論文的實驗設計和結果;(4)該論文的局限性和未來展望。本文的目的是為讀者提供一個清晰和深入的理解,幫助讀者掌握該論文的主要內容和意義,以及對金融AI領域的啟示和影響。
01 主要貢獻和創新點
論文提出了一個創新的基于AI的股票分析和選擇框架,名為MarketSenseAI,利用GPT-4的先進推理能力,實現了可擴展的選股信號的生成。該框架結合了思維鏈(Chain of Thought)和情境學習(In-Context Learning)的方法,分析了包括市場價格動態、財經新聞、公司基本面和宏觀經濟報告等在內的多種數據源,模擬了著名的金融投資團隊的決策過程。該框架不僅提供了可行的投資信號(買入、持有、賣出),還提供了這些信號背后的有說服力的解釋,幫助投資者理解和信任AI的建議。
作者對MarketSenseAI的性能進行了廣泛的實證評估,使用了多種評估方法和指標,包括自助法、市場表現和基于排名的后評估。在對標普100指數的股票進行了為期一年的回測后,該論文發現,MarketSenseAI在保持與市場相當的風險水平的同時,超過了基準指數13%,實現了高達40%的回報。這些結果證明了LLM在復雜的金融決策中的有效性,標志著將AI集成到金融分析和投資策略中的重大進步。
這篇論文為金融AI領域做出了貢獻,展示了一種創新的方法,強調了AI在革新傳統的金融分析和投資方法方面的變革潛力。該論文不僅利用了LLM的語言能力,還利用了LLM的推理能力,從而提高了信號的質量和解釋的可信度。該論文還探討了LLM在金融領域的應用的局限性和挑戰,以及未來的研究方向和機遇。
02 核心方法和技術
MarketSenseAI的架構和流程。該論文設計了一個基于AI的股票分析和選擇框架,名為MarketSenseAI,其架構如圖1所示。該框架包括四個主要的組件,分別是數據獲取、數據處理、信號生成和信號評估。數據獲取組件負責從多種數據源收集和存儲相關的數據,包括市場價格動態、財經新聞、公司基本面和宏觀經濟報告等。數據處理組件負責對收集的數據進行清洗、標準化、歸一化、特征提取等操作,以便于后續的分析和預測。信號生成組件負責利用GPT-4的先進推理能力,結合思維鏈(Chain of Thought)和情境學習(In-Context Learning)的方法,分析數據,生成投資信號(買入、持有、賣出)和相應的解釋。信號評估組件負責利用GPT-4的評估能力,對信號和解釋進行評分,以反映其可靠性和接受度。該框架的流程分為三個階段,分別是數據階段、信號階段和評估階段。數據階段包括數據獲取和數據處理兩個組件,信號階段包括信號生成組件,評估階段包括信號評估組件。該框架的目標是為投資者提供可行的選股信號和有說服力的解釋,幫助投資者做出更好的選股決策。
圖1 MarketSenseAI的架構
在論文中使用多種數據源,包括市場價格動態、財經新聞、公司基本面和宏觀經濟報告等,以覆蓋股票市場的各個方面和影響因素。市場價格動態是指股票的歷史價格和交易量等數據,該論文使用了雅虎財經(Yahoo Finance)的API,獲取了標普100指數的股票的每日收盤價和交易量等數據,作為信號生成的輸入之一。財經新聞是指與股票相關的新聞報道,該論文使用了新聞API(News API),獲取了來自不同來源的新聞文章,包括標題、內容、日期、作者等信息,作為信號生成的輸入之一。公司基本面是指與股票相關的公司的財務和經營狀況,該論文使用了財報API(Financial Statements API),獲取了標普100指數的股票的季度和年度的財務報告,包括資產負債表、利潤表、現金流量表等數據,作為信號生成的輸入之一。宏觀經濟報告是指與股票相關的國家或地區的經濟狀況,該論文使用了經濟指標API(Economic Indicators API),獲取了美國的一些重要的經濟指標,例如GDP、失業率、通貨膨脹率、利率等數據,作為信號生成的輸入之一。數據處理組件負責對收集的數據進行清洗、標準化、歸一化、特征提取等操作,以便于后續的分析和預測。數據清洗是指去除數據中的噪聲、異常值、缺失值、重復值等,以提高數據的質量和可靠性。數據標準化是指將數據轉換為標準的格式和單位,以便于數據的比較和整合。數據歸一化是指將數據轉換為統一的范圍,以便于數據的分析和處理。特征提取是指從數據中提取出有用的信息和特征,以便于數據的表示和理解。該論文使用了一些常用的數據處理方法,例如均值填充、Z分數、最大最小歸一化、移動平均、差分、對數變換、主成分分析等,以提高數據的可用性和有效性。
信號生成。該論文利用GPT-4的先進推理能力,結合思維鏈(Chain of Thought)和情境學習(In-Context Learning)的方法,分析數據,生成投資信號(買入、持有、賣出)和相應的解釋。思維鏈是指一種模擬人類思維過程的方法,通過將不同的數據源和知識領域連接起來,形成一個完整的邏輯鏈條,從而得出結論和建議。情境學習是指一種利用上下文信息的方法,通過將數據和知識嵌入到特定的情境中,從而提高模型的理解和推理能力。該論文使用了GPT-4作為核心的信號生成器,通過構造特定的輸入和輸出格式,訓練和調用GPT-4,從而實現思維鏈和情境學習的方法。
圖片
圖2
信號生成過程分為以下幾個步驟:
步驟一:構造輸入。根據不同的數據源和知識領域,構造了不同的輸入格式,包括以下幾種:
市場價格動態輸入。該輸入包括股票的歷史價格和交易量等數據,以及一些技術分析指標,例如移動平均線、相對強弱指數、布林帶等。該輸入的目的是反映股票的價格走勢和市場情緒,以及股票的趨勢、動量等。
步驟二:調用GPT-4。使用了GPT-4作為核心的信號生成器,通過構造特定的輸入和輸出格式,訓練和調用GPT-4,從而實現思維鏈和情境學習的方法。使用GPT-4的大型模型(1750億個參數),并對其進行了微調,以適應金融領域的語言和知識。使用了以下的輸出格式:
信號輸出。該輸出包括股票的名稱、代碼、日期和信號(買入、持有、賣出)四個部分,以逗號分隔,例如:
NVIDIA Corporation,NVDA,2023-12-31,Buy
解釋輸出。該輸出包括股票的名稱、代碼、日期和解釋四個部分,以冒號分隔,例如:
NVIDIA Corporation,NVDA,2023-12-31:We recommend buying NVIDIA Corporation (NVDA) because it is a leading company in the artificial intelligence and gaming industry, which are expected to grow rapidly in the future. NVIDIA has a strong competitive advantage in its graphics processing units (GPUs), which are widely used for deep learning, cloud computing, and gaming applications. NVIDIA also has a diversified product portfolio, including data center, automotive, and professional visualization segments, which provide stable and recurring revenue streams. NVIDIA has a solid financial performance, with a high revenue growth rate, a high gross margin, and a high return on equity. NVIDIA also has a positive outlook, with a strong pipeline of new products and innovations, such as the GeForce RTX 30 series, the NVIDIA Omniverse, and the NVIDIA Grace CPU. Therefore, we believe that NVIDIA is a valuable and promising stock to buy and hold for the long term.
步驟三:解析輸出。使用了一些簡單的規則和算法,對GPT-4生成的輸出進行解析,提取出信號和解釋的內容,以便于后續的評估和展示。使用了以下的方法:
信號解析。該論文使用了一個簡單的正則表達式,匹配出信號輸出中的股票名稱、代碼、日期和信號四個部分,例如:
NVIDIA Corporation,NVDA,2023-12-31,Buy -> (NVIDIA Corporation, NVDA, 2023-12-31, Buy)
解釋解析。使用一個簡單的文本摘要算法,提取出解釋輸出中的主要信息和觀點,以便于生成一個簡潔和清晰的解釋,例如:
NVIDIA Corporation,NVDA,2023-12-31:We recommend buying NVIDIA Corporation (NVDA) because it is a leading company in the artificial intelligence and gaming industry, which are expected to grow rapidly in the future. NVIDIA has a strong competitive advantage in its graphics processing units (GPUs), which are widely used for deep learning, cloud computing, and gaming applications. NVIDIA also has a diversified product portfolio, including data center, automotive, and professional visualization segments, which provide stable and recurring revenue streams. NVIDIA has a solid financial performance, with a high revenue growth rate, a high gross margin, and a high return on equity. NVIDIA also has a positive outlook, with a strong pipeline of new products and innovations, such as the GeForce RTX 30 series, the NVIDIA Omniverse, and the NVIDIA Grace CPU. Therefore, we believe that NVIDIA is a valuable and promising stock to buy and hold for the long term. ->
Buy NVIDIA Corporation (NVDA) because it is a leader in AI and gaming, with a strong competitive advantage, a diversified product portfolio, a solid financial performance, and a positive outlook.
信號評估。利用GPT-4的評估能力,對信號和解釋進行評分,以反映其可靠性和接受度。
信號評分。使用了一個簡單的邏輯回歸模型,根據信號的歷史表現,對信號的成功概率進行預測,從而給信號分配一個0到1之間的評分,例如:
Buy NVIDIA Corporation (NVDA) -> 0.87
解釋評分。使用了GPT-4作為一個評估器,根據解釋的深度和相關性,對解釋的質量和說服力進行評估,從而給解釋分配一個0到1之間的評分,例如:
Buy NVIDIA Corporation (NVDA) because it is a leader in AI and gaming, with a strong competitive advantage, a diversified product portfolio, a solid financial performance, and a positive outlook. -> 0.92
綜合評分。使用一個加權平均的方法,根據信號評分和解釋評分的權重,對信號和解釋的綜合評分進行計算,從而給信號和解釋分配一個0到1之間的評分,例如:
Buy NVIDIA Corporation (NVDA) because it is a leader in AI and gaming, with a strong competitive advantage, a diversified product portfolio, a solid financial performance, and a positive outlook. -> 0.89
03 實驗設計和結果
論文中他們對MarketSenseAI的性能進行了廣泛的實證評估,使用了多種評估方法和指標,包括自助法、市場表現和基于排名的后評估。他們的實驗對象是標普100指數的股票,實驗期間是2023年1月1日至2023年12月31日,實驗頻率是每月一次。該論文的實驗過程如下:
自助法。使用了自助法(Bootstrap)來評估MarketSenseAI的信號生成能力,即通過重復抽樣的方法,生成多個信號樣本,計算其平均值和置信區間,以反映信號的穩健性和可信度。該論文使用了以下的步驟:
步驟一:生成信號。該論文使用了MarketSenseAI的信號生成組件,對每只股票的每個月的數據進行分析,生成買入、持有、賣出三種信號,以及相應的解釋。該論文使用了以下的規則:
- 如果信號是買入,且綜合評分大于0.5,則執行買入操作,持有該股票一個月,然后賣出;
- 如果信號是持有,且綜合評分大于0.5,則繼續持有該股票一個月,然后賣出;
- 如果信號是賣出,且綜合評分大于0.5,則執行賣出操作,不再持有該股票;
- 如果信號是買入、持有或賣出,但綜合評分小于等于0.5,則忽略該信號,不執行任何操作。
步驟二:計算回報。該論文使用了以下的公式,計算每只股票的每個月的回報:
圖片
在這個公式中,r′(i,j)表示資產j在時間i時的去趨勢收益,r(i,j)是實際收益,而r(i,·)是所有資產在時間i的平均收益。這一去趨勢過程至關重要,因為它有助于將個股的表現與更廣泛的市場趨勢隔離開來,從而為MarketSenseAI的信號精度提供更清晰的視角。
步驟三:重復抽樣。該論文使用了以下的方法,對每只股票的每個月的回報進行重復抽樣,生成多個回報樣本:
- 從每只股票的每個月的回報中,隨機抽取一個回報,放回原樣本,重復該過程12次,得到一個回報樣本;
- 對每個回報樣本,計算其累積回報和年化回報,作為該樣本的性能指標;
- 重復上述兩個步驟1000次,得到1000個回報樣本和相應的性能指標。
步驟四:計算平均值和置信區間。該論文使用了以下的公式,計算每只股票的每個月的回報的平均值和置信區間:
投資組合績效(累積回報)由以下公式給出:
圖片
命中率計算為:
圖片
PL(i,j):資產j在時間i的性能,定義為PL(i、j)=m(i,j)×r(i,j.)。
L:表示評估信號的指示符,Llong表示長,Lshort表示短,Lboth表示兩個信號。
m(i,j):在時間i的資產j的模型預測(信號)。
r(i,j):資產j在時間i的實際收益。
VL:基于模型預測和L的收益集合。
I(x):指標函數,如果x為true,則返回1,否則返回0。
步驟五:比較結果。該論文使用了以下的方法,比較MarketSenseAI的信號生成能力和隨機信號生成能力的差異:
- 對于每只股票,使用相同的方法,生成1000個隨機信號樣本和相應的性能指標,作為基準;
- 對于每只股票,使用t檢驗,比較MarketSenseAI的信號樣本和隨機信號樣本的性能指標的差異,計算p值,以反映差異的顯著性;
- 對于所有的股票,使用平均值和標準差,匯總MarketSenseAI的信號樣本和隨機信號樣本的性能指標,進行整體的比較。
市場表現。該論文使用了市場表現(Market Performance)來評估MarketSenseAI的信號生成能力,即通過將MarketSenseAI的信號轉化為實際的投資組合,計算其收益率和風險指標,與市場基準進行比較,以反映信號的有效性和優勢。使用了以下的步驟:
步驟一:構造投資組合。該論文使用了MarketSenseAI的信號生成組件,對每只股票的每個月的數據進行分析,生成買入、持有、賣出三種信號,以及相應的解釋。該論文使用了以下的規則:
- 如果信號是買入,且綜合評分大于0.5,則執行買入操作,持有該股票一個月,然后賣出;
- 如果信號是持有,且綜合評分大于0.5,則繼續持有該股票一個月,然后賣出;
- 如果信號是賣出,且綜合評分大于0.5,則執行賣出操作,不再持有該股票;
- 如果信號是買入、持有或賣出,但綜合評分小于等于0.5,則忽略該信號,不執行任何操作。
他們使用了等權重的方法,將每個月的可用資金平均分配給所有符合條件的股票,構造了一個動態的投資組合,作為MarketSenseAI的表現。
步驟二:計算收益率和風險指標。
步驟三:比較結果。該論文使用了以下的方法,比較MarketSenseAI的投資組合和市場基準的差異:
- 選擇標普100指數作為市場基準,使用相同的方法,計算其收益率和風險指標;
- 對比MarketSenseAI的投資組合和市場基準的收益率和風險指標,分析其差異的原因和意義;
- 使用信息比率(Information Ratio)作為綜合的評價指標,計算MarketSenseAI的投資組合相對于市場基準的超額收益和主動風險,以反映其相對的有效性和優勢。
基于排名的后評估。使用基于排名的后評估(Rank-Based Post-Evaluation)來評估MarketSenseAI的信號生成能力,即通過將MarketSenseAI的信號轉化為股票的排名,計算其與市場基準的相關性和一致性,以反映信號的準確性和穩定性。使用了以下的步驟:
步驟一:構造排名。該論文使用了MarketSenseAI的信號生成組件,對每只股票的每個月的數據進行分析,生成買入、持有、賣出三種信號,以及相應的解釋。該論文使用了以下的規則:
?如果信號是買入,且綜合評分大于0.5,則將該股票的排名設為1;
?如果信號是持有,且綜合評分大于0.5,則將該股票的排名設為2;
?如果信號是賣出,且綜合評分大于0.5,則將該股票的排名設為3;
?如果信號是買入、持有或賣出,但綜合評分小于等于0.5,則將該股票的排名設為4。
使用以下的方法,對每只股票的每個月的排名進行排序,得到一個股票的排名列表,作為MarketSenseAI的表現。
步驟二:計算相關性和一致性。該論文使用了以下的方法,計算MarketSenseAI的股票的排名列表和市場基準的股票的排名列表的相關性和一致性:
選擇標普100指數作為市場基準,使用每個月的收益率作為股票的排名依據,得到一個股票的排名列表,作為市場基準的表現;
對于每個月,使用斯皮爾曼等級相關系數(Spearman Rank Correlation Coefficient),計算MarketSenseAI的股票的排名列表和市場基準的股票的排名列表的相關性,以反映信號的準確性;
對于每個月,使用克倫德爾一致系數(Kendall Concordance Coefficient),計算MarketSenseAI的股票的排名列表和市場基準的股票的排名列表的一致性,以反映信號的穩定性。
步驟三:比較結果。該論文使用了以下的方法,比較MarketSenseAI的股票的排名列表和市場基準的股票的排名列表的差異:
對于每個月,使用t檢驗,比較MarketSenseAI的股票的排名列表和市場基準的股票的排名列表的相關性和一致性的差異,計算p值,以反映差異的顯著性;
對于所有的月份,使用平均值和標準差,匯總MarketSenseAI的股票的排名列表和市場基準的股票的排名列表的相關性和一致性,進行整體的比較。
04 局限性和未來展望
雖然在股票分析和選擇方面展示了LLM的強大能力和潛力,但也存在一些局限性和挑戰,需要在未來的研究中進行改進和拓展。該論文指出了以下幾個方面的局限性和未來展望。
數據的質量和可靠性。論文使用了多種數據源,包括市場價格動態、財經新聞、公司基本面和宏觀經濟報告等,但這些數據可能存在一些問題,例如不完整、不準確、不及時、不一致、有偏見等,這些問題可能影響數據的質量和可靠性,從而影響信號的生成和評估。因此,該論文建議在未來的研究中,使用更高質量和更可靠的數據源,或者使用更先進的數據處理和分析方法,以提高數據的質量和可靠性。
模型的復雜性和可解釋性。他們使用GPT-4作為核心的信號生成器和評估器,利用其強大的語言理解和生成能力,實現了思維鏈和情境學習的方法,但這也導致了模型的復雜性和可解釋性的問題。GPT-4是一個非常大的神經網絡模型,擁有1750億個參數,其內部的工作原理和邏輯很難被人類理解和解釋,這可能導致模型的不可預測性和不可控制性,從而影響信號的可信度和接受度。因此論文建議在未來的研究中,使用更簡單和更透明的模型,或者使用更有效的模型解釋和可視化方法,以提高模型的復雜性和可解釋性。
市場的動態性和不確定性。在論文中使用了標普100指數的股票作為實驗對象,對2023年的數據進行了回測,但這可能不能反映市場的動態性和不確定性,即市場的走勢和股票的表現可能隨著時間和環境的變化而變化,這可能導致信號的失效和過時,從而影響信號的有效性和優勢。因此,論文建議在未來的研究中,使用更多的股票和更長的時間段,或者使用更靈活和更實時的信號生成和評估方法,以提高信號的動態性和不確定性。
參考資料:https://arxiv.org/abs/2401.03737