芝大論文證明GPT-4選股準確率高達60%,人類股票分析師要下崗?AI大牛質疑數據污染
最近,各位業內大咖都被芝大的一篇論文震驚了。
研究者發現,由GPT-4幫忙選擇的股票,直接擊敗了人類!同時也pk掉了許多其他針對金融訓練的機器學習模型。
最讓他們震驚的是,LLM可以在沒有任何敘述上下文的情況下,就成功分析財務報表中的數字!
圖片
論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311
具體來說,在預測收益的變化上,LLM比經驗豐富的金融分析師都更出色。尤其是在選股時,人類分析師會面臨一些難以應對的場景,導致預測結果存在偏見、效率低下,這時LLM就表現出了巨大的優勢。
并且,LLM做出的預測,不僅僅是回憶訓練數據,比如GPT-4提供的有洞察力的分析,甚至能揭示一家公司未來潛在的表現。
GPT-4的表現一騎絕塵,直接比其他模型實現了更高的的夏普比率(Sharpe ratio)和阿爾法(alpha)。
沃頓商學院教授Ethan Mollick盛贊:這是一篇眾人翹首以盼的論文。
圖片
也有網友感慨道:以后在股市中操盤的,是人還是AI都不好說了……
圖片
然而,就在大家激動之時,有細心的研究人員給這項研究潑了冷水:之所以能取得這個結果,很可能是由于訓練數據的污染造成的。
AI大牛田淵棟也表示,GPT-4的優異表現,不排除是訓練數據集中包括了未來的股票價格,因此GPT-4直接開了掛,據此對2021年起的股票樣本進行了選擇。
圖片
至于測試GPT-4是否開了掛,理論上并不復雜:只要獲取股票的歷史紀錄,將其重命名為某個新代碼,將其輸入來測試就可以了。
圖片
研究內容
怎樣衡量LLM在未來決策中的作用?在這項研究中,研究者衡量的標準,就是讓LLM進行財務報表分析(FSA)。
之所以進行FSA,主要是為了了解公司的財務健康狀況,并確定其業績是否可持續。
FSA并不簡單,它是一個定量任務,需要大量分析趨勢和比率,還涉及批判性思維、推理能力和復雜判斷。通常,這個任務是由金融分析師和投資專業人士來完成的。
在研究中,研究者會將兩份標準的財務報表——資產負債表和損益表扔給GPT-4 Turbo,它的任務是:分析公司接下來的收益是會增長還是下降。
注意,這項研究中有一個關鍵的設計,就是絕不向LLM提供任何文本信息,LLM能參考的,只有純粹的報表。
研究者預測,LLM的表現,大概率會比專業的人類分析師差。
原因在于,分析財務報表這項任務,非常復雜,涉及許多模糊性的東西,需要很大常識、直覺和人類思維的靈活性。
而且,LLM目前的推理和判斷能力還很不足,并且也缺乏對于行業和宏觀經濟的理解。
另外,研究者還預測LLM的表現也會弱于專用的機器學習應用,比如為收益預測的人工神經網絡(ANN)。
因為,ANN允許模型學習深層次的交互,這些交互中包含了重要線索,通用模型是很難獲取這些線索的。除非,通用模型能基于不完整的信息,或從未見過的情景,進行直覺推理、形成假設。
實驗結果卻令他們大吃一驚:LLM竟然pk掉了許多人類分析師和專用的神經網絡,表現出了更優異的成績!
實驗步驟
評測LLM的具體表現如何,需要從以下兩個步驟展開。
首先,研究人員對公司的財務報表進行匿名化和標準化處理,防止LLM記住公司的潛在可能。
特別是,他們從資產負債表和損益表中,省去了公司的名稱,并用標簽(如t和t-1)替換年份。
此外,研究者還按照Compustat的平衡模型,標準化資產負債表和損益表的格式。
這種方法,可以確保財務報表的格式,在所有公司年度統計中都是相同的,因此LLM也不知道其分析對應的是哪家公司或哪個時間段。
在第二階段中,研究人員設計了一個指令,指導LLM進行財務報表分析,并確定未來收益方向。
除了簡單的指令外,他們還開發了一個CoT指令,實際上是「教」LLM以人類金融分析師的思維過程進行分析。
具體來說,金融分析師在分析中會識別財務報表中顯著的趨勢,計算關鍵財務比率(如經營效率、流動性和杠桿比率),綜合這些信息,并形成對未來收益的預期。
研究人員創建的CoT指令,便是通過一系列步驟,來實現這個思維過程。
圖片
在數據集選用上,研究人員使用Compustat數據庫來測試模型的表現,并在必要時與IBES數據庫交叉使用。
樣本涵蓋了從1968-2021年之間,15401家公司的150678個公司的年度數據。
分析師的樣本涵蓋了1983-2021年期間,包含3152家公司的39533個觀察數據。
圖片
LLM為何如此成功
對于這個結果,研究者提出了兩種假設。
第一種假設是,GPT的表現完全是由近乎完美的記憶驅動的。
GPT很可能是從數據中推斷出了公司的身份和年份,然后將這些信息與新聞中學到的關于該公司的情感相匹配。
為此,研究者試圖排除這種可能。并且,也使用了GPT-4訓練期以外的全新數據,復制了結果。
第二種假設是,GPT之所以能推斷出未來收益的方向,是因為生成了有用的見解模型。
比如,模型經常會計算金融分析師計算的標注比率,然后根據CoT提示生成分析這些比率的敘述。
為此,研究者將模型為給定公司年度生成的所有敘述匯總,并使用BERT將它們編碼成768維向量(嵌入),然后將這些向量輸入到ANN中,并訓練它預測未來收益的方向。
結果,基于GPT敘述見解訓練的ANN達到了59%的準確率,這幾乎與GPT的預測準確率(60%)一樣高。
圖片
這一結果直接證明,模型生成的敘述見解對未來表現具有信息性。
另外可以觀察到,GPT的預測與基于GPT敘述的ANN預測之間,有94%的相關性,這就表明,這些敘述編碼的信息是GPT預測的基礎。而在解釋未來收益方向上,與比率分析相關的敘述最為重要。
總之,模型之所以表現優越,原因就是來自于基于CoT推理生成的敘述。
實驗結果
最新研究中的實驗評估結果,可以總結為以下三大亮點。
GPT勝過人類金融分析師
為了評估分析師的預測準確性,研究者計算了「共識預測」(即財務報表發布后一個月內各個分析師預測的中位數),并將其作為下一年收益的預期。
這確保了分析師預測和模型預測結果的可比性。
此外,作者還使用了使用未來三個月和六個月的「共識預測」作為可替代的預期基準。
這些基準對LLM不利,因為它們整合了一年中所獲得的信息。不過,考慮到分析師可能在將新信息納入預測時較為遲緩,研究者選擇報告這些基準以供比較。
研究人員首先對GPT在預測未來「收益方向」方面的表現進行了分析,并將其與證券分析師的表現進行了比較。
他們注意到預測每股收益(EPS)變化是一項高度復雜的任務,因為EPS時間序列近似于「Random Walk」(隨機游走)并且包含大量不可預測的成分。
隨機游走反映了,僅根據當前收益與之前收益相比的變化的預測。
圖片
下圖展示的是GPT和人類金融分析師的預測性能對比結果。
結果顯示,第一個月分析師的預測,在預測未來收益方向方面的準確率為53%,這超過了簡單模型(將前一年的變化外推)的49%準確率。
而分析師三個月和六個月后的預測準確率,分別為56%和57%,這是合理的,因其包含了更及時的信息。
基于「簡單」非CoT提示的GPT預測表現為52%,低于人類分析師基準,這與研究者預期一致。
然而,當使用CoT模擬人類推理時,他們發現GPT的準確率達到了60%,顯著高于分析師的表現。
如果再去核查F1-score(F1評分),這是一種評估模型預測能力的替代指標(基于其精確度和召回率的組合),也會得出類似的結論。
這表明,在分析財務報表以確定公司發展 方向方面, GPT明顯擊敗了中位數金融分析師的表現。
圖片
坦白講,人類分析師可能依賴于模型無法獲得的軟信息或更廣泛的背景,從而增加了價值。
確實,研究人員還發現分析師的預測包含了GPT未捕捉到的,關于未來表現的有用見解。
此外,研究顯示,當人類難以做出未來預測時,GPT的見解更有價值。
同樣,在人類預測容易出現偏見或效率低(即未合理納入信息)的情況下,GPT的預測在預測未來收益方向方面更有用。
圖片
GPT與專用神經網絡不相上下
研究人員還比較了GPT和各種ML模型的預測精度。
他們選用了三種預測模型。
第一個模型「Stepwise Logistic」(逐步回歸),遵循Ou and Penman框架,使用了59個財務指標預測變量。
第二個模型是,使用相同59個預測變量的ANN但也利用了它們之間的非線性和交互。
第三,為了確保GPT和ANN之間的一致性,研究人員還使用了,基于提供給GPT的相同信息集(損益表和資產負債表)訓練的ANN模型。
重要的是,研究者基于每五年的歷史數據使用 Compustat 的觀察數據來訓練這些模型。所有預測都是樣本外的(out of sample)。
使用整個Compustat樣本,研究發現「逐步回歸」的準確率(F1評分)為52.94%(57.23%),這與人類分析師的表現相當,并且與之前的研究一致。
相比之下,使用相同數據訓練的ANN達到了更高的準確率60.45%(F1評分61.62%),這處于最先進的收益預測模型的范圍。
當使用GPT(with CoT)預測時,發現模型在整個樣本上的準確率為60.31%,這與ANN的準確率非常接近。
事實上,GPT的F1評分顯著高于ANN(63.45% vs. 61.6%)。
圖片
此外,當研究人員僅使用兩份財務報表的數據(輸入到GPT中)訓練ANN時,發現ANN的預測能力略低,準確率(F1評分)為 59.02%(60.66%)。
總體而言,這些結果表明GPT的準確率與最先進的專用機器學習模型的準確率相當(甚至略高)。
圖片
ANN和GPT預測互補
研究人員進一步觀察到,ANN和GPT的預測具有互補性,因為它們都包含有用的增量信息。
并且有跡象表明,當ANN表現不佳時,GPT往往表現良好。
特別是,ANN基于其在過去數據中看到的訓練示例來預測收益。并且,鑒于許多示例非常復雜且高度多維,其學習能力可能受到限制。
相比之下,GPT在預測小型或虧損公司的盈利時,犯的錯誤相對較少,可能得益于其類似人類的推理和廣泛的知識。
圖片
除此以外,研究者還進行了幾項額外的實驗,基于GPT對其答案的置信度對樣本進行分區,并使用了不同的LLM家族。
當GPT以更高的置信度回答時,預測往往比置信度較低的預測更準確。
與此同時,研究證明了這一結果可以推廣到其他大模型上。特別是,谷歌最近發布的Gemini Pro,其準確率與GPT-4 不相上下。
圖片
預測來源:增長和營業利潤率
下圖顯示了,GPT響應中,雙詞(bigram)和單詞(monogram)的頻率統計。
這里,雙詞指的是由兩個連續的單詞組成,在文本中一起使用;單詞指的是一個單詞。
圖左展現的是「雙詞」的結果,GPT關于財務比率分析的答案中發現的十個最常見的「雙詞」。
圖右列出的是,GPT對二元盈利預測(binary earnings predictions)中,出現頻率最高的十個單詞。
圖片
之所以做這項分析,是為了確定GPT在不同財務分析環境中,使用最常見的術語和短語。
有趣的是,「營業利潤率」(Operating Margin)和「增長」(Growth)這兩個詞的預測力最高。
看來,GPT似乎已經內化了「40法則」。
總之,所有結果表明,AI加速發展,金融分析師的角色將會改變。
不可否認,人類專業知識和判斷力不太可能在短期內被完全取代。
但像GPT-4這樣強大的AI工具可能會極大地增強和簡化分析師的工作,甚至可能在未來幾年里,重塑財務報表分析這一領域。
參考資料:
https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with
https://x.com/tydsh/status/1794137012532081112