LSTM一敗涂地!男生發表四頁最離譜論文,用時序模型預測女友情緒
女朋友的情緒和股票市場同樣都是風雨難測,不同的是有大量從業人員使用各種各樣的時序模型來研究,但女朋友的情緒卻沒有得到多少學者的關注。
最近Reddit上一個帖子火了,有一篇論文發表在Journal of Astrological Big Data Ecology(占星大數據生態學雜志)上,主要是用時序模型研究女朋友的情緒變化。
文章的作者是Chad Broman博士,來自蔓越莓檸檬大學(Cranberry-Lemon University)應用心理機器學習系。

https://jabde.com/2021/05/23/girlfriends-mood-time-series-analysis/
《占星大數據生態學雜志》是一個期刊博客,專門發布一些人們「模仿」學術文章、STEM新聞或者clickbait的地方。
期刊的創辦人表示,如果你看到我們的論文,一定要嘲笑我們的「科學」,但絕對不要相信它。請欣賞每一篇文章,我們的目標是在作品中盡可能多地增加幽默感。
Reddit 網友們看到這篇論文后紛紛表示這篇論文給A+評分,他的創意、努力和執行力真是太贊了!

還有網友為論文的后續進行預測:作者的女朋友不同意分析的結果,所以作者對論文標題進行了一次編輯修改,修改后的標題為《前女友的情緒波動時序分析》。

還有網友對論文的分析結果有意見,認為LSTM模型就是垃圾,一起看看論文中的Figure 4的畫風,逐漸離譜。

也有網友認為,你觀測到的女朋友情緒不一定是真實的,所以可能是假數據。

文章的Reference 列表也是一大特色,包括情人節為什么重要,如何在長遠關系下的生存,甚至還有游玩賽博朋克2077的最好時機。

那這篇長達4頁的論文到底寫了什么?
這篇fake paper的摘要寫道,盡管最近在積極傾聽、約會之夜和長時間的枕邊談話方面取得了進展,但預測蒂芙尼(作者的女友)的心情變得越來越困難。并且隨著 Playstation 5 獨家游戲越來越多,在購買新游戲并連續一周每天晚上與男孩們在線合作之前確定蒂芙尼的心情變得越來越重要。
本文旨在通過比較簡單的移動平均線、六倍指數平滑甚至過于復雜的機器學習模型來確定我女朋友急劇增長的情緒波動的最佳預測模型。盡管最初的時間序列分析顯示非平穩性和高度季節性的情緒波動,但在馬特離婚后,更簡單的模型提供了風險更低的預測。
有內味了!
隨后在 Background 中又詳細介紹了她們相識的過程以及互相的矛盾。
十年前,我和蒂芙尼在蔓越莓檸檬大學認識,當時我是理論體育(Theoretical Physical Education)的本科二年級學生。
她們在量子粒子躲避球(quantum particle dodgeball)比賽中榮膺最后兩名,隨后就開始進行約會,直到大三秋季學期變得太冷而無法出門。那也是我最初開始我的時間序列分析的時候。她和我現在是兩個年輕的專業人士,住在我們自己的家中,我們用三年不吃鱷梨吐司(avocado toast)的首付款資助了我完成博士學位課程。
Tiffany 現在是一名免費增值(freemium)游戲營銷顧問,但她并不想讓我管它叫免費增值服務。她非常喜歡迪斯尼,更喜歡海灘度假而不是山區,并且一直沉迷于權力的游戲直到上一季結束。當她沒有工作時,你會發現她無休止地在 Reddit 上滾動查看表情包、Facebook 或 instagram 上的照片,以及上twitter 來了解她最討厭的所有名人。
并介紹了時序分析的目的。
自從她最好的朋友開始生孩子并且她被提升到一個她沒有接受過培訓的壓力大的公司職位以來,圍繞蒂芙尼的情緒高潮和低谷進行計劃變得成倍困難。這不僅是一個問題,而且是一個需要立即解決的問題!
最重要的是,最終幻想 7 重制版也要發布了!(論文發表于2021年5月)
論文的第二章介紹了數據收集和清洗的過程。
Tiffany的情緒波動的嚴重程度按照類別被記錄下來,并帶有該主觀情緒的時間戳,以及這次情緒波動給作者的錢包帶來了多少金錢損失。

時間序列分析和建模只是開發最佳 TMFM 工作的 15%。在 Tiffany 的歷史情緒數據能夠在中進行分析并在本文中進行預測之前,必須對其進行收集和清理。當然,她的情緒可能是季節性的,并在即興的網上購物中表現出來,與情緒無關的購物似乎根據假期和特殊場合具有季節性。
但這并不意味著這些特殊的季節性影響和 24 小時新聞周期對蒂芙尼的情緒波動沒有影響。由于季節-假期-心情因果關系的問題,建立了心情度量等效測量 (MMEM),以獲取季節性數據以準確評估以下等式中的蒂芙尼心情變量 (Tiffany Mood Variability, TMV),其中 SACM 是 季節性自相關矩陣通過平均購買量和社交媒體趨勢分析計算得出,并根據她的工作周負擔進行標準化。然后通過確保矩陣對稱性將 SACM 轉換為 TMV。

應用于蒂芙尼情緒波動數據的最簡單模型是 7 天移動平均線。雖然這種極其基本的方法可能不是實現更高維度預測器的最佳方法,但與更復雜的替代方案相比,它創建的預測噪聲更小。
雖然她的數據在 24 小時周期內似乎是自相關的,但非直觀預測的最有效平均窗口優化為 7 天移動平均線,以防她只是感覺周一的情況不好。在極端多變的日子里,情況并非如此,在 2018 年快艇和懷孕恐慌事件期間,蒂芙尼的情緒按小時移動平均模型實施。
當然了,捉摸不透的女朋友當然也得用上捉摸不透的模型!
沒有什么比 Tiffany 的情緒波動更像是一個無法解釋的機器學習黑匣子的黑匣子了。作用使用長短期記憶 (LSTM) 結構。
作者表示,即使經過十年的穩定關系和許多起起落落,關于那個「美妙的女人」,仍然有很多困惑。盡管經過多年的約會和廣泛的時間序列分析,我認為我對她的了解程度很高,但當最終幻想7在不到三周內問世時,黑盒機器學習算法方法可能是最佳方法。

當然了,最后就是激動人心的實驗結果環節,如上面那張圖所述,實驗結果圖的畫風十分詭異,也表明了再牛的模型也無法預測女朋友的情緒軌跡。
七日移動平均線能夠最好地預測Tiffany情緒的總體趨勢,但沒有預測到其他模型預測的較低逼真度變化。六元組指數平滑函數能夠實現更高的保真度預測,但錯過了許多局部趨勢。雖然ARMA能夠捕捉到更大的趨勢和更多的本地趨勢,但它產生了危險的不準確預測,如果采取行動,至少會開始一、兩個晚上關于「這種關系到底會走向何方」的討論。
文章的結論部分作者依然對他心心念念游戲進行展望。
距離在我的PS5上下載Final Fantasy 7重置版還有18天,這些算法都在積極監控Tiffany的購買行為、情緒變化,以及關于她的下屬的工作對話,而這些下屬并不知道他們在做什么。
一旦所有預測模型(LSTM除外)達成一致,我相信我能在6月10日至7月4日假期期間安排足夠的晚間視頻游戲時間,去她父母位于肯塔基州路易斯維爾的家玩游戲,這樣我的朋友就不會叫我被鞭打了。
關于未來工作,作者表示通過正確的建模和一些常識性的風險管理,這些技術可用于確定從杰弗里那里購買快艇的最佳時間。我知道匹茲堡附近沒有很多適合快艇的好地方,但這更多的是對記憶的投資,并且有了足夠準確的預測模型,它可以與蒂芙尼以非對抗的方式重新解決。
不過好像少了點什么,這篇論文沒有「致謝」女朋友!(滑稽)