道奇隊奪冠!是AI主導了棒球世界大賽的決策流程
道奇隊的球迷苦苦等待了32年才見證這支隊伍重新拿下世界大賽冠軍。這32年之間,棒球運動無疑發生了巨大的變化。隨著大量數據的涌現、先進的計算機與分析技術,如今基于數字的策略制定已經成為體育領域的核心力量。具體而言,AI(人工智能)正在主導其中的決策流程。
在本屆棒球世界大賽第六場比賽上,這種決策影響力得到再一次證明。當時,坦帕灣光芒隊經理Kevin Cash毅然換下了當時在場上表現完美的投手Blake Snell。
Cash的決定似乎確實來自數據,但他的判斷并未奏效。最終,道奇隊在這場比賽中以3-1戰勝了光芒隊。
從這個角度來看,數據分析帶來的不只有驚喜,同時也有風險與挑戰。
帶著這個問題,采訪了AI領域的幾位頂尖人士,下面來看他們的回應:
Sheldon Fernandez, Darwin AI公司CEO:
只有馬后炮才能百分之百命中,但Cash臨時決定換下Snell的舉動確實說明將分析結果凌駕于常識判斷之上可能帶來的問題。在人工智能領域,我們有時會討論“混雜變量”。這類變量掩蓋了影響因素之間的正確關系,導致由純數據驅動的決策效果受到影響。以本場比賽為例,數據本身也許表明Snell的自責分(ERA)要比替補隊員Anderson更高,但其中還有某些樣本量或者其他趨勢性因素未能得到充分考慮。
當然,“直覺”本身也有嚴重的弊端。Terry Collins也做出過不夠明智的決定——在2015年世界大賽第5場第9局的比賽中堅持讓Matt Harvey上場。大都會隊的球迷后來為此抱怨了好幾年,并認為正是這項錯誤決定導致他們將冠軍拱手贈予堪薩斯城隊。
再有,即使是單從分析的角度出發,這項決定也同樣難以理解:Snell當時狀態正佳,而替補投手在過去五場比賽中都表現不佳。事實上,Cash回到替補席后,道奇隊的替補們明顯都松了一口氣。這不禁讓我想起一句格言:“分析的意義在于指導決策,而不是替你做出決策。”
Kathy Brunner, Acumen Analytics公司創始人:
擊球手Corey Seager在過去整個賽季對左利手球員保持著0.218的得分,如果單從數字來看,那他就是一位過去6局比賽中打出73個好球的神人。但單從之前兩周來看,他又連續6擊未能得分。這兩項數據哪個更準確?其實都不準確,也可以說都準確。棒球比賽本身就充滿變數,隨著數據的持續積累,當前賽季的賽場表現將被逐漸沖淡。面對類似的情況,坦帕灣光芒隊明顯認為整個賽季的數據比以往幾場比賽的數據更重要。事實證明他們判斷有誤,相信在新一年中他們會重新調整模型,努力做出更準確的預測。
Tim Baumgartner, Laughlin Constable公司分析副總裁:
魔球理論徹底改變了棒球運動。事實證明,精打細算的普通球隊確實可以利用數據分析的力量充分發揮自身優勢,利用科學的陣容與各大傳統強隊一較高下。
但棒球運動本身既是科學又是藝術。體育競技不是冷冰冰的電子表格,坦帕灣隊的數據策略告訴他們,首發投手在第三次面對對方擊球手時往往表現不佳。整個棒球大聯盟的數據支持這一結論,不少球隊也將此作為不容置疑的真理。
但在第6場冠軍爭奪賽中,這支由數據驅動的球隊無疑過分依賴這一策略。他們的固執與僵化,最終讓自己的領先優勢與冠軍希望付諸東流。
要說教訓,球隊們應該反省如何以及何時將定性與定量兩大方法結合使用。更重要的是,傳統強隊也在利用自己的豐富資源進行同樣的分析,所以未來的對抗除了球員自身以外、也將體現在誰對數據趨勢吃得更透方面。
Omri Orgad, Luminati Networks公司北美地區總經理:
就像是《回到未來》里的場景,我們只能在現實中看到一個結果。但必須承認,數據分析本身仍然只是一種統計工具。雖然某些決定看似能夠增加光芒隊的獲勝幾率,但其永遠不會是100%的保障。我們不應粗暴忽略其他選擇:(1)Snell留在場上,光芒隊仍然落敗;(2)Snell留在場上,光芒隊獲勝。
數據與分析是管理人員的工具,但如何使其發揮積極作用——包括將光芒隊送上冠軍寶座,則是一項嚴峻的挑戰。畢竟最終贏下比賽的只能是球員,而不是這些數據。
Michael Berthold, KNIME公司聯合創始人兼CEO:
本輪比賽帶來的教訓其實很簡單:使用大量數據點得出的決策,并不適合用于預測獨立事件的未來走向,特別是像棒球世界大賽這類要么贏、要么輸的有限結果場景。這類預測指向的只是幾率,而非確切結果。
Cash先生可能掌握著大量統計數據,所以他的決策能夠提高球隊的獲勝幾率,但也就僅此而已。很遺憾,事情的走向與他的預期不同,進展不太順利。但如果繼續關注數據,他整個職業生涯中贏下的比賽肯定比其他只靠直覺的人多。如果放眼于未來十年,相信他仍然是一位非常成功的職業經理人。
Saif Ahmed, Kinetica公司機器學習產品負責人:
隨著我們將分析技術應用于更多現實場景,大家必須消除對于數據科學可預測性問題的普遍誤解。與其他科學方法一樣,數據分析也是通過可重復的實驗檢驗自身假設,而后生成關于幾率的統計信息。注意,只是幾率而非統一結果。如果Kevin Cash單憑數據模型做出決策,即使影響因素與他的模型完全匹配,成功的幾率也仍然只是個統計數字——換言之,就算高達99%,實際結果也很可能落入余下這1%。歸根結底,大家之所以熱愛體育競技,就是喜歡其中那種不可預測的魅力。
數據科學在這方面起不到決定性作用,但這并不影響我們將其作為值得依賴的好伙伴。我們可以質疑任何單一決策模型,但只要模型中的特征合理且能夠準確反映過往情況,就應該把它納入置信范圍。另外,模型的透明度是關鍵,我們應該有能力觀察模型使用了哪些變量。如果單一模型做出的決策值得懷疑,那么我們應該把握機會,重新審視模型本身并引入更多變量以準確捕捉決定性因素。與其他科學實驗一樣,數據科學也應該是一個動態的迭代過程。
Joe DosSantos, Qlik公司首席數據官:
我們這個行業很難單純依靠數據分析,而體育行業似乎在這條路上走得太遠、太急了。Cash換下Blake Snell只是體育領域“神奇”決策的又一次例證。美國橄欖球聯盟球隊陷入“讓分”魔咒,AWS發布商業廣告的決策流程也幾乎沒人能夠理解……這一切,都讓數據分析逐漸淪為一種玄學。
魔球理論確實存在,但要在162場比賽這樣龐大的樣本空間內才能奏效。統計學很重要,但心理學也同樣重要。粗暴換下Snell雖然在數字層面有其意義,但卻給粉絲和球員們帶來嚴重的心理打擊。過度依賴數字,不僅可能丟掉比賽,更可能丟掉人們的理解與支持。