足球比賽中的實時數(shù)據(jù)是如何統(tǒng)計出來的?人工 or 人工智能?
說起足球,就算不是球迷,也能說出一兩個球星的名字,比如這兩位非常注意保護(hù)嗓子的巨星。
言歸正傳,對足球有稍微有一點了解的人,應(yīng)該對賽事轉(zhuǎn)播過程中出現(xiàn)的統(tǒng)計數(shù)據(jù)并不陌生。那么,你有沒有想過,足球比賽中的實時數(shù)據(jù)是怎么統(tǒng)計出來的?

2017年12月23日,西班牙國家德比實時轉(zhuǎn)播過程中出現(xiàn)了諸如比分、傳球成功率等實時數(shù)據(jù),圖為直播中左上角彈出皮克和拉莫斯的傳球成功率對比(圖片來源:PPTV賽事回放截圖)
老實人甲
一定是有人拿著小本本在場邊畫“正”字統(tǒng)計!皇馬射門+1+1+1,巴薩進(jìn)球+1+1+1!
程序猿乙
肯定是用熱成像攝像頭捕捉球員運(yùn)動軌跡,用人工智能分析球員動作自動生成實時數(shù)據(jù)。
以上的兩種回答代表了絕大多數(shù)人內(nèi)心的想法,但這兩種說法都不全面。首先來看看現(xiàn)在的賽事轉(zhuǎn)播過程中常出現(xiàn)哪些統(tǒng)計數(shù)據(jù)。

圖為西班牙國家德比轉(zhuǎn)播過程中PPTV半場數(shù)據(jù)統(tǒng)計圖(圖片來源:PPTV賽事回放截圖)

這些數(shù)據(jù)到底是如何統(tǒng)計出來的,人工 or 人工智能?在回答這個問題之前,我們先來看看早期的足球比賽的數(shù)據(jù)統(tǒng)計。
足球數(shù)據(jù)統(tǒng)計歷史
現(xiàn)代足球起源于19世紀(jì)末的英國,緊接著便瘋狂發(fā)展并席卷全球,當(dāng)時主要的傳播媒介是報紙。足球比賽結(jié)束后,報社將比分、照片以及比賽中的各項數(shù)據(jù),配以簡單的評述傳播至世界各地。可以想象當(dāng)時的足球數(shù)據(jù)僅限于“場面數(shù)據(jù)”的統(tǒng)計,簡單的比分、撲救、定位球個數(shù)、紅黃牌數(shù)等由各大報社工作人員拿小本本記錄下來,賽后大家一比對,記的都差不多,那就給寫稿子的人發(fā)稿吧,如此就是最初的數(shù)據(jù)統(tǒng)計。這種在現(xiàn)在看來缺乏時效性與參與度的方法,在當(dāng)時卻在世界各地播種下了足球文明的種子。

圖:早期的英國體育報紙的足球報道
球迷們顯然對于紙媒的時效性非常不滿,于是1927年1月27日,英國BBC電臺首次通過電臺廣播對阿森納VS謝菲爾德的比賽進(jìn)行了轉(zhuǎn)播。這場比賽BBC安排了兩名評論員,一位負(fù)責(zé)對場上狀況進(jìn)行評述,一位指出足球在下圖所示的網(wǎng)格中的位置,兩人配合,給聽眾傳播最正確的比賽信息。這種轉(zhuǎn)播方式在現(xiàn)在看來是一種非常考驗想象力以及反應(yīng)力的轉(zhuǎn)播方式,由此可以想到早期的球迷足球素養(yǎng)非常高。

圖:英國電臺解說分區(qū)圖,球場被分為8個區(qū)
同樣是在英國,同樣是阿森納,同樣是BBC,1939年,一場阿森納一線隊與預(yù)備隊的比賽錄像被呈現(xiàn)在電視屏幕上。錄播雖然是令人遺憾的,但這卻開了球迷們在電視機(jī)前觀看比賽的先河。觀眾可以獨(dú)立進(jìn)行數(shù)據(jù)統(tǒng)計及核對,這就對轉(zhuǎn)播公司的實時數(shù)據(jù)統(tǒng)計提出了更高的要求,要更準(zhǔn)確、更及時。這個時期的足球數(shù)據(jù)統(tǒng)計依然是依靠人工。
就在此時,計算機(jī)技術(shù)逐漸發(fā)展起來,計算機(jī)成了專業(yè)的統(tǒng)計輔助工具。專業(yè)的統(tǒng)計人員將球場上的每一個動作變成一個一個事件,將每一分鐘30次以上的各種高密度動作轉(zhuǎn)化為事件存儲下來,再由人工進(jìn)行驗證,并通過程序進(jìn)行實時發(fā)布。這種方法對人工要求極高,因而準(zhǔn)確度也高,多常見于第三方數(shù)據(jù)服務(wù)商,為轉(zhuǎn)播方、解說員、博彩公司等提供服務(wù)。
然而,那些如雨后春筍般涌起的黑科技,究竟有沒有改變這個行業(yè)呢?
誰在負(fù)責(zé)統(tǒng)計數(shù)據(jù)
要回答這個問題,首先要清楚足球比賽中的實時數(shù)據(jù)是誰來統(tǒng)計的。作為一名電視機(jī)前的觀眾,比賽過程中得到信息的渠道有兩個,一是眼睛獲取的畫面,二是耳朵聽到的解說。轉(zhuǎn)播畫面帶給球迷的是最原始的視覺沖擊,而解說則是幫助球迷更加深入的理解比賽。球迷們經(jīng)常能聽到“***隊本場的射門次數(shù)已經(jīng)達(dá)到15次之多,其中射正的僅僅3次”諸如此類的話,難道解說員在比賽過程中還要一邊拿小本本記數(shù)據(jù),一邊解說,再把數(shù)據(jù)加加減減,算出控球率?
如果真是這樣的話,德藝雙馨的老解說員們早就累死了。
一般來說,一些大型的足球聯(lián)賽,比如歐洲五大聯(lián)賽,轉(zhuǎn)播是由專業(yè)的信號制作公司提供。他們在比賽場館架設(shè)6臺、8臺甚至更多的攝像機(jī),盡力追捕球員從賽前采訪到進(jìn)球后的每一個眼神,然后在一個布滿電線的大型制作場所內(nèi),將比賽信號通過衛(wèi)星傳輸?shù)绞澜绺鞯亍6愔械膶崟r數(shù)據(jù)則是由專門的數(shù)據(jù)公司提供的,轉(zhuǎn)播公司向數(shù)據(jù)公司購買服務(wù),數(shù)據(jù)公司使用專業(yè)的數(shù)據(jù)采集方法對實時數(shù)據(jù)進(jìn)行采集。一部分?jǐn)?shù)據(jù)在直播中展示,一部分更深入詳細(xì)的數(shù)據(jù)在賽后進(jìn)行整理分析和展示。簡單的說,我們在CCTV5臺看到的中超轉(zhuǎn)播信號制作其實是一家叫體奧動力的公司提供的,而看到的實時數(shù)據(jù),又是其名下的盈動力大數(shù)據(jù)公司提供的。
國外從事數(shù)據(jù)服務(wù)的公司非常多,而且很多公司的技術(shù)已經(jīng)非常成熟,競爭相當(dāng)激烈。這些公司中不乏一些巨頭,比如英國的OPTA公司,法國的Sport Universal公司等等,不同的公司有著不同的數(shù)據(jù)采集系統(tǒng),下面以O(shè)PTA為例展開分析。
來自英國的OPTA實況體育數(shù)據(jù)公司是全球領(lǐng)先的數(shù)據(jù)提供商,該公司目前為包括英超、德甲、荷甲在內(nèi)的多個大型比賽的官方數(shù)據(jù)合作伙伴,同時也為下圖所示的大型聯(lián)賽提供數(shù)據(jù)服務(wù),包括中超。除了為俱樂部提供服務(wù)以外,OPTA同時也與Canal+,天空體育,ESPN等電視臺合作,在賽前、賽中以及賽后提供數(shù)據(jù)分析服務(wù)。

圖:OPTA的賽事合作伙伴(圖片來源:OPTA官網(wǎng))
比賽過程中,OPTA會對場上超過200項的技術(shù)統(tǒng)計進(jìn)行統(tǒng)計分析,實時更新,并為客戶提供XML數(shù)據(jù)接口,方便來自全世界的客戶調(diào)取。OPTA兼有世界上最完備的體育歷史數(shù)據(jù)庫,從1996年起搜集各種比賽數(shù)據(jù),漸漸形成了世界上數(shù)量較大、權(quán)威性較高的比賽數(shù)據(jù)庫。另外,OPTA會按照不同需求提供不同的數(shù)據(jù)服務(wù),其中就包括解說支持。球迷對比賽過程中的歷史數(shù)據(jù)一定不陌生,解說員總是清楚的知道下一個進(jìn)球是球員職業(yè)生涯的第幾個進(jìn)球,甚至是歐冠歷史上第幾個進(jìn)球等等,其實這很大程度上要依靠OPTA這樣的數(shù)據(jù)服務(wù)商。總而言之,這個公司真的是在做與足球數(shù)據(jù)相關(guān)的幾乎所有生意。

圖:OPTA提供的服務(wù)種類(數(shù)據(jù)來源:OPTA官網(wǎng))
數(shù)據(jù)是如何統(tǒng)計出來的?
而賽中的數(shù)據(jù)又是如何去統(tǒng)計呢?大家普遍認(rèn)為較高級職業(yè)聯(lián)賽都用了很多了不起的高科技,只需要把機(jī)器一架,數(shù)據(jù)就像水一樣嘩啦啦自己流出來了,這種想法顯然是不現(xiàn)實的。其實無論是哪家公司,采用什么樣的高科技,其實核心還是解決兩個問題,一是球在哪兒,人在哪兒;二是人對球做了什么,人對人做了什么。
對于人和球在哪兒,解決方案有很多,其中一種就是安裝多臺高速攝像機(jī),保證每個區(qū)域都有兩個以上的攝像頭能覆蓋。圖像識別能做到判斷出是誰拿了球,球速是多少,但是具體這個人想做什么,這個動作是射門還是傳球,就需要經(jīng)驗豐富的記錄員來進(jìn)行判斷。優(yōu)秀的記錄員能夠在極短的時間內(nèi)判斷出球員的意圖,再通過輔助記錄的軟件,選擇球員,并選擇此刻與該球員對應(yīng)的事件,這些事件包括傳球、傳中、攔截、射門、撲救、犯規(guī)等等,如此便將比賽中共計2000次以上的各種事件記錄了下來。
圖:OPTA的數(shù)據(jù)專家在進(jìn)行實時數(shù)據(jù)采集(圖片來源:OPTA官網(wǎng))
OPTA的實時統(tǒng)計系統(tǒng)就是這種人工+智能的方式,每個記錄小組有三個人,兩個人進(jìn)行實時數(shù)據(jù)采集,一個人進(jìn)行實時的視頻素材回放校驗。可能有人會質(zhì)疑這種摻雜人工的方式的準(zhǔn)確度。實際上,不同公司給出的比賽數(shù)據(jù)的確是存在差異的,每一家公司的數(shù)據(jù)收集背后都有一套獨(dú)特的哲學(xué)。
2018年1月13日的一場西甲常規(guī)賽中,皇家馬德里主場迎戰(zhàn)黃色潛水艇比利亞雷亞爾,賽后的數(shù)據(jù)統(tǒng)計中,Whoscored的統(tǒng)計數(shù)據(jù)顯示:控球率為58% VS 42%,傳球成功率為89% VS 85%。而國內(nèi)足球數(shù)據(jù)公司創(chuàng)冰科技給出的控球率則是54.9% VS 45.1%,傳球成功率為84% VS 84%。甚至連射門數(shù)這樣看似簡單的統(tǒng)計指標(biāo),兩個網(wǎng)站都分別給出了28 VS 10和27 VS 9這樣不同的結(jié)果,說明兩個公司的統(tǒng)計人員對于射門這個事件的判斷有差異,而這便是足球比賽數(shù)據(jù)統(tǒng)計中的“人為誤差”。

圖:whoscored對皇家馬德里VS比利亞雷亞爾的數(shù)據(jù)統(tǒng)計(圖片來源:whoscored)

圖:創(chuàng)冰DATA對皇家馬德里VS比利亞雷亞爾的數(shù)據(jù)統(tǒng)計(圖片來源:創(chuàng)冰DATA)
人工+智能的數(shù)據(jù)采集方式可以說是八仙過海各顯神通,而統(tǒng)計指標(biāo)的計算方法也會影響最終的統(tǒng)計結(jié)果。結(jié)合上面對采集方法的介紹,大致可以知道對于射門、角球、任意球、點球、犯規(guī)的統(tǒng)計方法,就是一個字:數(shù)。這一類事件,記錄員有很長的時間去反應(yīng)球場上究竟發(fā)生了什么,出錯的可能性也比較小。控球率也是一個很容易記錄的指標(biāo),控球率=控球時間/兩隊總控球時間,而控球時間則是指傳出的球未被對方接觸之前的時間。機(jī)器能夠記錄此時是哪一隊拿球,拿球時間是多久,只需要人工進(jìn)行一些簡單的修正,例如剔除死球時間(慶祝時間、邊角球、任意球時間),即可得出控球率。同理,傳球成功率=傳球成功次數(shù)/本隊傳球總次數(shù),其實就是沒有被搶斷的次數(shù),同樣是機(jī)器和人工共同采集,人工校驗的方式進(jìn)行統(tǒng)計。
實際上,每個公司對指標(biāo)的統(tǒng)計方法都是不一樣的,這也就是為什么我們看到的結(jié)果不一樣的原因。同時也說明,足球統(tǒng)計學(xué),是一個值得統(tǒng)計學(xué)家們深入研究的領(lǐng)域,而懂足球的人,也是這個行業(yè)目前最核心的生產(chǎn)力。
人工+智能的方式當(dāng)然不等同與人工智能,但這一定只是足球統(tǒng)計史上的一個時期。實際上,現(xiàn)在有很多可穿戴設(shè)備可以用于球員數(shù)據(jù)采集,能夠?qū)η騿T各項身體數(shù)據(jù),甚至腦電波進(jìn)行監(jiān)測。但是由于競技體育對于球員的衣著和穿戴有著嚴(yán)格的要求,所以可穿戴設(shè)備在賽場上并沒有得到很廣泛的應(yīng)用,反而一些俱樂部在訓(xùn)練的時候用的較多。希望在不久的將來,我們能夠看到梅西踢球時的腦電波,而解說員在他拿球突破的時候便吼道“梅西拿球了,他準(zhǔn)備傳給前場的阿爾巴,不,這一刻他改變主意了,他準(zhǔn)備在前場打一腳遠(yuǎn)射,應(yīng)該是在球門的左下角,此刻門將的腦電波顯示他準(zhǔn)備撲球門的右邊,梅西這一腳打門的成功率在80%左右,果然,球進(jìn)了!!!”
數(shù)據(jù)分析之于足球產(chǎn)業(yè)
大數(shù)據(jù)悄然改變著每一個行業(yè),足球也不例外。對于足球數(shù)據(jù)的應(yīng)用,大家首先想到的,一定是博彩。對于博彩公司而言,一份真實完整的歷史數(shù)據(jù)報告,能為精算師們計算初始賠率提供數(shù)據(jù)支持。而源源不斷及時輸入比賽實時數(shù)據(jù),則會幫助博彩公司及時調(diào)整實時賠率,以獲取更大的收益。值得注意的是,博彩公司初始賠率雖然是基于球隊數(shù)據(jù),但起著決定性因素的,其實是市場期望,這也是足球數(shù)據(jù)行業(yè)值得關(guān)注的一個領(lǐng)域。
前不久剛剛進(jìn)行的2017世俱杯半決賽中,皇家馬德里客場迎戰(zhàn)阿布扎比半島,這場比賽最引人注目的并非兩隊之間的對決,而是阿里云團(tuán)隊用人工智能技術(shù)對比賽進(jìn)行了解說。AI不僅正確識別了球隊、球員,還識別出了球員的傳球、射門等動作。
解說員在緊張的比賽之中難免會出現(xiàn)差錯,但人工智能背后強(qiáng)大的數(shù)據(jù)則有效地避免了這個問題。一場看似簡單的解說,實際運(yùn)用了多路神經(jīng)網(wǎng)絡(luò)卷積模型對球及球員定位,加上高效的跟蹤算法,就實現(xiàn)了對球員和球的實時跟蹤。同時,人工智能提前學(xué)習(xí)球衣號碼,提取球員人臉特征,再對比錄入的球員信息,即可完成球員的身份識別。此外,對球門、邊界線等球場基礎(chǔ)信息的識別,也可以讓該機(jī)器對球場形成更加全面的感知。由此可見,未來人工智能在足球領(lǐng)域的一大應(yīng)用可能是呈現(xiàn)更多形式、更精準(zhǔn)的賽事轉(zhuǎn)播。
回歸到足球本身,如何幫助球隊取得勝利,如何用較低的溢價簽到最合適的球員,或許是足球數(shù)據(jù)最具意義的應(yīng)用。眾所周知,每支球隊都有各自賴以成名的球隊風(fēng)格,比如巴薩的Tiki-Taka戰(zhàn)術(shù)以傳控為主,而死敵皇馬強(qiáng)調(diào)速度致勝。每種球風(fēng)各有特色,相生相克。又比如西甲中下游球隊塞爾塔和英超中下游球隊水晶宮,雖然在聯(lián)賽中戰(zhàn)績不佳,但卻是名副其實的強(qiáng)隊收割機(jī),這些隱藏在表面數(shù)據(jù)之下的特殊規(guī)律則可以交由足球大數(shù)據(jù)去探索。
可能有人會說強(qiáng)大的數(shù)據(jù)讓足球失去了原有的魅力,甚至擔(dān)心有一天人工智能機(jī)器人會打敗人類足球,但其實數(shù)據(jù)只是讓大家更理性的參與足球活動,甚至從中受益。足球永遠(yuǎn)是那個充滿不確定性的運(yùn)動,因為,足球是圓的。