近日,科學(xué)家用統計學(xué)中常用的“雙泊松”統計模型評估卡塔爾世界杯中球隊的進(jìn)攻和防守實(shí)力。根據模型統計結果,巴西隊與比利時(shí)隊最有望奪冠。因為,巴西隊曾在 1958 年、1962 年、1970 年、1994 年、2002 年五次奪得冠軍。不僅如此,在曾經(jīng)的比賽中,巴西隊無(wú)論是進(jìn)攻指數還是防御指數都名列前茅。
動(dòng)圖 | 球賽中球員的實(shí)際跑動(dòng)路線(xiàn)與模型預測的鏡頭之外的球員跑動(dòng)路線(xiàn)(來(lái)源:DeepMind)高科技不僅改變了足球隊員們對比賽的認知,也改變了球員分析對手與教練培養球員的方式。在此過(guò)程中,預測足球比賽結果也成為球迷們熱衷的事情。為此,統計學(xué)家一直努力地尋找不同的方式對進(jìn)球和失球數進(jìn)行建模。據了解,該模型由英國牛津大學(xué)數學(xué)與統計學(xué)博士生馬修·佩恩(Matthew Penn)開(kāi)發(fā),通過(guò)分析隊員過(guò)去的進(jìn)球數和失球數等表現,準確地預測出比賽結果。它曾在 2020 年歐洲足球錦標賽上正確預測到意大利能夠擊敗英格蘭。盡管科學(xué)家一直在不斷開(kāi)發(fā)新的預測方法,但由于該模型集合了所有其它模型的優(yōu)勢,并可以產(chǎn)生高質(zhì)量的結果。因此,它一直是預測足球比分的熱門(mén)選擇之一。
圖 | 使用“雙泊松”模型預測卡塔爾世界杯各隊奪冠的可能性大?。〝祿?lái)源:Nature,制圖:DeepTech)
進(jìn)攻與防守指數確定泊松概率2022 年 5 月 19 日,發(fā)表在 PLoS One 上的一篇論文,曾對“雙柏松”統計模型做出過(guò)詳細的分析,論文題為《預測 2020 年歐洲杯比賽結果的雙泊松模型分析》(Analysis of a double Poisson model for predicting football results in Euro 2020)為題。
(來(lái)源:PLoS One)論文中指出,在該模型中,每個(gè)球隊的進(jìn)球數都可以被換算成泊松概率分布。并且,通過(guò)該模型可以統計出球隊在比賽過(guò)程中的進(jìn)球個(gè)數,其均值取決于球隊的進(jìn)攻和防守能力。實(shí)際比賽的過(guò)程中,除了雙方的綜合實(shí)力,還受運氣等外在因素影響,因此結果具有不確定性??紤]到這點(diǎn),在用“雙泊松”模型描述球隊水平時(shí),會(huì )提前設置“進(jìn)攻”與“防守脆弱性”指數。其中,“進(jìn)攻”指數越高表示球隊進(jìn)球越容易,“防守脆弱性”指數則相反,越高表示進(jìn)球越難。在獲得“進(jìn)攻”與“防御脆弱性”指數后就能算出“泊松概率分布”平均值?!半p泊松”模型中設定不同的球隊可以根據各自不同的“雙泊松”過(guò)程得分,并將 A 和 B 球隊的預期進(jìn)球得分設定為 μ(A,B)。需要注意的是,統計模型在計算的過(guò)程中會(huì )將進(jìn)球速度看做是恒定的,也不考慮進(jìn)球的具體時(shí)間,只需要考慮進(jìn)球數。此外,“泊松概率分布”的計算過(guò)程使用了“無(wú)記憶”假設,即一個(gè)進(jìn)球不會(huì )影響比賽其余的進(jìn)球數。這些通常是模型的潛在錯誤來(lái)源。
圖 | 各國贏(yíng)球概率預測(來(lái)源:Matthew Penn)同樣值得注意的是,在這個(gè)模型中,沒(méi)有對主客場(chǎng)比賽進(jìn)行區分。也就是說(shuō),無(wú)論比賽在哪里進(jìn)行,A 隊對 B 隊的預期進(jìn)球數都將等于 μ(A,B)。這是一個(gè)簡(jiǎn)化的假設,不僅減少了參數的數量,而且避免了小數據集的過(guò)度擬合。事實(shí)上,由于不同球隊之間的相關(guān)聯(lián)結果數量很少(其中許多球隊根本沒(méi)有進(jìn)行過(guò)比賽),會(huì )根據情況減少模型中的參數數量。
預估球隊分數接下來(lái),在計算不同球隊預計進(jìn)球數的過(guò)程中,模型默認球員都按照最理想的情況發(fā)揮?!邦A計進(jìn)球數”等于 A 球隊的進(jìn)攻指數乘以 B 球隊的防守脆弱性指數,在計算 B 球隊的進(jìn)球數過(guò)程中也是如此。例如,A 球隊的進(jìn)攻指數是 8,防守脆弱性指數是 0.4;B 球隊進(jìn)攻指數是 10,防守脆弱性指數是 0.6,雙方的得分為 4.8:4(模型默認為 5:4)。但是,由于比賽過(guò)程中充滿(mǎn)不確定因素,A 隊 4.8 的進(jìn)球數與 B 隊 0.6 的進(jìn)球數都被當做平均泊松概率分布。所有比分的概率大小取決于兩個(gè)進(jìn)球數概率值的乘積。A 和 B 球隊攻擊力和防守脆弱性指數都是根據球隊過(guò)去的表現與分數綜合地確定,需要不斷更新與調整,將預測的柏松概率分布數值與比賽中實(shí)際獲得的分數匹配。
(來(lái)源:Pixabay)因此,在實(shí)際預測過(guò)程中,球隊可能出現的分數都會(huì )被預測出來(lái),最后可以預估出奪冠的球隊。馬修·佩恩在牛津大學(xué)官網(wǎng)上表示:“雙柏松統計模型預測了一百萬(wàn)次球賽,得出世界杯十六強晉級****及冠軍歸屬。根據預測結果,荷蘭、伊朗、阿根廷、丹麥、西班牙、克羅地亞、巴西等球隊會(huì )進(jìn)入十六強。阿根廷進(jìn)入四強,巴西將在四分之一決賽時(shí)淘汰西班牙?!?/span>來(lái)源:麻省理工評論
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。