正文

老化曲線與相似分?jǐn)?shù)(3)

信號(hào)與噪聲 作者:(美)納特·西爾弗


相似分?jǐn)?shù)也可以用于預(yù)測(cè)嗎?假設(shè)我們能夠確定有100名球員某一個(gè)年齡段的數(shù)據(jù)與佩德羅亞相同年齡段的數(shù)據(jù)極為相似,那么根據(jù)這100名球員的職業(yè)生涯的整體表現(xiàn)難道不能預(yù)示佩德羅亞的職業(yè)生涯走勢(shì)嗎?

為了驗(yàn)證這個(gè)想法,2002年我還在畢馬威工作時(shí)就開(kāi)始利用閑暇時(shí)間慢慢地推進(jìn)自己的計(jì)劃——?jiǎng)?chuàng)立PECOTA預(yù)測(cè)系統(tǒng)的雛形。這一系統(tǒng)是由五花八門(mén)、內(nèi)容豐富的Excel電子數(shù)據(jù)表格構(gòu)成,而表格正好也是我在畢馬威工作時(shí)使用的主要工具(所以每次那些老板經(jīng)過(guò)我的座位時(shí),都以為我正在努力為客戶建立細(xì)致的表格呢)。

就這樣,上班時(shí)忙里偷閑每天抽出一兩個(gè)小時(shí),晚上到家再奮斗幾個(gè)小時(shí),我最終建成了一個(gè)數(shù)據(jù)庫(kù),其中包含10 000多個(gè)賽季(包含了自第二次世界大戰(zhàn)開(kāi)始后的所有大聯(lián)盟賽季)以及所有球員的對(duì)比演算數(shù)據(jù)。這一方法充分利用了棒球比賽無(wú)與倫比的豐富數(shù)據(jù),從某種程度上講,它比詹姆斯的方法更細(xì)致。在對(duì)比一組球員時(shí),此法采用最近鄰體分析法,另外,考慮的因素外延更廣,甚至包括球探經(jīng)常關(guān)心的球員的身高、體重等因素。

PECOTA預(yù)測(cè)系統(tǒng)為不同類(lèi)型的球員提供了不同的老化曲線,這一點(diǎn)與赫卡貝的系統(tǒng)相似,但PECOTA并不局限于26種曲線,相反的,它從棒球龐大的數(shù)據(jù)庫(kù)中識(shí)別出一組數(shù)據(jù)相似的球員,綜合分析后自然生成了這組老化曲線。如果與佩德羅亞數(shù)據(jù)相似的球員最后都成了大聯(lián)盟中的優(yōu)秀隊(duì)員,這就預(yù)示著他成功的概率也比較高。

但通常,那些擁有相似數(shù)據(jù)的球員各自又是一個(gè)復(fù)雜的混合體,其老化曲線也會(huì)在某個(gè)時(shí)間點(diǎn)開(kāi)始相互偏離。之前提到,依據(jù)詹姆斯的相似分?jǐn)?shù)方法,佩德羅亞的數(shù)據(jù)先是與格林格和卡魯相似,后兩位球員在其漫長(zhǎng)的職業(yè)生涯中戰(zhàn)績(jī)顯赫,入選了名人堂。但此后佩德羅亞的數(shù)據(jù)又與蒙特利爾博覽會(huì)隊(duì)實(shí)力平平的二壘手喬斯·維德羅極為相似了。

對(duì)小聯(lián)盟中的球員而言,這種差異更為明顯。2009年,PECOTA預(yù)測(cè)系統(tǒng)為亞特蘭大勇士隊(duì)19歲的“明日之星”杰森·海沃德識(shí)別出的最相似球員,竟包括從名人堂球星到謀殺犯球員。奇珀·瓊斯與海沃德的相似度排名第一,這位名人堂球星、前亞特蘭大最偉大的球員之一為俱樂(lè)部效力17個(gè)賽季,職業(yè)生涯里的平局擊球率為0.304,外加450次本壘打。而達(dá)奈爾·斯坦森是第二個(gè)與海沃德相似的球員,他的結(jié)局并不好,本來(lái)頗具潛力,卻在2003年結(jié)束了在發(fā)展聯(lián)盟亞利桑那隊(duì)的球員生涯后,因?qū)掖畏缸锒蛔凡?,后?lái)開(kāi)著一輛運(yùn)動(dòng)型多用途汽車(chē)逃亡。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)