“女士們,先生們,看過來!快來試試您的財運吧!”
說話的農(nóng)民拔高了嗓音,想蓋過身邊的一片豬叫聲和雞鳴聲。在他身邊的木制看臺上站著一頭壯牛。它體形龐大,毛色光亮,用一雙懷疑的牛眼打量著身邊圍觀的人群?!爸灰桶雮€先令,女士們,先生們,這頭漂亮的大牲口就歸您啦!”
這是1906年一個深秋的午后,英國西南部港口小城普利茅斯正在舉辦一年一度的牲畜與家禽博覽會。這里聚集著各色人等,牽著牲口的農(nóng)戶與穿修身長大衣的花花公子擦肩而過,農(nóng)業(yè)專家和維多利亞時代的老幼婦孺擠在一起,他們都是來這里觀賞全國最優(yōu)質(zhì)的牲口的。女人們都穿上了最好的鯨骨蓬裙,孩子們足蹬漆皮高幫鞋在泥水里亂踩。
那一天,一位農(nóng)戶照常組織著有獎競猜以招徠路人在他的攤位前駐足。參加者只要花6便士,就有機會猜測這頭公牛屠宰后能夠產(chǎn)生多少公斤的牛肉。經(jīng)過稱重驗證之后,答案最接近正確數(shù)值的競猜者就能贏得全部的肉。
在一片攢動的高禮帽中間,有一位鬢發(fā)茂盛的84歲老紳士正盯著場子中間賣牛的農(nóng)戶收取下注的錢。他就是弗朗西斯·高爾頓(Francis Galton)爵士,19世紀(jì)最活躍的知識精英之一。在他看來,蕓蕓眾生的智力水平只到他的腳后跟,而眼下這群圍著牛下注的烏合之眾,并不比地上啄著他靴子的母雞更有腦子。仿佛是為了證實這一點,這位研究者本人也上前到農(nóng)戶那里下了一注,然后轉(zhuǎn)身回家,確信自己又找到了優(yōu)生學(xué)理論的最新證據(jù)。
這些牛肉、這位科學(xué)家和787個參與下注的人,就這樣成了科學(xué)史上一場驚人發(fā)現(xiàn)中的重要角色。一個世紀(jì)以后,這個發(fā)現(xiàn)引發(fā)了大眾研究的全面革新。
弗朗西斯·高爾頓爵士
弗朗西斯·高爾頓出身英國貴胄。他的家族在兩代人之內(nèi)誕生了不少當(dāng)時英國最重要的知識分子,有醫(yī)生、植物學(xué)家、探險家、詩人和大實業(yè)家。他的表哥不是別人,正是查爾斯·達爾文。
本著英國人的精神,高爾頓甚至研究了茶的化學(xué)成分和蛋糕的幾何分割。比如他認(rèn)為把圓形蛋糕切割成扇形,一片一片吃掉是“錯誤的方法”,而且他列了方程式來證明這一點。按照爵士的計算,應(yīng)該沿蛋糕的直徑從中間切出一條來吃,然后把剩下的兩個半圓合起來,這樣蛋糕留到第二天也不失美味。謝謝您啊,爵士!
但高爾頓如今為我們所知,主要因為他是“優(yōu)生學(xué)之父”。高爾頓深信,他本人的家族中智者輩出,絕非偶然。因為聰明和愚蠢一樣會遺傳,父傳子,子傳孫。因為擔(dān)心大英帝國里會誕生越來越多“低能蠢笨”之人,他提出了優(yōu)生學(xué)的基本理論。他強調(diào),為了人類的共同利益,應(yīng)該鼓勵聰明的人多生育。與他的表兄達爾文幾十年前在《物種起源》中提出的“自然選擇”理論恰恰相反,高爾頓推崇“理性選擇”。
高爾頓同時也是一位出眾的統(tǒng)計學(xué)家。他建立了人類形態(tài)研究實驗室,測量不同人種的認(rèn)知能力與他們各自外貌特征的聯(lián)系。像他自己這樣的白人顱骨光滑碩大,位于人種等級的頂層,而下等人、女性,還有他在英國殖民地各處旅行時考察的非洲當(dāng)?shù)厝颂幱诘燃壍锥?。這一套優(yōu)生學(xué)理論在隨后幾十年中傳遍世界。在其影響下,美國1909年首度立法,給“罪犯和智障者”絕育。而這樣的“優(yōu)生學(xué)”理論在納粹德國手里發(fā)揮到了極致。
在高爾頓的時代,類似的精英主義觀點并不少見。與他同時代的很多知識分子都深信烏合之眾是愚昧無知的,而且他們數(shù)量越龐大,就越愚蠢。古斯塔夫·勒龐(Gustave Le Bon)在其1895年的著作《烏合之眾:大眾心理研究》中也說:“人獨處時智慧,成集體時愚昧?!倍缭?841年,查爾斯·麥凱(Charles Mackay)在《非同尋常的大眾幻想與群眾性癲狂》(Extraordinary Popular Delusions and the Madness of Crowds)中指出:“大眾”缺乏反思能力。
高爾頓先生正是在這樣一種時代背景下去普利茅斯“趕集”的,他的目的是收集群氓無腦的新證據(jù)。在翻遍787張下注的單子之后,他滿意地記錄下了結(jié)果:大多數(shù)人的預(yù)估與正確答案謬之千里,有的過低,有的則太高了。
然而,這些預(yù)估數(shù)字里卻藏著一個驚人的秘密。農(nóng)戶將牛屠宰以后,這頭大牲口變成牛肉的凈重是543公斤。而參與競猜者集體估算的平均值是542公斤,幾乎堪稱神算!
這難道純屬巧合?每個個體的預(yù)測都是錯的,而且誤差范圍很大,為什么所有答案的平均值恰好是正確答案?“也許大眾的民主決策,比我們以前想象的更值得信賴?!彬湴恋母郀栴D爵士,作為“優(yōu)生學(xué)之父”,于1907年發(fā)表了他的這一研究結(jié)論,這顯然對他本人的優(yōu)生學(xué)理論是個諷刺。
群體的智慧
在高爾頓研究成果發(fā)表后的97年里,這個驚人的發(fā)現(xiàn)一直無人問津,被引用數(shù)加在一起也沒超過10次。但在2004年,它借助暢銷書《群體的智慧》(The Wisdom of Crowds)的問世重見天日。這本《紐約客》專欄作家詹姆斯·索羅維基(James Surowiecki)的力作寫的是集體智慧正在改變我們今日的社會和經(jīng)濟。為了證明“群體的智慧”,索羅維基旁征博引,這才舉出了高爾頓爵士當(dāng)年的經(jīng)歷,吸引了當(dāng)時研究者的目光。此書掀起了一陣對這個驚人結(jié)論的科學(xué)探求之風(fēng),在數(shù)年內(nèi)開啟了大眾研究的新局面。
《群體的智慧》
高爾頓爵士無意間揭示的這個現(xiàn)象還沒有一個專門的名稱,研究人員便順手以索羅維基這本書的名字“群體的智慧”來指代它。這個現(xiàn)象的規(guī)律很簡單:當(dāng)人們預(yù)估一個數(shù)值時,無須任何專業(yè)資質(zhì),所有普通個人估值的平均值最接近正確的答案,它肯定比這群人當(dāng)中任何一個優(yōu)秀個體的估計更準(zhǔn)確。比如,如果你想知道埃菲爾鐵塔有多高,只需要到大街上隨便攔住50個人,不經(jīng)過任何挑選,再問他們:“您覺得埃菲爾鐵塔有多高?”然后求出50個答案的平均值,或找出中位數(shù)更好,你會得到“324米”的答案,這就是埃菲爾鐵塔的高度。
奇怪的是,在2011年進入心理學(xué)領(lǐng)域以前,我聽都沒聽過這個現(xiàn)象。研究大眾的人,不知道大眾很聰明。過分了!
我為這一現(xiàn)象在科學(xué)研究中的可能性感到興奮,開始自己組織一系列實驗。我大概做了十幾個估值測試類實驗,比如猜測紀(jì)念碑有多高,兩個城市之間有多遠(yuǎn),一條河的長度,一個屋子里的溫度,一個公園的面積……結(jié)果屢試不爽!每一次,大眾都給出了令人滿意的答案,哪怕實驗中個體的答案大多數(shù)錯得離譜。
如果問題更復(fù)雜一些,不只是簡單的猜數(shù)游戲,那集體的判斷還有意義嗎?在我的研究過程中發(fā)生的一件大事,也許是這個問題的最好注腳,那就是大眾與加里·卡斯帕羅夫的傳奇棋賽。
1999年,微軟游戲平臺向全世界發(fā)出一份邀約,邀請玩家來挑戰(zhàn)國際象棋界的標(biāo)桿、來自俄羅斯的國際象棋世界冠軍卡斯帕羅夫。不問棋藝如何,不需要任何資歷,誰都可以參加。受到這樣一個前所未見的挑戰(zhàn)的吸引,來自75個國家的超過5萬名棋手上了場。他們中既有業(yè)余棋迷,也有俱樂部選手,還不乏一小撥棋壇新銳,但不管怎么說,5萬人中沒有一個跟卡斯帕羅夫?qū)儆谕粋€級別的。
這么多人要怎樣相互配合,才能下出一盤邏輯連貫的棋?微軟平臺給大眾隊每一步24小時的時間,在此期間每個參賽者都可以提出自己的建議。平臺收集所有建議,在一天結(jié)束之時,最多數(shù)成員共同選擇的棋著兒會體現(xiàn)在棋盤上。
這場比賽情況特殊。兩年之前,這位俄羅斯世界冠軍剛遭計算機“深藍(lán)”重創(chuàng),如今又不得不忍耐這么一堆非常規(guī)選手。比賽的結(jié)果具有很大的不確定性,這5萬個平凡的小腦瓜,到底能否攻破棋壇“老大”的棋局?
卡斯帕羅夫?qū)﹃囉嬎銠C“深藍(lán)”
1999年6月21日,棋賽開始。俄羅斯棋王執(zhí)白子,首先挪動了他的“國王”。在24小時的懸念之后,大眾隊做出了回應(yīng):一招“西西里防御”,給出了對卡斯帕羅夫開局的最佳回?fù)?!大眾隊看來不是外行,主辦方放心了。讓對決繼續(xù)吧!
這一盤棋下得高著兒迭出。業(yè)余大眾隊不僅玩得十分專業(yè),還不乏出其不意的奇著兒。比如他們走的第10步,在高水平國際象棋賽事中前所未見,足以載入史冊。那一步究竟是斷送勝利的爛著兒,還是大眾創(chuàng)造出的神來之筆?實際上,這步棋事后被卡斯帕羅夫本人贊為“卓越的理論創(chuàng)新”,也成為后來國際象棋比賽中常用的著數(shù)。很明顯,從這一步開始,大眾隊占了上風(fēng)。然而棋王終究是棋王,沒那么容易扳倒。在連續(xù)4個月的艱苦廝殺之后,棋王卡斯帕羅夫僅余3子,下出了他的第64步……將!
大眾隊可謂雖敗猶榮。他們不僅一直與棋王不相上下,還創(chuàng)造了新的國際象棋經(jīng)典招式?!盀鹾现姟钡呐袛噙h(yuǎn)遠(yuǎn)超出我們的預(yù)期。
研究者們的注意力越來越多地轉(zhuǎn)向更實際的問題,比如依靠綜合數(shù)十人給出的解決方案,來尋找困難問題的最優(yōu)解。我的一部分同事走得更遠(yuǎn),甚至開始專門關(guān)注“醫(yī)生群體的智慧”。同事們的研究顯示,在一系列臨床問題上,諸如患者是否需要手術(shù),或者乳腺超聲檢查是否真的查出了癌細(xì)胞等,情況就像網(wǎng)絡(luò)大眾隊與棋王卡斯帕羅夫勢均力敵那樣,一群醫(yī)科大學(xué)生的綜合判斷似乎比一位經(jīng)驗豐富的??漆t(yī)生的個人判斷更為準(zhǔn)確。
我們今天正逐漸認(rèn)識到這一現(xiàn)象的內(nèi)在邏輯:它并不屬于哲學(xué)或心理學(xué)的范疇,而是一個概率論和統(tǒng)計學(xué)的現(xiàn)象。事實上,對于上述無論哪一類“挑戰(zhàn)”,大家對正確答案都有一個模糊的想法。當(dāng)然他們會出錯,估計得太高或太低,但如果樣本量足夠大,個人之間的誤差會相互抵消,讓人們思維中的共同之處凸顯出來,從而得出接近正確答案的估計。
要把這個現(xiàn)象視覺化,不妨想象一下擲飛鏢游戲。一大群人一起玩飛鏢,當(dāng)然是有的人甩高了,有的人扎低了,有的人偏左,有的人偏右。但這些飛鏢落點的平均值還是會相當(dāng)接近靶心。那些誤差彼此抵消了。即便你喝醉酒又蒙著眼,投出了幾次極差的成績,最終的平均落點也不會離正中太遠(yuǎn),畢竟所有玩家投飛鏢時瞄準(zhǔn)的都是靶心。在這種情況下,人多勢眾確實勝過專家的單槍匹馬。假如你約上20來個朋友,就能輕易擊敗荷蘭的世界飛鏢冠軍邁克爾·范格文(Michael van Gerwen),前提是裁判同意讓大眾隊每人投一次,然后求平均值。
然而,并不是所有情況下“烏合之眾”都最聰明。首先,參與群眾得對問題的解決方向有基本的直覺才行。還是以飛鏢來舉例,如果群眾隊中的成員根本不知道靶心在哪兒,那他們的飛鏢將完全是隨機投出的,即使求落點的平均值也沒用。真正關(guān)鍵的因素還在于,群眾不能都犯一樣的錯,必須錯得花樣百出才行。如果所有沒扎準(zhǔn)的鏢全在靶心的左邊,平均落點也會向左偏移。只有當(dāng)扎歪的飛鏢分布均勻,平均值才可能在中間。這就是斯科特·佩奇(Scott Page)著名的“多樣性預(yù)測”定理:判斷的多元化,包括錯誤的多樣性,是“群體的智慧”生效時必不可少的因素。
不幸的是,多樣性這一關(guān)鍵因素恰恰是相當(dāng)脆弱的,它的頭號敵人就是我們前面研究過的人際網(wǎng)絡(luò)中的社交影響力。同樣的競猜游戲,如果個人在發(fā)表各自的估計之前有機會先跟別人討論上5分鐘,那么大多數(shù)人的判斷都會趨向同一種錯誤。就好像有的飛鏢上裝有磁鐵,當(dāng)其中的一枚接觸飛鏢盤后,其他的飛鏢全都會朝著它的方向偏,從而失去錯誤的多樣性。社交影響力的負(fù)面效應(yīng)可以表現(xiàn)得很快。近來有大量的研究證明,一個小小的暗示就足以讓大眾判斷的平均結(jié)果偏離正確答案。這就是為什么我在日常生活中從來都沒辦法向朋友們證明“群體的智慧”有多妙;不管我如何三令五申不能跟其他人透露自己的猜測,在我說完題目的那一秒鐘,總有那么一位缺心眼兒的朋友直接喊道:“埃菲爾鐵塔?至少得有500米吧?”這下誰也玩不成了。因為他的這個小小提示會在其他人的腦海里深深扎根,把整群人的平均預(yù)測值帶離正確答案。
當(dāng)大眾也找不著北
在網(wǎng)絡(luò)的世界里,求大眾觀點的平均值已經(jīng)成為一種流行做法。亞馬遜、貓途鷹(TripAdvisor)、谷歌+等眾多網(wǎng)絡(luò)聚合平臺都采用類似于“群體的智慧”的模式,邀請網(wǎng)民到自己的網(wǎng)站來評價產(chǎn)品,然后通過權(quán)重算法得出一個集體的評分。通常,借助從一星到五星的量表,用戶就能對一本書好看不好看,一雙鞋子舒服不舒服,一款相機的像素如何給出自己的感受,并讓其他網(wǎng)民知道。
這個做法如今變得如此普及,是時候把它當(dāng)作一個社會現(xiàn)象來認(rèn)真研究了。今時今日,什么都可以評分。喜歡昆汀·塔倫蒂諾的新片?去電影網(wǎng)站Allociné給個五星吧。覺得某家酒吧的氣氛有點悶?上餐館點評網(wǎng)站Yelp給它打個三星。覺得這個蘋果撻的食譜實在太甜了?立刻上食譜網(wǎng)站Marmiton給個一星差評。
人也可以打分。不管是你的數(shù)學(xué)老師,還是上次跟你拼車的同路人,是你家附近的面包店師傅,或是你的一夜情對象……誰都逃不開。連私人醫(yī)生也不能幸免!谷歌+上,那些被評為“冷漠”“粗心”“毫無同情心”的大夫會立刻被判低分,而另一些“熱情又有能力”的大夫會得到五星好評。雖說國家醫(yī)師協(xié)會理事會始終不認(rèn)可這套評分系統(tǒng),那些鉆牙時下手太重的牙醫(yī)照樣會在網(wǎng)上得零分。
評分體系如今無處不在,舉足輕重。因為群體判斷在網(wǎng)絡(luò)上公開后,一件商品能否暢銷,或者服務(wù)能否得到認(rèn)可,網(wǎng)民的打分很關(guān)鍵。他人對網(wǎng)民個體的打分也是如此。那些得到差評的個體很容易失去他人的信任,下一次去度假時,很可能在愛彼迎(Airbnb)上找不到房子,在優(yōu)步(Uber)上也叫不到車。美國專門給飯店、酒吧評分的網(wǎng)絡(luò)平臺Yelp,現(xiàn)已變成普羅大眾的米其林指南。大眾只要用手指輕松點擊,就能決定哪家飯店火爆,哪家飯店破產(chǎn)。商戶在這個網(wǎng)站上每上漲或降低一顆星,營業(yè)額就會增加或損失10%。如果湯里掉了一根頭發(fā),或者服務(wù)員像門神一樣兇神惡煞,那么飯店要小心了。網(wǎng)民們可不會客氣。
你可能會問,這有什么問題?科學(xué)不是已經(jīng)完美證明了群體智慧有用而且集體判斷值得參考嗎?事實并非如此,因為社會影響力依然存在。比如錫南·阿拉爾的團隊做過一個讓網(wǎng)民評價他們對網(wǎng)絡(luò)新聞感興趣程度的實驗。實驗者隨機抽取了10萬條新聞,每篇文章剛發(fā)出來,科學(xué)家就先上去給它打上第一個分?jǐn)?shù)。結(jié)果顯示,如果首條評價是肯定的,這則新聞的總平均分會升高25%,不管隨后跟進了多少真實的網(wǎng)民評價。這是因為網(wǎng)民打分前都習(xí)慣先看看前人打的分,難免會受先前意見的影響?!皬谋娦?yīng)”的強大之處在于,不管被評價對象的真實水平和質(zhì)量到底如何,只要第一個“假評”是好評,后面的人也更傾向于給好評。
另外,用戶間心照不宣的“互賄”心理是使評分系統(tǒng)失衡的另一個因素。在一個人人互評的世界里,為了給自己換回一個好評,還有什么比先給對方一個好評更有效呢?在優(yōu)步上,司機跟乘客之間要互評;在愛彼迎上,房客跟房東互相打分。在北美的一些中學(xué)里,老師給學(xué)生的分?jǐn)?shù)寫在成績單上,而學(xué)生給老師的分?jǐn)?shù)體現(xiàn)在“評師網(wǎng)”(Rate My Professors)上。在這種情況下,也許老師在給學(xué)生的家庭作業(yè)打分時高抬貴手,就會使自己的網(wǎng)評多一顆星。事實上,2002年的一項研究顯示,美國高校出現(xiàn)了普遍高分的現(xiàn)象,部分原因確實在于引入了學(xué)生給教師打分的系統(tǒng)。簡單來說,我們每個人都有小辮子在別人手里,膽敢第一個打差評的人,就等著受到報復(fù)吧。
鑒于評分系統(tǒng)已遍布網(wǎng)絡(luò),無處不在,某些互聯(lián)網(wǎng)企業(yè)趁機在網(wǎng)絡(luò)上推出了一種“聚合通行證”。比如2015年成立的法國初創(chuàng)公司Famust把個人在不同網(wǎng)站上得到的分?jǐn)?shù)集中起來,給每個人制作出一套社交聲譽證件。最終我們可以依此獲得任何人的性格綜述:讓·克勞德,谷歌+得分4.3的敬業(yè)藥劑師,網(wǎng)約車軟件Blablacar得分4.2的好司機,下廚軟件Marmiton上的4.7星大廚,不過,他對追女人可不大在行,在交友軟件Tinder上只有1.5分。這不禁讓人想起英國電視劇《黑鏡》的一集,未來城市的居民們在每一次互動后都互相評分。這個反烏托邦故事描繪了社會聲譽不斷惡化的主人公是如何一步步墜入地獄深淵的,意在警醒我們小心此類系統(tǒng)的濫用。
《黑鏡》第三季第一集劇照
然而Peeple等應(yīng)用軟件的開發(fā)者似乎對此充耳不聞。2016年P(guān)eeple上架,專用來給你身邊的人打分。鄰居太吵,可以給兩星。本區(qū)郵遞員和藹可親,給五星。在手機應(yīng)用商店里,Peeple自己收獲了百余條評價,平均得分慘不忍睹:1.7 星。看來,普羅大眾的肩膀上頂著的并不是擺設(shè)。
藝術(shù)和文化領(lǐng)域的情形又是怎樣的?如果人們評頭論足的對象不是一家飯館或者一個司機的服務(wù),而是一部電影、一本書或者一首歌,他們的集體判斷又會不會失之偏頗呢?或者換個問法:單曲《江南Style》曾一舉登上YouTube觀看次數(shù)最多視頻的寶座,是不是意味著這是一首杰作而必將載入史冊呢?
鄧肯·瓦茨的團隊從2006年起就投身于這個問題的研究了。他們模擬了互聯(lián)網(wǎng)音樂市場,建立了一個叫“音樂實驗室”(MusicLab)的網(wǎng)絡(luò)平臺,在上面放了48首專業(yè)團隊制作的音樂作品,都是首次面世的新作。之后,他們邀請15000名網(wǎng)民來聽音樂并打分,以及免費下載他們喜歡的那些。
實驗分了好幾個階段。第一階段,聽眾在不知曉旁人好惡的前提下先做出獨立的判斷,結(jié)果這48首曲子的得分都差不多,并沒有特別突出的。第二階段,曲子還是那些曲子,不過聽眾換了一組,而且在聽每首曲子之前,他們能先看到別人對音樂的評價。只需要這一步改變,就能使48首中的一首單曲脫穎而出,成為這個小社會里最受人喜歡的流行歌曲了。
照這么看來,評分系統(tǒng)真的能幫助消費者識別市場上的最佳產(chǎn)品嗎?當(dāng)上述實驗做到第三階段,結(jié)論很快引起了我們的擔(dān)憂。在實驗者換上新一組聽眾之前,這48首曲子的既往評分被清零了。這一次又產(chǎn)生了48首曲子中的當(dāng)紅歌曲,但和上次的不一樣。實驗不斷重復(fù),每一次都將前一輪的結(jié)果清零。于是,人們就會愛上一首不同的歌。似乎音樂本身的品質(zhì)對于獲勝歌曲來說根本不重要,大眾每回都隨機捧紅一支曲子,把它推到流行榜首。人們被各類社交信息淹沒,失去了審慎分析的能力。
不過根據(jù)研究者們的觀察,被選中的當(dāng)紅歌曲并不是完全隨機的。不管實驗怎么做,最好的那些音樂從來沒跌到谷底,最難聽的那些也沒能登上榜首。但在保持這種大趨勢以外,任何結(jié)果都是有可能的。
以上你所了解的只是冰山一角而已。事實上,大眾研究的這一細(xì)分領(lǐng)域才剛起步,但在短短的20年時間里積累的知識已經(jīng)多到令人頭暈?zāi)垦?。新的群體智慧模型正在形成,可以預(yù)見,它們將很快被應(yīng)用到你的日常生活中。投資者們個個摩拳擦掌,大眾研究早已引起市場的興趣。
本文摘自新書《新烏合之眾》。
《新烏合之眾》,【法】邁赫迪·穆薩伊德/著 劉耘/譯,中信出版集團·新思文化,2021年6月版