在人工智能和大數(shù)據(jù)的浪潮下,每個學(xué)科都想跟“數(shù)據(jù)”沾上邊,與“定量”掛上鉤。
而一說起人類學(xué),普通人腦中浮現(xiàn)的或許是,遙遠(yuǎn)的叢林部落中調(diào)查宗教儀式的圖景,好像與“大數(shù)據(jù)”毫無關(guān)聯(lián)。就算近年出現(xiàn)的網(wǎng)絡(luò)民族志,人類學(xué)的參與觀察和深度訪談等質(zhì)性方法也與“大數(shù)據(jù)”相去甚遠(yuǎn)。但真是如此嗎?
在7月25日的“未來人類學(xué)家”田野營分享會中,主辦方請來了美國俄勒岡州立大學(xué)人類學(xué)系助理教授章邵增,舉辦了一期名為“用人類學(xué)研究方法來革新大數(shù)據(jù)分析”的講座。講座由北京大學(xué)社會學(xué)系的博士生熊志穎主持。北京大學(xué)副教授賴立里和在企業(yè)界工作的任玨博士參與了評議和討論。
章邵增提出從人類學(xué)的視野出發(fā)來革新大數(shù)據(jù)分析。在認(rèn)識論上,可以用考古學(xué)來重新定義大數(shù)據(jù),而在方法論上,人類學(xué)完備又嚴(yán)謹(jǐn)?shù)姆椒ㄊ谴髷?shù)據(jù)應(yīng)該借鑒的,能幫助重新認(rèn)識數(shù)據(jù)“真實性”問題。
在人工智能和大數(shù)據(jù)的浪潮下,每個學(xué)科都想跟“數(shù)據(jù)”沾上邊。
大數(shù)據(jù)真實性需要重新定義
章邵增從大數(shù)據(jù)的真實性入手,認(rèn)為傳統(tǒng)的數(shù)據(jù)處理方法需要反思。如今的大數(shù)據(jù)來自于用戶生成數(shù)據(jù)和傳感器,量大且雜,在傳統(tǒng)的數(shù)據(jù)分析中,操作人員將80%的時間都用在了數(shù)據(jù)清理中。
但是章邵增認(rèn)為我們忽視了數(shù)據(jù)清理操作的前提,即真假二元對立的預(yù)設(shè)。而在此預(yù)設(shè)基礎(chǔ)上的實際操作比簡單的真假評判和取舍更為粗糙和武斷,有時候操作人員搞不清楚數(shù)據(jù)真假、有用與否,就倉促取舍,往往只是把方便用的留下了。
但是“假”數(shù)據(jù)就一定“無用”嗎?誰又能定義“真”和“有用”呢?
章邵增用語言學(xué)的例子來說明真和假、有用和無用之間的界限并不是簡單的二元分野。當(dāng)我們在一個具體的情境中講了句反諷的話,表達(dá)的意思可能和字面意思完全相反。
在大數(shù)據(jù)中也一樣有具體的“情境”,當(dāng)我們在大數(shù)據(jù)中開始考慮“人的因素”,很快就會發(fā)現(xiàn)真假二元對立的預(yù)設(shè)往往是站不住腳的。
用考古學(xué)視野來看待大數(shù)據(jù)
擱置了大數(shù)據(jù)的真假二元對立,章邵增給了大數(shù)據(jù)一個“考古學(xué)”式的定義:大數(shù)據(jù)是人類活動遺跡的一部分。
之所以給出這樣的定義,是因為章邵增覺得大數(shù)據(jù)和考古學(xué)有許多“同構(gòu)”之處。其一,大數(shù)據(jù)和考古學(xué)的證據(jù)一樣,往往不完整、不具有代表性。人類活動遺跡經(jīng)過長期甚至數(shù)萬年的滄海桑田,能留下一兩個腳印、幾片殘磚就足以珍貴,很顯然是不完整的。而大數(shù)據(jù)也只能代表一部分人的一部分行為,大數(shù)據(jù)再大也往往不是“全”數(shù)據(jù)。
其二,考古學(xué)最常用的方法是考古學(xué)推理。推理往往不能表示因果性,只能表示一種相關(guān)性。中肯地講,大數(shù)據(jù)分析一般也不敢宣稱因果性的推斷,而只是從數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性。當(dāng)然,因其長期的科學(xué)傳統(tǒng),考古學(xué)的推理則要嚴(yán)謹(jǐn)?shù)枚唷?/p>
“考古學(xué)”在其他領(lǐng)域也早有應(yīng)用于考很近的“古”。章邵增舉了“垃圾考古學(xué)”的例子,即從一戶人家丟的垃圾包裝袋、外賣盒子等垃圾中推斷出那戶人家的消費行為。在這個例子中,“垃圾”本身就是人類行為遺跡的一部分。
考古學(xué)和大數(shù)據(jù)也早有關(guān)聯(lián)。90年代的時候就有學(xué)者認(rèn)為互聯(lián)網(wǎng)是一個巨大的數(shù)字墓地,要對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行拯救式的開發(fā)。在傳媒研究中也借鑒了考古學(xué)的思路,即把網(wǎng)絡(luò)數(shù)據(jù)當(dāng)成文化制品。
章邵增總結(jié)了大數(shù)據(jù)和考古學(xué)結(jié)合的好處:重視數(shù)據(jù)解釋性的價值,把數(shù)據(jù)放在情境當(dāng)中去做推理,這樣才能看到數(shù)據(jù)的歷史,去解讀那些有偏差、甚至是有偏見的數(shù)據(jù)。
人類學(xué)為大數(shù)據(jù)提供了情境
當(dāng)然,僅用考古學(xué)的視野來重新定義大數(shù)據(jù)是不夠的,章邵增還提出在這個新定義的基礎(chǔ)上,再納入人類學(xué)的其他方法來追溯和重建大數(shù)據(jù)的產(chǎn)生和使用的情境,從而更有效地分析和解讀大數(shù)據(jù)。
為什么孤立地使用大數(shù)據(jù)往往成問題?章邵增用“路燈效應(yīng)”來解釋:好比在路燈下尋找丟失的鑰匙,操作起來是很方便,但實際上是非常片面和局限的,找不找得著是很值得存疑的。
而人類學(xué)具有探索情境最謹(jǐn)慎和科學(xué)的方法,可以為大數(shù)據(jù)提供情境式的分析。拿人類學(xué)里最具代表性的“民族志”方法來說,我們可以把大數(shù)據(jù)看作人類學(xué)的一塊新的民族志“田野”,去參與式地觀察數(shù)據(jù)的形成過程,去訪談生成、處理和使用數(shù)據(jù)的人。
民族志學(xué)者也早已對大數(shù)據(jù)分析有所警惕和反思,并提出人類學(xué)的“小數(shù)據(jù)”或者說“深厚數(shù)據(jù)”——即來自于人類學(xué)民族志研究的“深描”(Deep Description)——對認(rèn)識人類行為和社會文化是不可或缺的。人類學(xué)家的傳統(tǒng)數(shù)據(jù)可能很小,來自于一個社區(qū)或者是一小群人,但是因為有了對情境的深入探索,這些數(shù)據(jù)的厚度遠(yuǎn)超過大數(shù)據(jù)。
章邵增總結(jié)道,我們可以納入人類學(xué)(考古學(xué)加民族志)的方法來處理大數(shù)據(jù),在情境當(dāng)中去理解大數(shù)據(jù)。更重要的是重新定義大數(shù)據(jù)的真實性問題,不再把數(shù)據(jù)清理當(dāng)作數(shù)據(jù)分析之前的一個獨立的步驟,而是把所有數(shù)據(jù)都拿過來,在分析和解釋的過程中去解決數(shù)據(jù)的真實性和質(zhì)量這個問題。
精靈寶可夢GO是前幾年大熱的一款手機游戲。
精靈寶可夢GO中的隱形偏見
精靈寶可夢GO(Pokémon GO)是前幾年大熱的一款手機游戲。游戲公司把現(xiàn)實中的地圖導(dǎo)入游戲之中,然后在街角和路口設(shè)置許多精靈,游戲玩家在這個真實世界和虛擬世界結(jié)合的空間中去尋獲精靈。游戲公司表示此游戲旨在鼓勵人們離開電腦桌,多多出門走動鍛煉,與真實世界展開連結(jié)。
但是在章邵增和他的合作者對游戲的數(shù)據(jù)庫進(jìn)行分析時,發(fā)現(xiàn)許多人進(jìn)行“位置惡搞”。有些人會使用網(wǎng)絡(luò)機器人用遠(yuǎn)程方式虛擬地操作“抓精靈”,還有人會把手機綁在無人機或者寵物狗身上去難走的地方“抓精靈”。
這種“惡搞”會造成大量與實際位置不一樣的數(shù)據(jù),按傳統(tǒng)的眼光來看,這些行為就屬于“作弊”,這些數(shù)據(jù)也會被游戲公司定義為假數(shù)據(jù)而棄之不用。但是章邵增及其合作者認(rèn)為這些數(shù)據(jù)有其背后的價值所在。
于是他們在地理信息系統(tǒng)(GIS)和大數(shù)據(jù)分析中融合了人類學(xué)民族志的方法,去親自參與這個游戲并訪談那些“惡搞者”,從而更有效地解讀數(shù)據(jù)背后的行為動機和社會意義。
結(jié)果證明,“定位惡搞”背后,確實反映了諸多結(jié)構(gòu)性的問題。許多“惡搞者”反映游戲中精靈資源分布不平等,集中在大城市中心,而郊區(qū)和農(nóng)村鮮有。章邵增及其合作者進(jìn)一步分析了精靈的地理分布問題,結(jié)果發(fā)現(xiàn)在美國紐約,精靈集中在白人聚集區(qū),極少在黑人居民區(qū)。游戲公司的精靈分布,背后隱藏了城鄉(xiāng)不平等、種族偏見等問題。
章邵增和他的合作者還發(fā)現(xiàn)了游戲背后隱藏的商業(yè)因素。在日本東京,由于麥當(dāng)勞和游戲公司達(dá)成了合作,游戲公司就在麥當(dāng)勞門口設(shè)置精靈點,來幫助麥當(dāng)勞吸引顧客。但是麥當(dāng)勞代表的快餐文化違背了游戲公司宣傳的健康生活理念——資本的虛偽可見一斑。很多進(jìn)行“位置惡搞”的人恰是通過挑戰(zhàn)精靈資源分布的不平等,和商業(yè)資本的虛偽來實現(xiàn)自己智力、技能、道德和情感上的滿足。
因此,這些表面上的假數(shù)據(jù),實則是真實的數(shù)據(jù),因為他們都來自于人類真實的行為遺跡。而且是有用的數(shù)據(jù):都能夠幫助商業(yè)公司重構(gòu)商業(yè)戰(zhàn)略。再進(jìn)一步說,這些數(shù)據(jù)可以用來研究人的游戲行為,還可以去開拓新的人文地理學(xué)的研究方向。
附:“未來人類學(xué)家”夏令營是由一群熱愛及樂于分享人類學(xué)知識和方法的年輕人組織和籌辦的系列科普教育活動。該活動由法國社會科學(xué)高等研究院博士候選人王希言發(fā)起,其后得到了許多知名學(xué)者的支持和幫助。截至目前,“未來人類學(xué)家”夏令營已在北京、陜西省安康市等地舉辦多次活動。