【編者按】
在這次的新冠肺炎疫情的預(yù)防和治療中,大數(shù)據(jù)起到了很重要的作用。下文摘自斯坦福大學(xué)人類生物學(xué)專業(yè)客座教授內(nèi)森·沃爾夫的《病毒來襲》(The Viral Storm:the Dawn of a New Pandemic Age)一書。在書中,內(nèi)森·沃爾夫闡釋了現(xiàn)代信息和傳播等各種各樣的新技術(shù),對(duì)于我們識(shí)別病毒、了解病毒進(jìn)化軌跡,以及調(diào)查疫情和了解疾病傳播等諸多方面提供的幫助。
一個(gè)叫作埃維的橡膠種植園,位于喀麥隆西南部我們的一個(gè)研究點(diǎn)內(nèi),我們?cè)谀抢镞M(jìn)行實(shí)驗(yàn)。這一實(shí)驗(yàn)展現(xiàn)了公共衛(wèi)生領(lǐng)域一個(gè)令人激動(dòng)的新趨勢(shì),雖然它只是基于簡單的手機(jī)信息的傳播。
在埃維這個(gè)大約有10萬居民的橡膠園里,每當(dāng)有人生病,他們就去附近的某家診所就醫(yī)。如果病得很重,他們就從診所轉(zhuǎn)到位于橡膠園中心區(qū)域的中心醫(yī)院。然而,過去沒有好的技術(shù)方式令中心醫(yī)院可以監(jiān)控那些地方診所的情況。如今在數(shù)字流行病學(xué)領(lǐng)域領(lǐng)導(dǎo)我們項(xiàng)目的拉奇·古拉斯卡拉(Lucky Gunasekara),他是非營利組織“短信前線:醫(yī)生”(FrontlineSMS:Medic)的創(chuàng)辦人之一。幾年前,他與該組織的合作伙伴們創(chuàng)建了一個(gè)基于手機(jī)短信的簡單系統(tǒng),使中心醫(yī)院能夠監(jiān)控地方診所里的情況。通過簡單地發(fā)送一系列預(yù)置代碼,診所里大部分關(guān)鍵性信息能夠清楚、持續(xù)而有效地在醫(yī)學(xué)體系里層層上傳。使用預(yù)置代碼和簡單的短信形式,地方診所能夠迅速地告知其他人所收治的瘧疾、腹瀉和其他疾病的病例數(shù)。
簡單的技術(shù)可以產(chǎn)生重大的影響。幾個(gè)簡單的技術(shù)應(yīng)用就讓埃維的醫(yī)療情況不僅被中心醫(yī)院所掌握,也能被任何一個(gè)擁有合適接入口的人通過網(wǎng)頁界面遠(yuǎn)程了解。先進(jìn)的技術(shù)讓地方臨床醫(yī)生和病人自己可以與外界進(jìn)行交流,外界因此可以累積、組織和分析信息。這樣一來,一個(gè)突發(fā)衛(wèi)生事件發(fā)生期間,有關(guān)事件發(fā)展進(jìn)程的信息就會(huì)傳播得更加快捷,實(shí)地信息也增多了。2010年海地地震就是這樣的情況。地震一發(fā)生,像尤沙黑迪(Ushahidi)這樣的組織就編制了簡短的自由代碼,供人們發(fā)送求助信息。他們隨后把這些代碼發(fā)給了當(dāng)?shù)匾魳饭?jié)目主持人,借主持人之口將這些數(shù)字公之于眾。令人驚訝的是,當(dāng)一切塵埃落定時(shí),手機(jī)短信分布的統(tǒng)計(jì)分析圖與地震災(zāi)害的高分辨率航空?qǐng)D像高度契合。實(shí)際上,人們的手機(jī)短信給重災(zāi)區(qū)的定位提供了很有價(jià)值的線索。對(duì)海地災(zāi)區(qū)的人們而言,更重要的是短信能救命,能將關(guān)鍵信息傳遞給空中直升機(jī)上的救援人員。
類似的系統(tǒng)已經(jīng)在疫情暴發(fā)期間使用,例如2010年秋海地暴發(fā)的霍亂疫情就使用過該系統(tǒng)。我們最終希望能將疫情偵查工作實(shí)現(xiàn)群眾外包,將患者們提供的零散信息匯集在一起,勾畫出從疫情開始到隨后擴(kuò)散的實(shí)時(shí)畫面。簡短的代碼只是一個(gè)開始。當(dāng)越來越多的國家采用電子醫(yī)療記錄時(shí),世界各地的人都可以直接通過手機(jī)報(bào)告自己的健康問題,以此加強(qiáng)與醫(yī)療網(wǎng)絡(luò)的聯(lián)系。這些信息不僅將為報(bào)告身體有恙的患者提供更有效的治療,而且當(dāng)分析大量用戶的信息時(shí),健康異?,F(xiàn)象將被更迅速、敏銳地偵查出來。發(fā)展到最后的反應(yīng)系統(tǒng),能夠識(shí)別出標(biāo)志一種流行病開始的異常的健康問題集群。至此,數(shù)字流行病學(xué)時(shí)代真正到來了。
用短信作為疾病擴(kuò)散的一個(gè)早期指示標(biāo),也有人對(duì)此持異議,原因之一是:即便在最緊迫的情形下,也不是所有人都會(huì)發(fā)短信。但是手機(jī)有一些使用方法,是不需要用戶進(jìn)行任何操作的。
就在我寫這句話的時(shí)候,世界上超過60%的人口已經(jīng)被安裝了自動(dòng)定位信標(biāo)。這些信標(biāo)持續(xù)提供他們所在準(zhǔn)確位置的最新信息。在未來5~10年內(nèi),地球上幾乎每個(gè)人都將安裝上自動(dòng)定位信標(biāo)。這不是政府陰謀,你口袋里的手機(jī)才是始作俑者。
手機(jī)不斷地與信號(hào)塔進(jìn)行交流,提供給電信運(yùn)營商海量的數(shù)據(jù),包括用戶所在位置,用戶彼此間如何聯(lián)系,和需稍加解釋的用戶社會(huì)行為。這些所謂的呼叫數(shù)據(jù)記錄為電信部門提供大量數(shù)據(jù),使他們有機(jī)會(huì)了解客戶并進(jìn)行更多的服務(wù)營銷。但是,大數(shù)據(jù)價(jià)值不僅僅體現(xiàn)在營銷上,這一持續(xù)信息流貌似單調(diào),但能夠救你的命。
被手機(jī)公司搜集的數(shù)據(jù),使我們都成了迅速偵查出重要人類事件的潛在傳感器。內(nèi)森·伊戈?duì)枺∟athan Eagle)對(duì)此做了細(xì)致的研究。他是麻省理工學(xué)院媒體實(shí)驗(yàn)室成員,將呼叫數(shù)據(jù)記錄應(yīng)用于廣義問題的開拓者之一。伊戈?duì)柡屯蕚兒献?,旨在通過挖掘呼叫數(shù)據(jù)記錄了解地震情況。
伊戈?duì)柡推溲芯繄F(tuán)隊(duì)在盧旺達(dá)研究呼叫模式數(shù)據(jù)達(dá)3年之久,其中包括對(duì)2008年2月3日那關(guān)鍵一星期的數(shù)據(jù)研究。當(dāng)天基伍湖地區(qū)發(fā)生了5.9級(jí)地震。通過設(shè)立呼叫頻率的基準(zhǔn)數(shù)據(jù),伊戈?duì)柡推鋱F(tuán)隊(duì)能夠發(fā)現(xiàn)地震之后那段時(shí)期呼叫模式異常的蛛絲馬跡。他們能夠通過呼叫數(shù)達(dá)到的一個(gè)峰值,來確定地震時(shí)間,也能夠利用來自手機(jī)信號(hào)塔的定位數(shù)據(jù)確定震中即呼叫量最大的位置。
利用手機(jī)數(shù)據(jù)偵查出地震時(shí)空信息的想法著實(shí)令人驚訝,它也暗示了一系列不同的手機(jī)數(shù)據(jù)應(yīng)用?;颊呖赡芨】等擞兄举|(zhì)上不同的呼叫模式。當(dāng)一個(gè)新疫情向外擴(kuò)散時(shí),呼叫模式也可能發(fā)生改變。單單分析呼叫數(shù)據(jù)記錄,可能對(duì)一個(gè)新疫情的早期偵查而言不盡完美,但結(jié)合我們和其他衛(wèi)生機(jī)構(gòu)組織提供的疫情資料,也許能幫助我們勾勒流行病早期的擴(kuò)散趨勢(shì)。
如今手機(jī)的使用越來越普遍,這可能成為疫情演變成流行病之前,迅速發(fā)現(xiàn)和應(yīng)對(duì)疾病的利器。然而在日益發(fā)展的數(shù)字監(jiān)控領(lǐng)域,手機(jī)并不是以技術(shù)為主的唯一解決方案。2009年我在谷歌的同仁們發(fā)表了一篇令人關(guān)注的論文,表明個(gè)人在線搜索模式也提供了人們所患傳染病的信息。
通過采用谷歌保存的海量搜索數(shù)據(jù)以及美國疾控中心搜集的美國流感監(jiān)控?cái)?shù)據(jù),研究團(tuán)隊(duì)能夠校準(zhǔn)監(jiān)測(cè)系統(tǒng),確定病患和其護(hù)理者所使用的、表明疾病出現(xiàn)的搜索關(guān)鍵詞。研究團(tuán)隊(duì)通過搜索與流感及其癥狀、治療相關(guān)的單詞,建立了一個(gè)預(yù)測(cè)流感趨勢(shì)的系統(tǒng),比美國疾控中心提供的流感統(tǒng)計(jì)準(zhǔn)確率更高。而事實(shí)上,谷歌團(tuán)隊(duì)做得更好:谷歌搜索數(shù)據(jù)即刻就能獲得,美國疾控中心流感監(jiān)測(cè)數(shù)據(jù)卻有滯后的問題,因?yàn)樾枰獣r(shí)間來報(bào)告和發(fā)布。先于傳統(tǒng)監(jiān)控系統(tǒng)提供準(zhǔn)確的流感趨勢(shì)預(yù)測(cè),谷歌由此擊敗了美國疾控中心。
谷歌搜索的流感趨勢(shì)系統(tǒng)
谷歌流感趨勢(shì)系統(tǒng)所提供的有關(guān)季節(jié)性流感的早期數(shù)據(jù)很有趣,并且有潛在的重要性。這一早期數(shù)據(jù)讓衛(wèi)生機(jī)構(gòu)有時(shí)間訂購藥物,以滿足不同病情之需。但是季節(jié)性流感的早期偵查不是我們的終極目標(biāo),我們的目標(biāo)是建立一個(gè)能夠發(fā)現(xiàn)一種新興流行病的系統(tǒng)。谷歌現(xiàn)在正努力將疾病偵查范圍從流感擴(kuò)展到其他種類的疾病。當(dāng)越來越多的人使用谷歌這樣的搜索引擎,我們就可以獲得越來越多的數(shù)據(jù)。我們所希望的是,除流感之外其他感染源的趨勢(shì)分析也做得越來越好。也許有朝一日,我們僅僅谷歌搜索一下,就會(huì)發(fā)現(xiàn)一種流行病正在某社區(qū)興起。
社交網(wǎng)絡(luò)的迅猛發(fā)展,提供了另一組大數(shù)據(jù),使我們有可能會(huì)發(fā)現(xiàn)即將到來的疫情信息。這些信息雖然微弱,但有潛在的價(jià)值。像英國布里斯托爾大學(xué)的計(jì)算機(jī)科學(xué)家威斯利斯·萊普(Vasileios Lampos)和奈勒·克里斯蒂亞尼尼(Nello Cristianini)已經(jīng)采用與谷歌科學(xué)家們相類似的方法,對(duì)數(shù)以億計(jì)的Twitter信息進(jìn)行整理。像他們?cè)诠雀璧耐蕚円粯?,萊普和克里斯蒂亞尼尼使用關(guān)鍵詞觀察Twitter上的流感趨勢(shì),發(fā)現(xiàn)其與流感統(tǒng)計(jì)具有相關(guān)性。這里的流感統(tǒng)計(jì)是指英國健康保護(hù)署(UK’s Health Protection Agency)提供的數(shù)據(jù)。
2009年在甲型H1N1流感病毒大流行時(shí)期,他們追蹤Twitter中與流感相關(guān)的信息的出現(xiàn)頻率,并將結(jié)果與官方衛(wèi)生數(shù)據(jù)比對(duì),發(fā)現(xiàn)準(zhǔn)確率達(dá)到97%。與谷歌流感趨勢(shì)研究團(tuán)隊(duì)的研究成果一樣,萊普他們的研究提供了一個(gè)既快捷又具有潛在廉價(jià)性的流感研究方式,作為傳統(tǒng)流行病數(shù)據(jù)收集的補(bǔ)充。這種研究方式也可能擴(kuò)展到對(duì)流感以外疾病的研究。
雖然社交網(wǎng)絡(luò)可以讓我們調(diào)查到人們正在交流什么話題,但它也許還能提供一系列更為豐富和精細(xì)的應(yīng)用。在最近一項(xiàng)引人注目的研究中,兩位社會(huì)科學(xué)的領(lǐng)軍人物尼古拉斯·克里斯塔基斯(Nicholas Christakis)和詹姆斯·福勒(James Fowler)研究了社交網(wǎng)絡(luò)如何能為傳染性疾病提供監(jiān)控。
在一個(gè)設(shè)計(jì)精巧的實(shí)驗(yàn)里,這兩位科學(xué)家追蹤被分成兩組的哈佛學(xué)生。第一組被試者是從哈佛學(xué)生中隨機(jī)選擇的,第二組被試者是從被第一組人列為朋友的人中選出來的。因?yàn)榭拷缃痪W(wǎng)絡(luò)中心的個(gè)人,可能比處在邊緣的人更快地被傳染上疾病,克里斯塔基斯和福勒就假設(shè)在一次疫情中,朋友組比隨機(jī)組更快地傳染上疾病,因?yàn)殡S機(jī)組一般比朋友組離社交中心遠(yuǎn)。實(shí)驗(yàn)結(jié)果令人震驚。在2009年的流感疫情中,朋友組比隨機(jī)組平均早14天感染上流感病毒。
我們希望社會(huì)科學(xué)能夠識(shí)別出新的“哨兵”來監(jiān)控新疫情,并早點(diǎn)捕獲它們。但是確定人與人間的朋友關(guān)系是要花時(shí)間的——我們?cè)谝凰鶈为?dú)的學(xué)校辦得到,在全國范圍內(nèi)也許就不行了。當(dāng)前巨大的在線社交網(wǎng)絡(luò)中自我確認(rèn)的朋友,也許讓這項(xiàng)任務(wù)更容易完成了。像Facebook這樣的在線社交網(wǎng)絡(luò)雖然不是為監(jiān)控疫情之便而設(shè)計(jì),但卻創(chuàng)造了相對(duì)便利的監(jiān)測(cè)系統(tǒng),能夠被用于確定疾病的出現(xiàn)頻率,識(shí)別社會(huì)性“哨兵”,也許最終會(huì)就一種新型感染源在一個(gè)社區(qū)的擴(kuò)散提供預(yù)警。
當(dāng)約翰·斯諾于1854年首創(chuàng)地理信息系統(tǒng)時(shí)(約翰·斯諾,英國著名的內(nèi)科醫(yī)生、牧師、當(dāng)代流行病學(xué)奠基人之一。在本章的開頭,作者引述了1854年倫敦霍亂疫情中,約翰·斯諾通過訪談、病例識(shí)別和繪制地圖的方法來找出疫情之源——編者注),他所采取的行動(dòng)在我們今天看來,十分合乎邏輯且直截了當(dāng)。他繪制了一張地圖,標(biāo)注了病人所在的位置以及可能的污染源。斯諾不可能預(yù)測(cè)到他所邁出的嘗試性的第一步將最終走向何方,或者預(yù)測(cè)到今天的GIS(geographic imformation system,即地理信息系統(tǒng))可使用的數(shù)據(jù)。
未來可能不會(huì)出現(xiàn)一種數(shù)據(jù)包打天下的局面。如果斯諾生活在今天的社會(huì),要調(diào)查一次疫情,他會(huì)想要得到所有數(shù)據(jù):病患在什么地方;如何通過短信或者互聯(lián)網(wǎng)搜索能更迅速、便捷地得到數(shù)據(jù);病例是被什么所傳染,甚至是被什么特有的微生物的基因株傳染;如何最大限度地使用呼叫數(shù)據(jù),記錄監(jiān)控人們的流動(dòng),以便追蹤疾病的流動(dòng)或者孕育疾病之所;人們是如何進(jìn)行社會(huì)性聯(lián)系的——他應(yīng)該會(huì)追蹤可能的首批感染者,或者是比其他人先出現(xiàn)病癥的人。
你可以想象一下未來的疫情GIS,或者用硅谷人更為熟悉的術(shù)語——我們的數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人拉奇·古拉斯卡拉稱其為未來的疫情聚合圖(mash-up):包含著層層關(guān)鍵信息的一幅地圖——有人們所在的位置、他們的關(guān)注點(diǎn)、他們感染的微生物、他們流動(dòng)的地方、他們聯(lián)系的人。研發(fā)和持有這張結(jié)合數(shù)字化和生物學(xué)的聚合圖,正是拉奇團(tuán)隊(duì)的奮斗目標(biāo),也是本書最后一章我們將要提到的內(nèi)容。隨著時(shí)間的推移,不同疫情的數(shù)據(jù)可以放在一起加以分析,使得我們?cè)趯?shí)際的疫情中考察不同因素的影響,并能夠?qū)λ械募夹g(shù)手段進(jìn)行最優(yōu)加權(quán),使預(yù)測(cè)效力最大化。
《病毒來襲》,【美】內(nèi)森·沃爾夫/著 沈捷/譯,浙江人民出版社·湛廬文化 2014年4月版。