2021年5月22日,由南京農(nóng)業(yè)大學(xué)數(shù)字人文中心主辦的“破壁與賦能:多學(xué)科驅(qū)動下的數(shù)字人文國際學(xué)術(shù)研討會”在南京農(nóng)業(yè)大學(xué)召開。多位海內(nèi)外重量級學(xué)者受邀參加了會議,包括哈佛大學(xué)包弼徳(Peter K. Bol)教授、上海圖書館劉煒副館長、北京科技大學(xué)潛偉教授、武漢大學(xué)王曉光教授、南開大學(xué)王利華教授、北京大學(xué)王軍教授、上海圖書館陳濤工程師、西北大學(xué)曲安京教授、復(fù)旦大學(xué)路偉東教授、南京大學(xué)陳靜副教授、萊頓大學(xué)魏希徳(Hilde De Weerdt)教授、杜倫大學(xué)德龍(Donald Sturgeon)助理教授以及南京農(nóng)業(yè)大學(xué)包平教授等。南京農(nóng)業(yè)大學(xué)黨委常委、副校長胡鋒教授和江蘇省哲學(xué)社會科學(xué)規(guī)劃辦公室主任許益軍致開幕辭。此次會議采用線上線下相結(jié)合的方式,共開展十三場專題報告及一場圓桌討論,并在騰訊會議和嗶哩嗶哩彈幕視頻網(wǎng)進(jìn)行同步直播。
與會學(xué)者合影
劉煒:“數(shù)字人文平臺架構(gòu)及語義互操作設(shè)計”
上海圖書館副館長、中國科技情報協(xié)會副理事長劉煒教授率先以“數(shù)字人文平臺架構(gòu)及語義互操作設(shè)計”為題進(jìn)行了報告。
劉煒教授從數(shù)字人文發(fā)展的態(tài)勢、技術(shù)發(fā)展的形勢、上海圖書館的數(shù)字人文建設(shè)、數(shù)字人文平臺的互聯(lián)及互操作等方分別進(jìn)行了匯報。他認(rèn)為當(dāng)前處在發(fā)展初期的數(shù)字人文研究被“圖博檔”,即圖書館、檔案館、博物館所占領(lǐng),基礎(chǔ)設(shè)施建設(shè)者占據(jù)了研究中的主導(dǎo)地位。然而同時,當(dāng)下基礎(chǔ)設(shè)施建設(shè)仍然不夠到位。他指出,在當(dāng)前的數(shù)字人文研究中,圖情領(lǐng)域研究者的核心競爭力在于解決“如何組織知識”這一問題。近二十年來,技術(shù)發(fā)展極其迅速,一批數(shù)字人文項目、工具和平臺被建設(shè)起來,但目前使用的技術(shù)基本集中于網(wǎng)絡(luò)互聯(lián)(Internet-connected)階段,縱然互聯(lián)網(wǎng)已經(jīng)將所有的研究者們串聯(lián)在一起,每個研究者所使用的系統(tǒng)仍然是相互獨立的。
劉煒認(rèn)為,數(shù)字人文的應(yīng)用系統(tǒng)發(fā)展存在數(shù)字化、文本化和數(shù)據(jù)化幾個階段。他還特別強(qiáng)調(diào),漢學(xué)材料在數(shù)字化階段需要保存原始圖像,這是中國數(shù)字人文發(fā)展中所面對的特殊問題之一。他通過一個“堆?!眻D向大家介紹了他心目中的數(shù)字人文的全景。理想中的數(shù)字人文的“堆?!卑ㄎ镔|(zhì)和精神兩大板塊以及制度、構(gòu)成、方法、系統(tǒng)、界面五個層面,它們共同構(gòu)成了數(shù)字人文的發(fā)展全景。他認(rèn)為,未來云原生時代的數(shù)字人文平臺系統(tǒng),也應(yīng)包括系統(tǒng)和內(nèi)容兩個方面的架構(gòu),同時,互聯(lián)網(wǎng)上的各個數(shù)字人文系統(tǒng)應(yīng)該通過應(yīng)用程序接口(Application Programming Interface, API)來進(jìn)行互操作,例如工具書,應(yīng)當(dāng)通過建立接口的方式服務(wù)于任何數(shù)字人文平臺和系統(tǒng)。
同時,劉煒也提出,目前數(shù)字人文提出的技術(shù)、框架和設(shè)想一定要和商務(wù)模式結(jié)合起來。他認(rèn)為,目前的數(shù)字人文平臺建設(shè)應(yīng)該凸顯“內(nèi)容架構(gòu)”,從平臺建設(shè)之初,就應(yīng)該在知識關(guān)聯(lián)的層面上打造宏觀架構(gòu),實現(xiàn)真正的知識管理。建立數(shù)字人文平臺,不外乎數(shù)據(jù)和方法兩個層面,其中,在數(shù)據(jù)層面應(yīng)當(dāng)實現(xiàn)“數(shù)據(jù)占有”和“書目控制”,在方法層面則應(yīng)強(qiáng)調(diào)“獲得事實”和“循證研究”。此外,劉煒還指出數(shù)據(jù)服務(wù)應(yīng)遵守FAIR(Findable, Accessible, Interoperable, Resuable)原則,并實現(xiàn)語義互操作,在系統(tǒng)底層解決信息的關(guān)聯(lián)問題。目前,上海圖書館正在建設(shè)“歷史人文大數(shù)據(jù)平臺”,以期實現(xiàn)“讓查全不是夢想,讓資料唾手可得,讓模型隨心所欲,讓計算隨遇而安,讓結(jié)果美輪美奐,讓人文研究不再困難”的愿景。
包弼徳(Peter K. Bol):“數(shù)字環(huán)境下的研究周期:面臨何種挑戰(zhàn)”
接下來,哈佛大學(xué)東亞語言與文明系包弼徳(Peter K. Bol)教授以“數(shù)字環(huán)境下的研究周期:面臨何種挑戰(zhàn)”為題進(jìn)行演講,從研究周期問題出發(fā),闡述了數(shù)字人文發(fā)展過程中的問題。包弼徳教授認(rèn)為,一個完整的研究周期分為提出研究問題、查找資料、整理、分析、出版五個環(huán)節(jié)。其中,提出研究問題環(huán)節(jié)是所有研究者共同面對的,而數(shù)字人文則能夠在查找資料、整理、分析、出版這幾個環(huán)節(jié)提供重要幫助。
從查找資料、數(shù)據(jù)、信息的環(huán)節(jié)上看,在2015年,世界上的數(shù)字資料總量為2澤字節(jié)(zettabytes),到2020年,這一數(shù)據(jù)則已經(jīng)達(dá)到了40澤字節(jié),這個數(shù)據(jù)量,相當(dāng)于美國所有高校圖書館資料綜合的50萬倍。這些數(shù)據(jù)形式多種多樣,并不全都與學(xué)術(shù)直接相關(guān),如視頻、音樂、通俗文學(xué)、漫畫、游戲、照片等。對于學(xué)者來說,則可以在網(wǎng)上找到各類資源,如書籍、地理空間信息、數(shù)字化字畫資源、古籍原文等。包弼德教授認(rèn)為,在資源的獲取上,有兩個重要問題,其一是跨資源平臺搜索,其二是大小機(jī)構(gòu)間資源獲取能力不平等。
從數(shù)據(jù)整理環(huán)節(jié)來看,過去我們將信息記錄在紙上并保存在文件柜中,但今天我們將許多數(shù)據(jù)保存為電子文檔和圖片,并將其存儲于文件系統(tǒng)中。研究者使用不同的數(shù)據(jù)存儲形式,如電子表格、關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫中,同時,也有人將資料存儲在“云端”,以便從不同設(shè)備進(jìn)行訪問,這一切都使得當(dāng)今分享數(shù)據(jù)與合作變得容易。然而,共享數(shù)據(jù)與合作也面臨挑戰(zhàn)。首先是數(shù)據(jù)存儲的空間問題,這涉及將數(shù)據(jù)存儲在何處以供分享。其次是許多學(xué)者害怕分享數(shù)據(jù),不希望數(shù)據(jù)被自己項目以外的人使用,針對這個問題,包弼徳提出,數(shù)據(jù)只是數(shù)據(jù),數(shù)據(jù)本身無價值,被廣泛的分析和使用才能讓數(shù)據(jù)真正具有價值。最后則是一些與學(xué)術(shù)無關(guān)的原因,如校園網(wǎng)內(nèi)服務(wù)器的“斷網(wǎng)”等,這類問題在中國比較嚴(yán)重。在數(shù)據(jù)整理工作中,包弼德教授所在的CBDB開發(fā)團(tuán)隊還在數(shù)據(jù)組織和分享中嘗試使用眾包模式,目前已經(jīng)通過眾包平臺開展了對25,000余封明代書信的人工地址識別。
在數(shù)據(jù)分析的環(huán)節(jié),數(shù)字人文方法及計算機(jī)科學(xué)技術(shù),為人文科學(xué)的發(fā)展做出了極大貢獻(xiàn)。包弼徳認(rèn)為,知識推進(jìn)包括三個部分,分別是知識的專門化,理論和典范的轉(zhuǎn)移,以及工具的變遷。正如同顯微鏡和望遠(yuǎn)鏡的發(fā)明使得自然科學(xué)家得以觀察到從前無法觀察的事物那樣,數(shù)字人文發(fā)展中引入的新工具也使得人文科學(xué)家能夠觀察到從前無法觀察之物。針對這個觀點,包弼徳進(jìn)一步討論了數(shù)字人文帶來的“概念飛躍”——文本挖掘和文本挖掘改變了閱讀方式,基于關(guān)系型資料的建模推動了人物傳記資料構(gòu)建,群體傳記學(xué)的發(fā)展解決了更多研究問題,空間分析使得數(shù)字化方志得以轉(zhuǎn)化成為空間對象,社會網(wǎng)絡(luò)分析促進(jìn)了對人物關(guān)系的深入研究。
如何維持可以繼續(xù)進(jìn)行的數(shù)據(jù)庫項目,工具和平臺?在這個問題上,包弼徳教授認(rèn)為“商業(yè)化就是大眾化”。目前CBDB也在進(jìn)行一些商業(yè)化工作,例如目前國內(nèi)的高校可以從中文在線“引得”數(shù)字人文資源平臺購買CBDB數(shù)據(jù)庫使用許可,以使用完整版本的CBDB數(shù)據(jù)。
潛偉:“科學(xué)史研究的數(shù)字化問題”
隨后,北京科技大學(xué)科技史與文化研究院院長潛偉教授以“科學(xué)史研究的數(shù)字化問題”為題進(jìn)行了發(fā)言。潛偉教授指出,在“大數(shù)據(jù)”時代下,需要積極利用信息技術(shù)開展“新文科”建設(shè)。在科技史這個相對小眾的學(xué)科中,數(shù)字化的發(fā)展存在嚴(yán)重缺位。近年來,無論是“數(shù)字人文”還是“數(shù)字史學(xué)”的研究都呈現(xiàn)上升趨勢,雖然目前科學(xué)史領(lǐng)域的相關(guān)研究較少,但計量史學(xué)、數(shù)字人文、數(shù)字史學(xué)、e考據(jù)等趨勢,都對科技史研究產(chǎn)生了一定影響。
定量研究的方法,在科學(xué)史研究中由來已久。自十九世紀(jì)下半葉以來,德堪多、高爾頓、雷諾夫、洛特卡、默頓、貝爾納、普萊斯、竺可楨、趙紅州等學(xué)者都曾使用量化方法研究科技史中的問題。潛偉教授自己及其研究團(tuán)隊,也曾就“科學(xué)圖形面積比例與學(xué)科硬度測量”、“《宋史》記載的高頻次學(xué)科”、“宋代科技成果曲線與科技政策曲線”等問題開展過科技史方面的定量分析。
潛偉認(rèn)為,數(shù)字史學(xué)的發(fā)展有兩種模式。一種是問題導(dǎo)向,這是傳統(tǒng)史學(xué)擅長的方法,致力于學(xué)術(shù)問題的分析與解決,更關(guān)注思想;另一種則是數(shù)據(jù)導(dǎo)向,注重數(shù)據(jù)驅(qū)動,數(shù)據(jù)轉(zhuǎn)換、提取、清洗和漂亮的可視化呈現(xiàn)??萍际返臄?shù)字化分為三個階段,首先是史料的數(shù)字化存儲和檢索管理,其次是可視化展示,最后是基于大規(guī)模歷史數(shù)據(jù)挖掘的量化分析研究。近年來,科技史領(lǐng)域?qū)偶臄?shù)字化亦發(fā)生興趣,產(chǎn)生了一批相關(guān)研究成果。目前,潛偉及其所在的團(tuán)隊正致力于中國古代金屬技術(shù)相關(guān)研究。最近,他的研究團(tuán)隊從圖情領(lǐng)域借鑒了新方法來建設(shè)中國古代金屬技術(shù)詞表,以構(gòu)建知識之間的關(guān)聯(lián)。 自去年起,團(tuán)隊著手建設(shè)了“文物科技標(biāo)本庫和數(shù)據(jù)庫”,使用三維掃描、計算機(jī)輔助計算等新技術(shù)對文物進(jìn)行信息采集和技術(shù)復(fù)原,并通過文物數(shù)據(jù)與地理信息系統(tǒng)的結(jié)合進(jìn)行遺址選址的預(yù)測。
潛偉強(qiáng)調(diào),數(shù)字化不等于數(shù)據(jù)化。建設(shè)具有邏輯關(guān)系的結(jié)構(gòu)化量化數(shù)據(jù)庫,才是實現(xiàn)數(shù)字史學(xué)的關(guān)鍵??萍际返臄?shù)字化既有文獻(xiàn)數(shù)據(jù)庫,也有文物遺址的數(shù)字化應(yīng)用;既有古代文獻(xiàn)挖掘整理,也有近現(xiàn)代文獻(xiàn)的科學(xué)計量研究。當(dāng)前,知識管理、數(shù)據(jù)挖掘、三維掃描、數(shù)值模擬、地理信息系統(tǒng)、聚類分析、社會網(wǎng)絡(luò)分析,已成為科技史數(shù)字化的主要方法。他樂觀地指出,科技史工作者先天具有技術(shù)向,科技史研究數(shù)字化未來可期。
王曉光:“文化遺產(chǎn)智能計算:方向與路徑”
武漢大學(xué)信息管理學(xué)院副院長、數(shù)字人文研究中心主任王曉光教授以“文化遺產(chǎn)智能計算:方向與路徑”為題進(jìn)行了報告。文化遺產(chǎn)作為記錄人類文明的重要載體和媒介,擁有著豐富的歷史文化和知識內(nèi)涵。盡管數(shù)據(jù)資源在人文社會科學(xué)研究中日益重要,但當(dāng)前的數(shù)字化建設(shè)還處于“搖籃本”時代,大量數(shù)字資源尚未成為可計算、可深度加工的數(shù)據(jù)生產(chǎn)要素。
對此,王曉光教授提出“文化遺產(chǎn)智能計算”,指出借助大數(shù)據(jù)、人工智能、云計算、5G等前沿技術(shù)對文化遺產(chǎn)蘊(yùn)含的信息與知識進(jìn)行采集、分析、組織、挖掘、表達(dá)、傳播和展示。通過從傳統(tǒng)文獻(xiàn)資源到智慧數(shù)據(jù)的轉(zhuǎn)換升級,真正支撐人文研究,實現(xiàn)文化遺產(chǎn)“活起來”的目標(biāo)和愿景。目前,以歐洲“歷史時光機(jī)”項目、芬蘭Sampo系列項目以及“數(shù)字敦煌”項目為代表的一批文化遺產(chǎn)智能計算的典型案例正在進(jìn)行中。
王曉光介紹到,文化遺產(chǎn)智能計算任務(wù)包括文本、視覺、時空和歷史虛擬再現(xiàn)四個維度,其實現(xiàn)路徑包括了數(shù)字化、智能計算和大規(guī)模富語義智慧數(shù)據(jù)三個過程,這也是從實物到數(shù)據(jù)、再到知識、最終到智慧的過程。目前,武漢大學(xué)正在全力建設(shè)文化遺產(chǎn)智能計算實驗室,從數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、古籍深度挖掘與再造、圖像語義理解與計算、文化遺產(chǎn)地理系統(tǒng)、遺產(chǎn)3D建模與虛擬呈現(xiàn)五大方面探索文化遺產(chǎn)資源的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展。王曉光教授表示,挖掘文化遺產(chǎn)中更深層次的歷史文化知識是數(shù)字人文研究的重要內(nèi)容,文化遺產(chǎn)智能計算需要多學(xué)科共同參與,利用先進(jìn)的數(shù)字技術(shù)對文化遺產(chǎn)進(jìn)行數(shù)字化再造與活化。文化遺產(chǎn)智能計算將構(gòu)建新型數(shù)字基礎(chǔ)設(shè)施,成為繁榮數(shù)字文化產(chǎn)業(yè),開啟數(shù)字文明的關(guān)鍵。
王利華:“數(shù)字資源與數(shù)字陷阱:一名普通學(xué)者的‘?dāng)?shù)字史學(xué)’實踐”
下半場第一場,由南開大學(xué)歷史學(xué)院暨生態(tài)文明研究院王利華教授率先以“數(shù)字資源與數(shù)字陷阱:一名普通學(xué)者的數(shù)字史學(xué)實踐”為題進(jìn)行報告。
王利華教授認(rèn)為,從地球生成到今天,人類已經(jīng)歷了物理世界、化學(xué)世界、生物世界、人類世界、文明世界到虛擬世界的迭深和嵌入。人類的生存狀態(tài)在發(fā)生顛覆性的變化,這種變化也帶來史學(xué)的顛覆。 數(shù)字技術(shù)給歷史學(xué)帶來諸多變化,改變了資源獲取方式,帶來新的工具,推動學(xué)科聯(lián)系,并描繪了新的歷史鏡像。
王利華教授介紹了自己早起建立歷史資料數(shù)據(jù)庫并從事研究的經(jīng)歷。他通過對唐以前大量文獻(xiàn)的數(shù)字化和分析,提出在中古時代中國北方地區(qū)以食羊肉而非豬肉為主的結(jié)論。在教學(xué)工作中,王利華也曾在多種情境下感受數(shù)字化帶來的便利。與此同時,在史料數(shù)字化過程中,王利華也曾面對許多問題,如同名異物問題、資料信度問題、資料轉(zhuǎn)化造成錯誤的問題等。
此外,王利華結(jié)合自己從事“中國當(dāng)代環(huán)境保護(hù)史數(shù)字資源數(shù)據(jù)庫”建設(shè)的經(jīng)驗,指出了一些數(shù)字史學(xué)發(fā)展過程中可能存在的問題。其中,最大的問題是“誰來作苦力”——在史學(xué)數(shù)據(jù)庫的建設(shè)中,有一些優(yōu)秀的學(xué)者成為了“數(shù)字史學(xué)的犧牲者”,未能產(chǎn)出理想的研究成果。另外,他還提出“由數(shù)字平臺操控學(xué)術(shù)評價”的危害。他認(rèn)為,目前各大數(shù)字平臺的學(xué)術(shù)評價體系存在弱點,在論文查重方面也存在如公共知識被判定為抄襲等諸多問題,這可能造成對學(xué)術(shù)的戕害。
王軍:“數(shù)字人文能為歷史做什么——人工智能技術(shù)在史料處理中的應(yīng)用”
北京大學(xué)信息管理學(xué)院王軍教授以“數(shù)字人文能為歷史做什么——人工智能技術(shù)在史料處理中的應(yīng)用”為題,展示館了北京大學(xué)數(shù)字人文研究中心的最新研究成果。
北京大學(xué)數(shù)字人文發(fā)展的一個重要方向,是幫助歷史學(xué)家從事研究工作。王軍教授表示,數(shù)字人文并不期待能夠在研究環(huán)節(jié)代替人文學(xué)者,而旨在為歷史研究提供輔助工具。歷史學(xué)家鄧廣銘先生有言,歷史研究有四把鑰匙,即目錄、年代、地理和職官。歷史學(xué)所做的工作,即在古典文獻(xiàn)的基礎(chǔ)上,在時空和政治制度的多維空間下,思考?xì)v史上的人與事。在這個框架之下,數(shù)字人文應(yīng)當(dāng)為歷史學(xué)家提供一些工具。文獻(xiàn)載體對歷史研究方法有決定性影響,傳統(tǒng)印本時代的年表、輿圖、職官志、圖書目錄、人名辭典等資料和工具書,在數(shù)據(jù)庫時代已被轉(zhuǎn)換成為各種數(shù)據(jù)庫。但目前數(shù)據(jù)庫能為學(xué)者提供的輔助,無非是快速數(shù)據(jù)查找和大規(guī)模資料存儲,如何從大規(guī)模的資料中,還原地理時空以及職官制度的多維思考空間,實現(xiàn)如譚其驤先生從文獻(xiàn)文本構(gòu)建歷史地圖籍那樣的工作,仍舊有待思考。
王軍教授認(rèn)為,在智能時代,大數(shù)據(jù)環(huán)境和人工智能應(yīng)用是兩大特征。一方面,數(shù)字技術(shù)的普及和開放共享風(fēng)氣的形成使得學(xué)者面臨歷史資料的再發(fā)現(xiàn),產(chǎn)生了“讀不完的材料”,也帶來網(wǎng)絡(luò)時代“數(shù)字文獻(xiàn)學(xué)”要解決的一系列問題。王軍認(rèn)為,解決這些問題的方法是實現(xiàn)文本材料的數(shù)據(jù)化、結(jié)構(gòu)化和語義化。另一方面,人工智能代表著計算機(jī)處理技術(shù)的極大提升,計算機(jī)已經(jīng)具備較強(qiáng)的搜索能力甚至理解能力,從基于規(guī)則的專家系統(tǒng)發(fā)展到基于學(xué)習(xí)的人工智能。
目前,王軍教授及其團(tuán)隊正致力于在兩三年之內(nèi)為學(xué)術(shù)界提供一個“漢語古籍大數(shù)據(jù)分析平臺”。該平臺的核心部分在于自動句讀和命名實體自動識別,王軍在現(xiàn)場向大家展示了這套系統(tǒng)的自動句讀及命名實體識別過程。此系統(tǒng)目前從先秦上古文本到明清及近現(xiàn)代文本的平均自動句讀準(zhǔn)確率已達(dá)94%左右,在詩詞韻文上的準(zhǔn)確率甚至達(dá)到99%。在命名實體自動識別方面,系統(tǒng)已經(jīng)能識別人名、地名、時代名和職官名,其中,該在標(biāo)注語料上的識別準(zhǔn)確率達(dá)到99%,在泛化語料上的識別準(zhǔn)確率接近88%。在識別速度上,系統(tǒng)將8000字文本進(jìn)行句讀需要約20秒時間,進(jìn)行命名實體識別則需要約25秒。團(tuán)隊下一步的目標(biāo),是在此系統(tǒng)中實現(xiàn)關(guān)系提取。隨后,王軍還向大家展示了其團(tuán)隊開發(fā)的“宋元學(xué)案知識圖譜”系統(tǒng)。這套系統(tǒng)在命名實體識別的基礎(chǔ)上,將87個宋元學(xué)案進(jìn)行可視化描繪,對學(xué)案中各學(xué)派學(xué)者人數(shù)變化、地理分布、著作信息、官職信息、人際關(guān)系網(wǎng)絡(luò)、學(xué)術(shù)傳承關(guān)系等各個層面的信息進(jìn)行生動刻畫。
王軍表示他在數(shù)字人文研究中的終極目標(biāo),是實現(xiàn)系統(tǒng)的“自然語言問答”。他樂觀地指出,如果能將二十四史的全部信息輸入到這套系統(tǒng)中,并用自然語言問答來訪問該系統(tǒng),就能“復(fù)活”歷史與文化,實現(xiàn)人與歷史的直接對話。
陳濤:“史料資源圖像知識框架構(gòu)建與應(yīng)用”
接下來,上海圖書館及上??茖W(xué)技術(shù)情報研究所高級工程師陳濤博士以“史料資源圖像知識框架構(gòu)建與應(yīng)用”為題進(jìn)行了報告。
陳濤博士指出,圖像是一種重要的史料。當(dāng)前的資料平臺中,圖像更多的是作為附件而非“資源”存在,且各平臺間的圖像獨立存儲在各自的服務(wù)器上,不能進(jìn)行交互,造成了“圖像孤島”現(xiàn)象。上海圖書館的想法,則正是希望能夠讓這些圖像“活”起來,通過使用 “國際圖像互操作框架(International Image Interoperability Framework, IIIF)”,實現(xiàn)圖像之間的“互操作、可獲取、可展示、可關(guān)聯(lián)、可比較、可分析”,使圖像成為可以流通、共享、交互的數(shù)據(jù)節(jié)點。IIIF已經(jīng)在全球掀起熱潮,國內(nèi)方面,除了上海圖書館的“歷史人文大數(shù)據(jù)平臺”項目之外,各大高校、博物館中也有多項數(shù)字人文項目使用了該框架。IIIF并非一個平臺或系統(tǒng),而是定義了一套交互的“標(biāo)準(zhǔn)”,目前包含“圖像、呈現(xiàn)、搜索、驗證”四個API,其中“呈現(xiàn)API(Presentation API)”是核心。基于IIIF,陳濤所在的團(tuán)隊提出了“史料資源圖像知識框架”,該框架包含“圖像資源IIIF重組”、“圖像資源數(shù)據(jù)化提取”、“圖像資源語義化關(guān)聯(lián)”以及“圖像資源智慧化應(yīng)用”四個部分。
以IIIF為基礎(chǔ),結(jié)合關(guān)聯(lián)數(shù)據(jù)、知識圖譜、圖數(shù)據(jù)庫等技術(shù),陳濤團(tuán)隊開展了“多維圖像智慧系統(tǒng)(簡稱MISS平臺)”建設(shè)。該平臺支持多種格式的圖像資源一站式在線組織、發(fā)布、復(fù)用、語義標(biāo)注、分享等,目前可支持億級像素的超清、超大圖像資源的在線交互,為史料資源再利用提供了堅實的技術(shù)堡壘。目前,平臺由上海市高等院校海外交流聯(lián)誼會及上海市海峽兩岸教育交流促進(jìn)會新文科專業(yè)委員會發(fā)布與運(yùn)營。MISS平臺具備資源層、功能層、研究探索層三層架構(gòu)。在資源層,平臺可以將海內(nèi)外的資源進(jìn)行導(dǎo)入;在功能層,平臺將資源按照圖數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行存儲,并能實現(xiàn)資源內(nèi)容重組、OCR、多層標(biāo)注、協(xié)同研究、對象識別及關(guān)聯(lián)等操作;在研究探索層,則可開展語義鏈接、圖像內(nèi)容檢索、史料圖像復(fù)用、知識圖譜分析等。目前,MISS平臺已經(jīng)能導(dǎo)入海內(nèi)外超過20所高校、圖書館、博物館的資源,這為研究者整合研究資源提供了便利。此外,陳濤還著重介紹了平臺建設(shè)中正在實現(xiàn)的新設(shè)想,如通過圖像復(fù)用及重組保持圖像版本的唯一性、建設(shè)圖像多模態(tài)注釋體系、設(shè)計圖像內(nèi)容注釋模型和圖像語義標(biāo)注流程等。
陳濤認(rèn)為,可以將“數(shù)字人文”理解成一棵大樹。人文數(shù)據(jù)是這棵樹的樹根,研究數(shù)據(jù)是樹葉,數(shù)字人文的成果是樹果,資源描述框架則是樹干。想要將不同的樹葉連起來,則需要關(guān)聯(lián)數(shù)據(jù)(Linked Data)和IIIF兩個樹枝。同時,從人文數(shù)據(jù)到研究數(shù)據(jù)的提取,又需要大數(shù)據(jù)(Big Data)和人工智能(Artificial Intellegence, AI)兩項技術(shù)。他將這五項技術(shù),合稱為數(shù)字人文研究中的LIBRA技術(shù)理論。
曲安京:“中國出土文獻(xiàn)的數(shù)字人文研究”
下午的會議中,第一場報告人是西北大學(xué)科學(xué)史高等研究院曲安京教授,他的演講題目為“中國出土文獻(xiàn)的數(shù)字人文研究”。
目前,曲安京教授所在的西北大學(xué)科學(xué)史高等研究生院,正在進(jìn)行出土文獻(xiàn)與數(shù)字人文方面的研究,他們的目標(biāo)是實現(xiàn)“中國出土文獻(xiàn)語料庫”之構(gòu)建與應(yīng)用。出土文獻(xiàn)的目標(biāo)范圍,包括簡牘、金文 、甲骨文等,西北大學(xué)團(tuán)隊期望在“中國出土文獻(xiàn)語料庫”的基礎(chǔ)上,開展諸如簡牘的復(fù)原和綴連等歷史問題的數(shù)字人文研究,并為中文信息處理領(lǐng)域提出一些新鮮的問題,如短文本處理等。曲安京教授向聽眾們闡述了團(tuán)隊選擇出土文獻(xiàn)進(jìn)行研究的理由。他認(rèn)為,中國出土文獻(xiàn)文本規(guī)模適中,同時又與傳世文獻(xiàn)存在結(jié)構(gòu)上的顯著差異,值得單獨進(jìn)行研究。構(gòu)建“中國出土文獻(xiàn)語料庫”的意義在于,將數(shù)字人文的研究方法應(yīng)用到出土文獻(xiàn)的研究領(lǐng)域,為傳統(tǒng)出土文獻(xiàn)的研究提供新方法。在語料庫構(gòu)建完成后,團(tuán)隊亦期望能夠在此基礎(chǔ)上進(jìn)一步提出歷史問題和中文信息處理問題并進(jìn)行解決。
曲安京指出,數(shù)字人文研究中,語料庫的構(gòu)建是一項沉沒成本極高的工作。因此,他的團(tuán)隊在選擇出土文獻(xiàn)作為研究對象時,立足點并不僅僅是基礎(chǔ)設(shè)施建設(shè),而更多放在數(shù)字人文研究和語料庫應(yīng)用之上。在未來,團(tuán)隊還希望進(jìn)一步推動數(shù)字人文基礎(chǔ)設(shè)施建設(shè)和數(shù)字人文方法的創(chuàng)新與應(yīng)用,形成以科學(xué)史為交叉點的全國高?!皵?shù)字人文”多學(xué)科融合交流平臺,為歷史、考古、情報、信息等多學(xué)科在數(shù)字信息環(huán)境下的發(fā)展,構(gòu)建基礎(chǔ)設(shè)施、提供實驗場所、創(chuàng)新研究方法。
路偉東:“數(shù)字人文背景下長時段中國歷史人口研究”
來自復(fù)旦大學(xué)中國歷史地理研究所(以下簡稱復(fù)旦史地所)的路偉東教授以“數(shù)字人文背景下長時段中國歷史人口研究”為題進(jìn)行了報告。他指出,歷史地理研究的對象是典型的具有時間屬性的空間數(shù)據(jù),歷史地理學(xué)者關(guān)注數(shù)字人文是從GIS(地理信息系統(tǒng))開始的。早在二十年前,在葛劍雄教授和包弼德教授(Peter K. Bol)的帶領(lǐng)下,復(fù)旦史地所和哈佛大學(xué)就曾一起推動了CHGIS項目的建設(shè)。這一項目的本質(zhì)是基于史學(xué)考據(jù)的科學(xué)數(shù)據(jù)生產(chǎn)。該項目已經(jīng)公布一批免費(fèi)使用的標(biāo)準(zhǔn)歷史基礎(chǔ)數(shù)據(jù),在海內(nèi)外廣受關(guān)注。但路偉東教授認(rèn)為,對于個體研究者來說,如何將這些數(shù)據(jù)、技術(shù)、理論與方法運(yùn)用在自己的研究實踐中,進(jìn)行真正面向?qū)W術(shù)問題關(guān)切的個案研究,可能是一個更值得思考的問題。在過去的十幾年間,路偉東教授持續(xù)關(guān)注清代歷史人口相關(guān)問題,他認(rèn)為自己在研究中“有一點點工作勉勉強(qiáng)強(qiáng)可以歸入數(shù)字人文的范疇”,他的演講就主要圍繞這些工作展開。
路偉東教授表示,兩千年的中國歷史人口發(fā)展中,有一個重要的轉(zhuǎn)折點就是清末民初人口增長模式發(fā)生了結(jié)構(gòu)性變化,在這個轉(zhuǎn)折點上發(fā)生了一次全國性的人口調(diào)查,即宣統(tǒng)人口調(diào)查。研究宣統(tǒng)人口調(diào)查對于觀察中國人口和社會由傳統(tǒng)向現(xiàn)代轉(zhuǎn)型,具有重要學(xué)術(shù)意義和現(xiàn)實價值。但是對于這次調(diào)查數(shù)據(jù)質(zhì)量,學(xué)界存在較大爭議,認(rèn)可這次調(diào)查結(jié)果的學(xué)者將其稱為“中國歷史上第一次真正具有現(xiàn)代人口普查意義的人口調(diào)查”,反對者則認(rèn)為這次調(diào)查的數(shù)據(jù)非常糟糕,與其說是調(diào)查不如說是編造。無論是支持者還是反對者,能夠看到的數(shù)據(jù)都非常有限,主要是出自民國學(xué)者分省統(tǒng)計表,基本上只有“戶、男口、女口、性別比” 等少量字段。實際上,就這份簡單的統(tǒng)計表還不是原始數(shù)據(jù),而是王士達(dá)、陳長蘅等人從清朝民政部宣統(tǒng)人口調(diào)查匯總表中抄錄并修訂而來,被抄錄的原始數(shù)據(jù)則收藏在臺北“國史館”中,為分縣統(tǒng)計數(shù)據(jù)。大約十年前,路偉東教授在甘肅省圖書館偶然發(fā)現(xiàn)了宣統(tǒng)年間人口調(diào)查的基層原始文獻(xiàn),即“地理調(diào)查表”,該文獻(xiàn)以自然聚落為單位,大約記錄了7000個聚落的戶口等數(shù)據(jù)。這些原始的文獻(xiàn)引發(fā)了路偉東教授的思考。
第一個問題是城市人口等級模式。傳統(tǒng)時代后期中國究竟有多少城市人口?這個問題很有趣,但是很難回答。主要原因是缺少數(shù)據(jù),一方面中國傳統(tǒng)文獻(xiàn)中的歷史人口是以保甲體系為單位的納稅戶口,而非以城鄉(xiāng)為單元的全部人口;另一方面,文獻(xiàn)中有限的城市歷史人口又大多是行政治所類城市。在這種情況下,研究的問題似乎可以轉(zhuǎn)化成為——假如可以在一個特定的區(qū)域內(nèi)根據(jù)有限的行政治所城市人口,構(gòu)建一個不同行政等級的城市人口非等差比例模型,就可以差補(bǔ)全部城市人口。這一做法,在邏輯上看似符合普遍認(rèn)知,即省城人口多于府城人口,府城人口多于縣城人口。但實際上卻存在嚴(yán)重錯誤,因為傳統(tǒng)時代決定城市行政等級的核心要素不是,或者至少不只是城市人口,反過來也無法推斷一個與城市行政等級相吻合的城市人口等級模式。用地理調(diào)查表的數(shù)據(jù)可以用來檢驗這樣的結(jié)論,其實,這一問題更深層的社會背景是傳統(tǒng)時代行政城市的首位度很低,對于人口和資源的虹吸效應(yīng)很弱;人口與水源和交通等地理要素的相關(guān)性也較低;相較之下,人口是趨于離散的,人口的空間分布相當(dāng)平滑,這與當(dāng)代人口空間分布存在顯著差異。許多現(xiàn)在看起來遠(yuǎn)離交通線和水源的“窮鄉(xiāng)僻壤”,在改革開放前都曾存在大量人口,這些人口實際上大部分都是傳統(tǒng)時代中后期逐漸遷入的。路偉東教授強(qiáng)調(diào),如果我們偏離這樣的基本歷史認(rèn)識,用不同的地理因子匹配歷史人口,通過復(fù)雜的計算可能就會得出錯誤結(jié)論 。
第二個問題是中國傳統(tǒng)社會的城市化水平。這個問題一方面呼應(yīng)了對傳統(tǒng)中國社會結(jié)構(gòu)穩(wěn)定性的討論,另一方面在某種程度上也迎合了對于歷史中國輝煌過往的想象,學(xué)界討論比較熱烈。許多知名學(xué)者,如珀金斯(D. H. Perkins)、諾斯坦(Frank Notestein)、喬啟明、施堅雅(G. W. Skinne)、趙岡、饒濟(jì)凡(Gilbert Rozman)等,都曾根據(jù)自己定義的“城市”,即人口大于某一個閾值為城市,估算中國傳統(tǒng)社會晚期的城市化水平。路偉東通過對這些研究者的估計數(shù)據(jù)與“地理調(diào)查表”數(shù)據(jù)的對比,發(fā)現(xiàn)他們的結(jié)論均存在錯誤。路偉東認(rèn)為,探討現(xiàn)代話語的城市化水平有兩個基本前提,其一是嚴(yán)格人為界定的城市和城市空間邊界,其二是基于空間邊界的科學(xué)人口普查數(shù)據(jù)。但是歷史中國這兩個條件均不具備,所以實際上討論歷史時期的城市化水平是一個偽命題?,F(xiàn)實工作中,還有很多工作和研究歷史時期的城市化水平一樣,就是把歷史問題強(qiáng)行納入到現(xiàn)實的框架中進(jìn)行討論,“新瓶裝舊酒”,最終,通過復(fù)雜的數(shù)據(jù)計算和眼花繚亂的數(shù)學(xué)公式堆砌,得出漏洞百出、似是而非的結(jié)論。
此外,路偉東還講解了一個通過靜態(tài)截面數(shù)據(jù)展示人口動態(tài)遷移過程的案例。戰(zhàn)爭與戰(zhàn)爭引發(fā)的饑饉瘟疫是中國歷史人口短時間內(nèi)劇烈波動的核心要素。同治西北的戰(zhàn)爭造成了約千萬量級的人口損失,通過繁瑣的文獻(xiàn)梳理可以發(fā)現(xiàn),這一時期的人口遷移模式不是橫向的水平遷移,即從戰(zhàn)爭區(qū)域逃離到非戰(zhàn)爭區(qū)域;而是在戰(zhàn)爭區(qū)域內(nèi)部的縱向垂直遷移,即從小的聚落逐層逐級遷往較大的核聚落,尤其是那些有城墻和守衛(wèi)的行政治城。這一問題體現(xiàn)在數(shù)據(jù)上就是聚落的數(shù)量在減少,但聚落的規(guī)模在擴(kuò)大。將“地理調(diào)查表”中千人以上聚落進(jìn)行可視化展示,會發(fā)現(xiàn)這些聚落的分布是集聚而非離散的,并且數(shù)據(jù)分布在戰(zhàn)時人口損失特別嚴(yán)重和特別不嚴(yán)重的兩個極端區(qū)域,前者顯然是由于戰(zhàn)爭期間人口收縮的結(jié)果,后者則是戰(zhàn)爭期間及戰(zhàn)爭后避難人口入遷導(dǎo)致的。
使用“地理調(diào)查表”中的戶口數(shù)據(jù),路偉東還對葛劍雄教授主編的六卷本《中國人口史》中的部分研究進(jìn)行了驗證。在《中國人口史》中,第五卷和第六卷作者對宣統(tǒng)人口調(diào)查數(shù)據(jù)的認(rèn)識不同,數(shù)據(jù)前后無法銜接。通過使用人口重心模擬1776年至1953年西北人口變動,路偉東發(fā)現(xiàn),使用《中國人口史》第五卷中關(guān)于宣統(tǒng)人口數(shù)的校正數(shù)據(jù),和使用“地理調(diào)查表”人口數(shù)據(jù)計算出的人口與重心存在方向性的不同,在排除幾種不可能的解釋之后,他認(rèn)為《中國人口史》第五卷中的人口校正數(shù)據(jù)是錯誤的。除此之外,基于“地理調(diào)查表”,路偉東及其團(tuán)隊還開展了一系列其它工作,比如開發(fā)聚落在線定位網(wǎng)站、基于隨機(jī)森林回歸模型重建西北地區(qū)歷史人口空間分布、輔助建設(shè)《清朝歷史地理信息系統(tǒng)》以及建設(shè)絲綢之路沿線歷史人口數(shù)據(jù)庫等。路偉東指出,在一套看似簡單的數(shù)據(jù)上,傳統(tǒng)人文研究者可以工作十年甚至更久,這是因為需要將看似簡單枯燥的數(shù)據(jù)放在更宏大的時空背景中研究,才能透過數(shù)據(jù)觀察復(fù)雜多面向的歷史,不斷地感知和走近歷史現(xiàn)實。
最后,路偉東教授表達(dá)了他身為歷史學(xué)者對數(shù)字人文研究的一些看法。數(shù)字人文引起學(xué)界的普遍關(guān)注不過最近十余年,但如果談到人文計算或者人文計量,其實可以回溯得更久遠(yuǎn)一些。若干年前在史學(xué)界曾經(jīng)興起過計量史學(xué)的熱潮,但近年來計量史學(xué)已漸漸淡出主流史學(xué)研究者們的視野,表面上看,其原因是計量史學(xué)那種過于追求技術(shù)、數(shù)據(jù)和計算的研究偏離了傳統(tǒng)史學(xué)范式,同時,也不排除,有相當(dāng)一部分計量史學(xué)工作者于有意或無意間流露出的技術(shù)炫耀和數(shù)據(jù)傲慢,引發(fā)了傳統(tǒng)史學(xué)工作者的厭惡與嫌棄,近而形成了溝壑式的學(xué)科成見。但路偉東認(rèn)為,這些只是問題的表象,其更本質(zhì)的原因在于計量史學(xué)將復(fù)雜綜合的歷史現(xiàn)象和社會關(guān)系全部歸結(jié)于簡單的數(shù)學(xué)函數(shù)關(guān)系,用單一的“數(shù)據(jù)變量”取代了構(gòu)成歷史主體的人的主動歷史實踐,以及研究者本身對歷史復(fù)雜性的個性化全面理解和整體認(rèn)知,由此最終掩蓋了人文和人文研究的光輝。但是,最近十幾年“數(shù)字人文”的火熱,和之前計量史學(xué)興起的時代背景已有不同。路偉東認(rèn)為現(xiàn)在的數(shù)字人文堪稱“千萬年未有之大變局”,最近十年信息技術(shù)的巨大進(jìn)步不僅僅引發(fā)了全新的技術(shù)變革,也帶來了社會結(jié)構(gòu)質(zhì)的飛躍,其背后更深層次的數(shù)據(jù)基礎(chǔ)是,包括歷史文本在內(nèi)的幾乎所有信息都開始逐漸脫離物理的載體,不斷數(shù)字化。在這樣的時代背景下,無論傳統(tǒng)人文學(xué)者對數(shù)字人文存在怎樣的質(zhì)疑和批評,毫無疑問,當(dāng)下?lián)涿娑鴣淼臄?shù)字人文浪潮已經(jīng)給傳統(tǒng)人文研究帶來了強(qiáng)烈的沖擊,實際上,比這種沖擊更重要,也更嚴(yán)重的問題是,我們目前已經(jīng)處于一個完全不可逆的數(shù)字化進(jìn)程中,再也無法回頭。數(shù)字人文的崛起是信息技術(shù)向傳統(tǒng)人文研究滲透與介入的結(jié)果,但數(shù)字人文既不是傳統(tǒng)人文研究的終結(jié)者,也不是傳統(tǒng)人文研究的附屬品,在不遠(yuǎn)的將來,數(shù)字人文發(fā)展的最終指向一定會有自己獨特的研究理論、方法、范式,以及學(xué)術(shù)關(guān)切和知識體系。從這一視角看,當(dāng)下蓬勃發(fā)展的數(shù)字人文浪潮,只不過是從剛剛開啟的那扇數(shù)字人文大門的縫隙里透出的第一縷曙光。路偉東表示,未來的路還有很長,值得大家的共同努力。
陳靜:“迭代更新還是打破重構(gòu)?數(shù)字人文之于交叉學(xué)科的價值”
來自南京大學(xué)藝術(shù)學(xué)院的陳靜副教授以“迭代更新還是打破重構(gòu)?數(shù)字人文之于交叉學(xué)科的價值”為題進(jìn)行了報告。她表示,目前理工科中交叉學(xué)科的開展情況較好,有生物醫(yī)學(xué)、物理化學(xué)、天文物理以及各學(xué)科與統(tǒng)計學(xué)的交叉等。文科中,則有文化研究、性別研究、審美人類學(xué)、藝術(shù)社會學(xué)等。陳靜教授提到,逐漸走向沒落的“文化研究”領(lǐng)域曾面對與當(dāng)下“數(shù)字人文”相似的困境,當(dāng)時盛寧、周憲、張紅兵、呂新雨等學(xué)者的研究中,曾就研究范式、學(xué)科化、本土資源和問題意識、既有框架下的發(fā)展意義等展開討論,這些對文化研究的探討會引發(fā)關(guān)于數(shù)字人文的思考。
陳靜教授探討的核心問題,在于基于中國語境的人文與實踐問題的一系列理論與方法。她認(rèn)為,數(shù)字人文的建設(shè)性意義在于直面新一輪技術(shù)變革帶來的大挑戰(zhàn)、響應(yīng)國家主導(dǎo)的“新文科”策略、滿足學(xué)科建設(shè)的內(nèi)部匱乏與突破剛需、以及形成新的學(xué)術(shù)共同體與評價體系。在理論探討之外,陳靜也介紹了她的研究團(tuán)隊近兩年正在開展的中國傳統(tǒng)色彩知識研究?!吧省弊鳛橐环N跨領(lǐng)域的存在,分散于典籍、織繡、器物乃至口頭知識中。陳靜及其研究團(tuán)隊希望通過數(shù)字人文的手段從生產(chǎn)主體、生產(chǎn)方式、知識存在方式及知識特點四個層面體現(xiàn)數(shù)字時代的知識生產(chǎn)轉(zhuǎn)型。項目期望做到傳統(tǒng)手工藝的有籍可查、有物可考、有據(jù)可依、有人可問,實現(xiàn)方法論和應(yīng)用層面的多個目標(biāo),并對接產(chǎn)業(yè)需求。
魏希徳(Hilde De Weerdt):“東亞數(shù)字人文的關(guān)鍵問題”
隨后,Markus古籍半自動標(biāo)記平臺的主持開發(fā)者、來自荷蘭萊頓大學(xué)的魏希徳(Hilde De Weerdt)教授以“東亞數(shù)字人文的關(guān)鍵問題”為題進(jìn)行了演講,從五個有關(guān)問題出發(fā),探討東亞數(shù)字人文的問題與挑戰(zhàn)。
首先是近年來東亞數(shù)字人文研究主要成果的問題。其一是創(chuàng)建了全文人名地理信息資料庫,且維護(hù)并擴(kuò)大了這些資料庫,如CBDB、CHGIS、C-Text等;其二是不同機(jī)構(gòu)開發(fā)了促進(jìn)數(shù)字人文研究的工具和平臺,如魏希徳教授自己所在的研究團(tuán)隊開發(fā)的MARKUS文本標(biāo)記平臺、COMPARATIVUS文本對比平臺和PARALLELS版本對比平臺等;其三是不同研究機(jī)構(gòu)的開發(fā)者開始一起設(shè)計交換信息、提供工具使用權(quán)的渠道,如馬克斯-普朗克人類歷史科學(xué)研究所開發(fā)的RISE平臺等;其四是在各個方面上東亞數(shù)字人文的發(fā)展越來越快,國際數(shù)字人文期刊越來越歡迎東亞數(shù)字人文研究的相關(guān)文章;其五是東亞數(shù)字人文研究數(shù)量不斷增加,并呈現(xiàn)出多樣化的取向,多個領(lǐng)域的期刊上都推出了關(guān)于數(shù)字人文的特刊,且產(chǎn)生了新的電子書項目;其六是與中國的情況相似,海外的數(shù)字人文研究也出現(xiàn)了虛擬的學(xué)術(shù)共同體,學(xué)術(shù)共同體內(nèi)部通過電子媒體互相交換經(jīng)驗和分享資源。
第二個問題則是東亞數(shù)字人文面對的關(guān)鍵挑戰(zhàn)。魏希徳教授認(rèn)為,目前東亞數(shù)字人文面對的挑戰(zhàn)分別為學(xué)術(shù)界內(nèi)的障礙、技術(shù)性的挑戰(zhàn)、文物管制上的不同、以及數(shù)字人文認(rèn)識論性的挑戰(zhàn)。其中她特別強(qiáng)調(diào),技術(shù)性的問題往往沒有學(xué)者想象的那樣嚴(yán)重,以機(jī)器學(xué)習(xí)技術(shù)為例,在MARKUS的開發(fā)過程中很早就設(shè)計了機(jī)器學(xué)習(xí)模組,并將其運(yùn)用至資料的命名實體識別等過程。但她同時也指出,由于MARKUS開發(fā)時間較早,當(dāng)時所采用的技術(shù)以現(xiàn)在來看已顯落后。目前,萊頓大學(xué)已經(jīng)拿到歐盟和荷蘭國科會的兩項大項目,兩個項目的主要目標(biāo)是描繪長時期的“物質(zhì)基礎(chǔ)建設(shè)的社會史(social history of material infrastructures)”,如通過對地方志、考古報告等文獻(xiàn)的數(shù)字分析,探究中國各地的城墻、道路、橋梁等的建設(shè)、瓦解和重組;利用挖掘出的數(shù)據(jù)研究各地的區(qū)域發(fā)展或縮小等。給歷史學(xué)家開發(fā)較好的機(jī)器學(xué)習(xí)服務(wù),也是兩個項目的核心目標(biāo)。從今年九月開始,萊頓大學(xué)將開放9個博士及博士后職位,包括數(shù)字歷史、數(shù)字考古、人工智能與軟件開發(fā)等,她也歡迎對此感興趣的聽眾申請。在認(rèn)識論性的挑戰(zhàn)方面,魏希徳認(rèn)為數(shù)字人文有兩條道路,一條是計算機(jī)學(xué)性的,利用各種計算機(jī)學(xué)的計量研究方法;另一條是理論性的,也常常是批判性的。可惜的是目前這兩條道路往往是分開的,而她認(rèn)為無論是研究方面還是教學(xué)方面,兩種方法都缺一不可,應(yīng)該將計算性的研究與批判性的理論聯(lián)合在一起。計算機(jī)學(xué)的研究方法往往源自于自然科學(xué)與社會科學(xué)領(lǐng)域,必須把人文科學(xué)方面的關(guān)懷和研究流程與這些科學(xué)的模式結(jié)合在一起。
第三是對數(shù)字人文的不同理念與不同的制度嵌入對國際性合作的影響問題。在理念影響方面,仍然存在面向計算機(jī)學(xué)的數(shù)字人文與面向理論性、文化性的數(shù)字人文地位不平等的問題。在東亞數(shù)字人文研究中,后者比前者更少出現(xiàn)在數(shù)字人文的會議上。在國際合作的問題上,一般來講數(shù)字人文的項目以一個國家的邊界為限,以每個國家的官方語言為主,魏希徳認(rèn)為數(shù)字人文需要更多多語言的研究、工具和平臺。目前,中國的數(shù)字人文研究界大部分平臺只支持漢語,事實上其它在中國歷史上被利用的語言也需要被包含進(jìn)來,魏希徳認(rèn)為,此問題的改善可能需要靠加強(qiáng)國內(nèi)、國際合作來實現(xiàn)。最近,MARKUS系統(tǒng)中已經(jīng)開始支持更多語言,如在中文和英文之外支持韓文材料的處理等。
第四個問題是國內(nèi)和國際性標(biāo)準(zhǔn)的優(yōu)勢與缺陷。魏希徳指出,不同的標(biāo)準(zhǔn)各有優(yōu)劣,但多語言性的研究以及資料庫與工具的結(jié)合無疑需要共同的標(biāo)準(zhǔn)。舉例而言,在剛開始做基礎(chǔ)建設(shè)設(shè)施時,她就開始尋找有關(guān)于基礎(chǔ)設(shè)施的本體(Ontology)或術(shù)語集,但這非常困難。這樣的方法和工具本應(yīng)存在,她的團(tuán)隊也希望能夠在未來為大家提供這樣的工具。
最后一個問題是數(shù)字人文的教學(xué)。目前國外已經(jīng)有一些教學(xué)項目提供數(shù)字人文教材、暑期學(xué)校等,在這個方面,魏希徳也希望大家能努力分享自己的教學(xué)課程和資源。
德龍(Donald Sturgeon):“從計算機(jī)科學(xué)和中國歷史研究的角度反思數(shù)字人文的相遇”
接下來,由英國杜倫大學(xué)助理教授德龍(Donald Sturgeon)進(jìn)行了題為“從計算機(jī)科學(xué)和中國歷史研究的角度反思數(shù)字人文的相遇”的報告。德隆教授是著名的C-Text項目的唯一創(chuàng)辦者。
德龍教授先介紹了自己的相關(guān)背景。他在本科時學(xué)習(xí)數(shù)學(xué),中間經(jīng)過漢語、哲學(xué)、東亞研究等多次學(xué)習(xí)、研究轉(zhuǎn)向,目前在杜倫大學(xué)計算機(jī)科學(xué)系工作。他本次演講的核心內(nèi)容在于從人文科學(xué)與計算機(jī)科學(xué)的兩個角度討論數(shù)字與人文的合作問題,特別是教學(xué)方面的問題。德龍教授曾在哈佛大學(xué)東亞系為碩士生開設(shè)“中國研究的數(shù)字方法”課程,也曾在杜倫大學(xué)計算機(jī)科學(xué)系為三年級本科生開展“人文、社會科學(xué)中的計算模型”課程。這兩門課程雖然在細(xì)節(jié)上有所不同,但在內(nèi)容和評定方法方面有相似之處,都涉及文本處理、文本相似性、社會網(wǎng)絡(luò)分析及作者身份識別,并采用期末報告的方式進(jìn)行考核。德龍教授從兩次教學(xué)經(jīng)驗的對比出發(fā),以探討數(shù)字與人文兩種學(xué)科間合作的可能性與難題。
根據(jù)德龍教授的觀察,人文背景的碩士生在數(shù)字方法課中面對諸多挑戰(zhàn)。在概念上的挑戰(zhàn)方面,這些學(xué)生要學(xué)習(xí)計算機(jī)思維,理解電腦運(yùn)作,以及學(xué)習(xí)評估每種方法應(yīng)用的難度;在實用上的挑戰(zhàn)方面,需要從零學(xué)習(xí)編程,并花時間學(xué)習(xí)如何使用有力工具。反觀計算機(jī)科學(xué)系的學(xué)生,也同樣面對許多挑戰(zhàn)。在概念上的挑戰(zhàn)方面,這些學(xué)生往往受限于計算機(jī)思維而欠缺問題意識,不善于評估什么分析值得做;在實用上的挑戰(zhàn)方面,則面對不知道怎么尋找適當(dāng)?shù)难芯靠瞻?,和傾向于選擇保守研究題目的問題。這兩類學(xué)生也各有優(yōu)勢和缺點:人文背景的學(xué)生具有非常強(qiáng)的問題意識,但不一定能夠?qū)嶋H做到想做的工作;計算機(jī)科學(xué)的學(xué)生則往往從工具出發(fā)思考問題,依賴成熟的數(shù)據(jù)集,他們的研究課題成功率高卻缺乏創(chuàng)意和突破。
德龍在教學(xué)中發(fā)現(xiàn),“人文、社會科學(xué)中的計算模型”課堂上的計算機(jī)科學(xué)系學(xué)生,常常使用來自Kaggle網(wǎng)站的成熟數(shù)據(jù)完成他們的期末報告。該網(wǎng)站提供各類便于計算機(jī)學(xué)者使用的數(shù)據(jù)集,如Twitter情感分析數(shù)據(jù)、圖片分類數(shù)據(jù)等。同時,Kaggle會對數(shù)據(jù)“可用性”進(jìn)行基于數(shù)據(jù)集元數(shù)據(jù)的評估,評估指標(biāo)包括是否有元數(shù)據(jù)及簡單介紹、數(shù)據(jù)格式是否清晰、是否針對指定目標(biāo)等,而完全不包括資料的完整性、可靠性、客觀性,也不包括指定目標(biāo)的重要性和難度。德龍認(rèn)為,這或許能夠代表計算機(jī)科學(xué)的學(xué)生看待數(shù)據(jù)集的典型思路。德龍曾在這堂課上向?qū)W生們介紹了TEI(Text Encoding Initiative)/XML,希望學(xué)生可以用已標(biāo)記好的豐富文本嘗試數(shù)字人文研究。然而在閱讀學(xué)生們報告的過程中,他發(fā)現(xiàn)學(xué)生們往往不愿意接受這些文本標(biāo)記,因為它們的標(biāo)簽透明度不夠高,需要翻閱TEI說明才能了解,這對學(xué)生來說是一種過于繁雜的挑戰(zhàn)。但學(xué)生們相對愿意接受有線上查詢系統(tǒng)的RDF(Resource Description Framework,資源描述框架)資料,因為它們具有“自說明系統(tǒng)”和更為簡單的數(shù)據(jù)結(jié)構(gòu)。此外,德龍還發(fā)現(xiàn)學(xué)生們對于自然語言處理,尤其是文本情感分析類的題目極為偏愛,因為這些題目具有清晰易懂的指定目標(biāo)和簡單的評價方法。接下來,德龍進(jìn)一步探討了機(jī)器可讀性(Readability)和可處理性(Processability)方面的問題。他指出,機(jī)器可讀并不代表機(jī)器可處理,需要進(jìn)一步將數(shù)據(jù)鏈接到本體或知識圖譜,引入領(lǐng)域知識或常識,以使其具有機(jī)器可處理性,在此方面,Wikidata是一個優(yōu)秀的案例。
德龍?zhí)岢隽藥讉€他認(rèn)為數(shù)字人文學(xué)者在開展項目時可以考慮的問題。其一是把相關(guān)資料鏈接到內(nèi)容廣泛的一般性知識圖譜,以補(bǔ)充“理所當(dāng)然”的領(lǐng)域知識或常識;其二是考慮參與Wikidata的知識圖譜建設(shè),提出新性質(zhì)并提供自己的標(biāo)識符;其三是把數(shù)據(jù)庫包裝成適合機(jī)器學(xué)習(xí)處理的項目,在Kaggle等平臺上分享,吸引計算機(jī)學(xué)者參與;其四是為數(shù)據(jù)提供簡單完整的說明,這會使得數(shù)據(jù)更容易被其它領(lǐng)域的研究者使用。
包平:“方志物產(chǎn)數(shù)字人文研究實踐與思考”
最后,由本次會議的東道主,來自南京農(nóng)業(yè)大學(xué)的包平教授以“方志物產(chǎn)數(shù)字人文研究實踐與思考”為題進(jìn)行了報告。包平教授首先向大家介紹了本次會議召開的原因。在開展研究的過程中,他的團(tuán)隊在項目推進(jìn)過程中遇到了很多難以在內(nèi)部突破的問題,因此決定求教外部力量,這也是本次會議召開的初衷。同時,因為一直對思考跨學(xué)科發(fā)展有所思考,他特地將兩個領(lǐng)域的專家召集起來進(jìn)行討論。包平教授對在場各位專家的到來表示感謝,并在演講中對南京農(nóng)業(yè)大學(xué)數(shù)字人文研究團(tuán)隊的工作進(jìn)行了簡要報告。
包平教授介紹到,方志是中華獨有的一種歷史文獻(xiàn),約占存世古籍的十分之一。從宋代以后,物產(chǎn)成為方志中一個重要的欄目。較為幸運(yùn)的是,此前已經(jīng)有幾代人將方志資料進(jìn)行整理,如萬國鼎先生在建國初年所整理的一百余冊《方志物產(chǎn)》手抄本,摘錄有3600多萬字的物產(chǎn)信息專題資料。《方志物產(chǎn)》的材料在空間維度上涵蓋了國內(nèi)所有行政區(qū)域,在時間維度上涵蓋宋代以降約九百年的舊志,在內(nèi)容上涵蓋了多種罕見或廣義方志,是獨一無二的古籍再造,也是規(guī)模最大的地方志物產(chǎn)資料集成匯錄,并且具有完備的查檢系統(tǒng),可以輔佐追溯和還原物種演變的路線圖。上世紀(jì)九十年代開始,王思明教授帶領(lǐng)一支團(tuán)隊開始了《方志物產(chǎn)》的數(shù)字化工作,先是對原始文獻(xiàn)進(jìn)行掃描,而后又開展全文錄入。侯漢清教授的團(tuán)隊,則在十幾年前就開始進(jìn)行文本的自動斷句、自動標(biāo)點、引書、本體構(gòu)建等研究工作,此為《方志物產(chǎn)》智能整理的開端。從2008年開始,包平教授開始接手此項任務(wù)并開展新的系列工作,團(tuán)隊中的朱鎖玲、李娜、徐晨飛等博士分別從實體名稱智能識別、社會網(wǎng)絡(luò)、深度學(xué)習(xí)、關(guān)聯(lián)數(shù)據(jù)等角度進(jìn)行了體系化探索。2018年,團(tuán)隊獲批國家社會科學(xué)基金重大項目,繼而深入開展幾項新的研究,包平教授對這些研究的進(jìn)展依次進(jìn)行了詳述。
首先是《方志物產(chǎn)》資料的再輯錄、整理與數(shù)字化?!斗街疚锂a(chǎn)》手抄本資料也有缺漏,團(tuán)隊目前正在進(jìn)行再輯錄和整理,并對原有材料開展糾錯和校對,現(xiàn)已補(bǔ)充了1696種方志物產(chǎn)資料,總量已達(dá)9071種。同時,團(tuán)隊還進(jìn)行了方志物產(chǎn)素材庫構(gòu)建,目前該素材庫已經(jīng)能夠基本實現(xiàn)物產(chǎn)的導(dǎo)入、導(dǎo)出、瀏覽、抽檢、刪除、修改、統(tǒng)計和用戶管理等功能。其二是方志物產(chǎn)資料的多層級自動標(biāo)注,在這個方面,團(tuán)隊已經(jīng)制定了相應(yīng)規(guī)范并搭建了一體化標(biāo)注平臺,開展分詞、詞性和命名實體識別等工作。其三是知識庫的構(gòu)建,團(tuán)隊進(jìn)行了面向領(lǐng)域?qū)<业膯柧碚{(diào)查工作,充分了解需求,目前已構(gòu)建新的知識組織框架,并著手處理關(guān)聯(lián)數(shù)據(jù)發(fā)布和本體構(gòu)建問題。這三個子課題相互關(guān)聯(lián),最終目的設(shè)計并實現(xiàn)方志物產(chǎn)知識庫原型系統(tǒng),提供檢索、可視化、關(guān)聯(lián)功能。其四是方志物產(chǎn)知識發(fā)現(xiàn)與考證,該子課題當(dāng)下正處在構(gòu)想階段,其核心就是解決方志物產(chǎn)的“同物異名”和“異物同名”問題,目前團(tuán)隊希望通過結(jié)合上下文、引入外部資料、構(gòu)建分類體系等方式構(gòu)建智能考釋模型。其五是方志物產(chǎn)資料深度利用,在這個方面,團(tuán)隊希望將他們的研究與社會需求從宏觀、微觀層面結(jié)合起來。對此,包平給出了幾個典型應(yīng)用場景,包括通過梳理方志物產(chǎn)資料以挖掘傳統(tǒng)種質(zhì)資源,地標(biāo)產(chǎn)品的歷史文化內(nèi)涵挖掘,以及藥用物產(chǎn)的智能整理與利用等。
包平提到,在研究開展的過程中,團(tuán)隊也遇到了版本與資料完整性、集外字、別名、同物異名、同名異物、知識庫構(gòu)建、理論體系與技術(shù)方法構(gòu)建等問題,對此,他們正在積極尋求解決方案。包教授在結(jié)語中先引用《未來簡史》尤瓦爾?赫拉利的一段話:每股科學(xué)的陽,都包含著一股人文主義的陰,反之亦然。陽給了我們力量,而陰則提供了意義和倫理判斷?,F(xiàn)代性的陽和陰,就是理性和感性、實驗室和博物館。延伸出若把方志物產(chǎn)知識組織與挖掘的技術(shù)體系喻為陽,那么物產(chǎn)與自然、社會發(fā)展的關(guān)系則是陰;把物種演變的生物學(xué)屬性喻為陽,其多樣的形態(tài)與人文的解釋又成為陰;數(shù)字人文是數(shù)字技術(shù)快速發(fā)展,學(xué)科間交叉融合的產(chǎn)物,其研究范式尚在形成之中,我們只有多一些合作賦能,多一些爭鳴批判,發(fā)展方能行穩(wěn)致遠(yuǎn)。
最后,他還向大家展示了南京農(nóng)業(yè)大學(xué)設(shè)計的“中華方志物語”標(biāo)志,未來團(tuán)隊的知識庫正式發(fā)布時,將會使用這個logo。