2021年5月22日,由南京農(nóng)業(yè)大學(xué)數(shù)字人文中心主辦的“破壁與賦能:多學(xué)科驅(qū)動(dòng)下的數(shù)字人文國(guó)際學(xué)術(shù)研討會(huì)”在南京農(nóng)業(yè)大學(xué)召開(kāi)。多位海內(nèi)外重量級(jí)學(xué)者受邀參加了會(huì)議,包括哈佛大學(xué)包弼徳(Peter K. Bol)教授、上海圖書館劉煒副館長(zhǎng)、北京科技大學(xué)潛偉教授、武漢大學(xué)王曉光教授、南開(kāi)大學(xué)王利華教授、北京大學(xué)王軍教授、上海圖書館陳濤工程師、西北大學(xué)曲安京教授、復(fù)旦大學(xué)路偉東教授、南京大學(xué)陳靜副教授、萊頓大學(xué)魏希徳(Hilde De Weerdt)教授、杜倫大學(xué)德龍(Donald Sturgeon)助理教授以及南京農(nóng)業(yè)大學(xué)包平教授等。南京農(nóng)業(yè)大學(xué)黨委常委、副校長(zhǎng)胡鋒教授和江蘇省哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室主任許益軍致開(kāi)幕辭。此次會(huì)議采用線上線下相結(jié)合的方式,共開(kāi)展十三場(chǎng)專題報(bào)告及一場(chǎng)圓桌討論,并在騰訊會(huì)議和嗶哩嗶哩彈幕視頻網(wǎng)進(jìn)行同步直播。
與會(huì)學(xué)者合影
劉煒:“數(shù)字人文平臺(tái)架構(gòu)及語(yǔ)義互操作設(shè)計(jì)”
上海圖書館副館長(zhǎng)、中國(guó)科技情報(bào)協(xié)會(huì)副理事長(zhǎng)劉煒教授率先以“數(shù)字人文平臺(tái)架構(gòu)及語(yǔ)義互操作設(shè)計(jì)”為題進(jìn)行了報(bào)告。
劉煒教授從數(shù)字人文發(fā)展的態(tài)勢(shì)、技術(shù)發(fā)展的形勢(shì)、上海圖書館的數(shù)字人文建設(shè)、數(shù)字人文平臺(tái)的互聯(lián)及互操作等方分別進(jìn)行了匯報(bào)。他認(rèn)為當(dāng)前處在發(fā)展初期的數(shù)字人文研究被“圖博檔”,即圖書館、檔案館、博物館所占領(lǐng),基礎(chǔ)設(shè)施建設(shè)者占據(jù)了研究中的主導(dǎo)地位。然而同時(shí),當(dāng)下基礎(chǔ)設(shè)施建設(shè)仍然不夠到位。他指出,在當(dāng)前的數(shù)字人文研究中,圖情領(lǐng)域研究者的核心競(jìng)爭(zhēng)力在于解決“如何組織知識(shí)”這一問(wèn)題。近二十年來(lái),技術(shù)發(fā)展極其迅速,一批數(shù)字人文項(xiàng)目、工具和平臺(tái)被建設(shè)起來(lái),但目前使用的技術(shù)基本集中于網(wǎng)絡(luò)互聯(lián)(Internet-connected)階段,縱然互聯(lián)網(wǎng)已經(jīng)將所有的研究者們串聯(lián)在一起,每個(gè)研究者所使用的系統(tǒng)仍然是相互獨(dú)立的。
劉煒認(rèn)為,數(shù)字人文的應(yīng)用系統(tǒng)發(fā)展存在數(shù)字化、文本化和數(shù)據(jù)化幾個(gè)階段。他還特別強(qiáng)調(diào),漢學(xué)材料在數(shù)字化階段需要保存原始圖像,這是中國(guó)數(shù)字人文發(fā)展中所面對(duì)的特殊問(wèn)題之一。他通過(guò)一個(gè)“堆?!眻D向大家介紹了他心目中的數(shù)字人文的全景。理想中的數(shù)字人文的“堆?!卑ㄎ镔|(zhì)和精神兩大板塊以及制度、構(gòu)成、方法、系統(tǒng)、界面五個(gè)層面,它們共同構(gòu)成了數(shù)字人文的發(fā)展全景。他認(rèn)為,未來(lái)云原生時(shí)代的數(shù)字人文平臺(tái)系統(tǒng),也應(yīng)包括系統(tǒng)和內(nèi)容兩個(gè)方面的架構(gòu),同時(shí),互聯(lián)網(wǎng)上的各個(gè)數(shù)字人文系統(tǒng)應(yīng)該通過(guò)應(yīng)用程序接口(Application Programming Interface, API)來(lái)進(jìn)行互操作,例如工具書,應(yīng)當(dāng)通過(guò)建立接口的方式服務(wù)于任何數(shù)字人文平臺(tái)和系統(tǒng)。
同時(shí),劉煒也提出,目前數(shù)字人文提出的技術(shù)、框架和設(shè)想一定要和商務(wù)模式結(jié)合起來(lái)。他認(rèn)為,目前的數(shù)字人文平臺(tái)建設(shè)應(yīng)該凸顯“內(nèi)容架構(gòu)”,從平臺(tái)建設(shè)之初,就應(yīng)該在知識(shí)關(guān)聯(lián)的層面上打造宏觀架構(gòu),實(shí)現(xiàn)真正的知識(shí)管理。建立數(shù)字人文平臺(tái),不外乎數(shù)據(jù)和方法兩個(gè)層面,其中,在數(shù)據(jù)層面應(yīng)當(dāng)實(shí)現(xiàn)“數(shù)據(jù)占有”和“書目控制”,在方法層面則應(yīng)強(qiáng)調(diào)“獲得事實(shí)”和“循證研究”。此外,劉煒還指出數(shù)據(jù)服務(wù)應(yīng)遵守FAIR(Findable, Accessible, Interoperable, Resuable)原則,并實(shí)現(xiàn)語(yǔ)義互操作,在系統(tǒng)底層解決信息的關(guān)聯(lián)問(wèn)題。目前,上海圖書館正在建設(shè)“歷史人文大數(shù)據(jù)平臺(tái)”,以期實(shí)現(xiàn)“讓查全不是夢(mèng)想,讓資料唾手可得,讓模型隨心所欲,讓計(jì)算隨遇而安,讓結(jié)果美輪美奐,讓人文研究不再困難”的愿景。
包弼徳(Peter K. Bol):“數(shù)字環(huán)境下的研究周期:面臨何種挑戰(zhàn)”
接下來(lái),哈佛大學(xué)東亞語(yǔ)言與文明系包弼徳(Peter K. Bol)教授以“數(shù)字環(huán)境下的研究周期:面臨何種挑戰(zhàn)”為題進(jìn)行演講,從研究周期問(wèn)題出發(fā),闡述了數(shù)字人文發(fā)展過(guò)程中的問(wèn)題。包弼徳教授認(rèn)為,一個(gè)完整的研究周期分為提出研究問(wèn)題、查找資料、整理、分析、出版五個(gè)環(huán)節(jié)。其中,提出研究問(wèn)題環(huán)節(jié)是所有研究者共同面對(duì)的,而數(shù)字人文則能夠在查找資料、整理、分析、出版這幾個(gè)環(huán)節(jié)提供重要幫助。
從查找資料、數(shù)據(jù)、信息的環(huán)節(jié)上看,在2015年,世界上的數(shù)字資料總量為2澤字節(jié)(zettabytes),到2020年,這一數(shù)據(jù)則已經(jīng)達(dá)到了40澤字節(jié),這個(gè)數(shù)據(jù)量,相當(dāng)于美國(guó)所有高校圖書館資料綜合的50萬(wàn)倍。這些數(shù)據(jù)形式多種多樣,并不全都與學(xué)術(shù)直接相關(guān),如視頻、音樂(lè)、通俗文學(xué)、漫畫、游戲、照片等。對(duì)于學(xué)者來(lái)說(shuō),則可以在網(wǎng)上找到各類資源,如書籍、地理空間信息、數(shù)字化字畫資源、古籍原文等。包弼德教授認(rèn)為,在資源的獲取上,有兩個(gè)重要問(wèn)題,其一是跨資源平臺(tái)搜索,其二是大小機(jī)構(gòu)間資源獲取能力不平等。
從數(shù)據(jù)整理環(huán)節(jié)來(lái)看,過(guò)去我們將信息記錄在紙上并保存在文件柜中,但今天我們將許多數(shù)據(jù)保存為電子文檔和圖片,并將其存儲(chǔ)于文件系統(tǒng)中。研究者使用不同的數(shù)據(jù)存儲(chǔ)形式,如電子表格、關(guān)系型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)中,同時(shí),也有人將資料存儲(chǔ)在“云端”,以便從不同設(shè)備進(jìn)行訪問(wèn),這一切都使得當(dāng)今分享數(shù)據(jù)與合作變得容易。然而,共享數(shù)據(jù)與合作也面臨挑戰(zhàn)。首先是數(shù)據(jù)存儲(chǔ)的空間問(wèn)題,這涉及將數(shù)據(jù)存儲(chǔ)在何處以供分享。其次是許多學(xué)者害怕分享數(shù)據(jù),不希望數(shù)據(jù)被自己項(xiàng)目以外的人使用,針對(duì)這個(gè)問(wèn)題,包弼徳提出,數(shù)據(jù)只是數(shù)據(jù),數(shù)據(jù)本身無(wú)價(jià)值,被廣泛的分析和使用才能讓數(shù)據(jù)真正具有價(jià)值。最后則是一些與學(xué)術(shù)無(wú)關(guān)的原因,如校園網(wǎng)內(nèi)服務(wù)器的“斷網(wǎng)”等,這類問(wèn)題在中國(guó)比較嚴(yán)重。在數(shù)據(jù)整理工作中,包弼德教授所在的CBDB開(kāi)發(fā)團(tuán)隊(duì)還在數(shù)據(jù)組織和分享中嘗試使用眾包模式,目前已經(jīng)通過(guò)眾包平臺(tái)開(kāi)展了對(duì)25,000余封明代書信的人工地址識(shí)別。
在數(shù)據(jù)分析的環(huán)節(jié),數(shù)字人文方法及計(jì)算機(jī)科學(xué)技術(shù),為人文科學(xué)的發(fā)展做出了極大貢獻(xiàn)。包弼徳認(rèn)為,知識(shí)推進(jìn)包括三個(gè)部分,分別是知識(shí)的專門化,理論和典范的轉(zhuǎn)移,以及工具的變遷。正如同顯微鏡和望遠(yuǎn)鏡的發(fā)明使得自然科學(xué)家得以觀察到從前無(wú)法觀察的事物那樣,數(shù)字人文發(fā)展中引入的新工具也使得人文科學(xué)家能夠觀察到從前無(wú)法觀察之物。針對(duì)這個(gè)觀點(diǎn),包弼徳進(jìn)一步討論了數(shù)字人文帶來(lái)的“概念飛躍”——文本挖掘和文本挖掘改變了閱讀方式,基于關(guān)系型資料的建模推動(dòng)了人物傳記資料構(gòu)建,群體傳記學(xué)的發(fā)展解決了更多研究問(wèn)題,空間分析使得數(shù)字化方志得以轉(zhuǎn)化成為空間對(duì)象,社會(huì)網(wǎng)絡(luò)分析促進(jìn)了對(duì)人物關(guān)系的深入研究。
如何維持可以繼續(xù)進(jìn)行的數(shù)據(jù)庫(kù)項(xiàng)目,工具和平臺(tái)?在這個(gè)問(wèn)題上,包弼徳教授認(rèn)為“商業(yè)化就是大眾化”。目前CBDB也在進(jìn)行一些商業(yè)化工作,例如目前國(guó)內(nèi)的高校可以從中文在線“引得”數(shù)字人文資源平臺(tái)購(gòu)買CBDB數(shù)據(jù)庫(kù)使用許可,以使用完整版本的CBDB數(shù)據(jù)。
潛偉:“科學(xué)史研究的數(shù)字化問(wèn)題”
隨后,北京科技大學(xué)科技史與文化研究院院長(zhǎng)潛偉教授以“科學(xué)史研究的數(shù)字化問(wèn)題”為題進(jìn)行了發(fā)言。潛偉教授指出,在“大數(shù)據(jù)”時(shí)代下,需要積極利用信息技術(shù)開(kāi)展“新文科”建設(shè)。在科技史這個(gè)相對(duì)小眾的學(xué)科中,數(shù)字化的發(fā)展存在嚴(yán)重缺位。近年來(lái),無(wú)論是“數(shù)字人文”還是“數(shù)字史學(xué)”的研究都呈現(xiàn)上升趨勢(shì),雖然目前科學(xué)史領(lǐng)域的相關(guān)研究較少,但計(jì)量史學(xué)、數(shù)字人文、數(shù)字史學(xué)、e考據(jù)等趨勢(shì),都對(duì)科技史研究產(chǎn)生了一定影響。
定量研究的方法,在科學(xué)史研究中由來(lái)已久。自十九世紀(jì)下半葉以來(lái),德堪多、高爾頓、雷諾夫、洛特卡、默頓、貝爾納、普萊斯、竺可楨、趙紅州等學(xué)者都曾使用量化方法研究科技史中的問(wèn)題。潛偉教授自己及其研究團(tuán)隊(duì),也曾就“科學(xué)圖形面積比例與學(xué)科硬度測(cè)量”、“《宋史》記載的高頻次學(xué)科”、“宋代科技成果曲線與科技政策曲線”等問(wèn)題開(kāi)展過(guò)科技史方面的定量分析。
潛偉認(rèn)為,數(shù)字史學(xué)的發(fā)展有兩種模式。一種是問(wèn)題導(dǎo)向,這是傳統(tǒng)史學(xué)擅長(zhǎng)的方法,致力于學(xué)術(shù)問(wèn)題的分析與解決,更關(guān)注思想;另一種則是數(shù)據(jù)導(dǎo)向,注重?cái)?shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)轉(zhuǎn)換、提取、清洗和漂亮的可視化呈現(xiàn)??萍际返臄?shù)字化分為三個(gè)階段,首先是史料的數(shù)字化存儲(chǔ)和檢索管理,其次是可視化展示,最后是基于大規(guī)模歷史數(shù)據(jù)挖掘的量化分析研究。近年來(lái),科技史領(lǐng)域?qū)偶臄?shù)字化亦發(fā)生興趣,產(chǎn)生了一批相關(guān)研究成果。目前,潛偉及其所在的團(tuán)隊(duì)正致力于中國(guó)古代金屬技術(shù)相關(guān)研究。最近,他的研究團(tuán)隊(duì)從圖情領(lǐng)域借鑒了新方法來(lái)建設(shè)中國(guó)古代金屬技術(shù)詞表,以構(gòu)建知識(shí)之間的關(guān)聯(lián)。 自去年起,團(tuán)隊(duì)著手建設(shè)了“文物科技標(biāo)本庫(kù)和數(shù)據(jù)庫(kù)”,使用三維掃描、計(jì)算機(jī)輔助計(jì)算等新技術(shù)對(duì)文物進(jìn)行信息采集和技術(shù)復(fù)原,并通過(guò)文物數(shù)據(jù)與地理信息系統(tǒng)的結(jié)合進(jìn)行遺址選址的預(yù)測(cè)。
潛偉強(qiáng)調(diào),數(shù)字化不等于數(shù)據(jù)化。建設(shè)具有邏輯關(guān)系的結(jié)構(gòu)化量化數(shù)據(jù)庫(kù),才是實(shí)現(xiàn)數(shù)字史學(xué)的關(guān)鍵??萍际返臄?shù)字化既有文獻(xiàn)數(shù)據(jù)庫(kù),也有文物遺址的數(shù)字化應(yīng)用;既有古代文獻(xiàn)挖掘整理,也有近現(xiàn)代文獻(xiàn)的科學(xué)計(jì)量研究。當(dāng)前,知識(shí)管理、數(shù)據(jù)挖掘、三維掃描、數(shù)值模擬、地理信息系統(tǒng)、聚類分析、社會(huì)網(wǎng)絡(luò)分析,已成為科技史數(shù)字化的主要方法。他樂(lè)觀地指出,科技史工作者先天具有技術(shù)向,科技史研究數(shù)字化未來(lái)可期。
王曉光:“文化遺產(chǎn)智能計(jì)算:方向與路徑”
武漢大學(xué)信息管理學(xué)院副院長(zhǎng)、數(shù)字人文研究中心主任王曉光教授以“文化遺產(chǎn)智能計(jì)算:方向與路徑”為題進(jìn)行了報(bào)告。文化遺產(chǎn)作為記錄人類文明的重要載體和媒介,擁有著豐富的歷史文化和知識(shí)內(nèi)涵。盡管數(shù)據(jù)資源在人文社會(huì)科學(xué)研究中日益重要,但當(dāng)前的數(shù)字化建設(shè)還處于“搖籃本”時(shí)代,大量數(shù)字資源尚未成為可計(jì)算、可深度加工的數(shù)據(jù)生產(chǎn)要素。
對(duì)此,王曉光教授提出“文化遺產(chǎn)智能計(jì)算”,指出借助大數(shù)據(jù)、人工智能、云計(jì)算、5G等前沿技術(shù)對(duì)文化遺產(chǎn)蘊(yùn)含的信息與知識(shí)進(jìn)行采集、分析、組織、挖掘、表達(dá)、傳播和展示。通過(guò)從傳統(tǒng)文獻(xiàn)資源到智慧數(shù)據(jù)的轉(zhuǎn)換升級(jí),真正支撐人文研究,實(shí)現(xiàn)文化遺產(chǎn)“活起來(lái)”的目標(biāo)和愿景。目前,以歐洲“歷史時(shí)光機(jī)”項(xiàng)目、芬蘭Sampo系列項(xiàng)目以及“數(shù)字敦煌”項(xiàng)目為代表的一批文化遺產(chǎn)智能計(jì)算的典型案例正在進(jìn)行中。
王曉光介紹到,文化遺產(chǎn)智能計(jì)算任務(wù)包括文本、視覺(jué)、時(shí)空和歷史虛擬再現(xiàn)四個(gè)維度,其實(shí)現(xiàn)路徑包括了數(shù)字化、智能計(jì)算和大規(guī)模富語(yǔ)義智慧數(shù)據(jù)三個(gè)過(guò)程,這也是從實(shí)物到數(shù)據(jù)、再到知識(shí)、最終到智慧的過(guò)程。目前,武漢大學(xué)正在全力建設(shè)文化遺產(chǎn)智能計(jì)算實(shí)驗(yàn)室,從數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、古籍深度挖掘與再造、圖像語(yǔ)義理解與計(jì)算、文化遺產(chǎn)地理系統(tǒng)、遺產(chǎn)3D建模與虛擬呈現(xiàn)五大方面探索文化遺產(chǎn)資源的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展。王曉光教授表示,挖掘文化遺產(chǎn)中更深層次的歷史文化知識(shí)是數(shù)字人文研究的重要內(nèi)容,文化遺產(chǎn)智能計(jì)算需要多學(xué)科共同參與,利用先進(jìn)的數(shù)字技術(shù)對(duì)文化遺產(chǎn)進(jìn)行數(shù)字化再造與活化。文化遺產(chǎn)智能計(jì)算將構(gòu)建新型數(shù)字基礎(chǔ)設(shè)施,成為繁榮數(shù)字文化產(chǎn)業(yè),開(kāi)啟數(shù)字文明的關(guān)鍵。
王利華:“數(shù)字資源與數(shù)字陷阱:一名普通學(xué)者的‘?dāng)?shù)字史學(xué)’實(shí)踐”
下半場(chǎng)第一場(chǎng),由南開(kāi)大學(xué)歷史學(xué)院暨生態(tài)文明研究院王利華教授率先以“數(shù)字資源與數(shù)字陷阱:一名普通學(xué)者的數(shù)字史學(xué)實(shí)踐”為題進(jìn)行報(bào)告。
王利華教授認(rèn)為,從地球生成到今天,人類已經(jīng)歷了物理世界、化學(xué)世界、生物世界、人類世界、文明世界到虛擬世界的迭深和嵌入。人類的生存狀態(tài)在發(fā)生顛覆性的變化,這種變化也帶來(lái)史學(xué)的顛覆。 數(shù)字技術(shù)給歷史學(xué)帶來(lái)諸多變化,改變了資源獲取方式,帶來(lái)新的工具,推動(dòng)學(xué)科聯(lián)系,并描繪了新的歷史鏡像。
王利華教授介紹了自己早起建立歷史資料數(shù)據(jù)庫(kù)并從事研究的經(jīng)歷。他通過(guò)對(duì)唐以前大量文獻(xiàn)的數(shù)字化和分析,提出在中古時(shí)代中國(guó)北方地區(qū)以食羊肉而非豬肉為主的結(jié)論。在教學(xué)工作中,王利華也曾在多種情境下感受數(shù)字化帶來(lái)的便利。與此同時(shí),在史料數(shù)字化過(guò)程中,王利華也曾面對(duì)許多問(wèn)題,如同名異物問(wèn)題、資料信度問(wèn)題、資料轉(zhuǎn)化造成錯(cuò)誤的問(wèn)題等。
此外,王利華結(jié)合自己從事“中國(guó)當(dāng)代環(huán)境保護(hù)史數(shù)字資源數(shù)據(jù)庫(kù)”建設(shè)的經(jīng)驗(yàn),指出了一些數(shù)字史學(xué)發(fā)展過(guò)程中可能存在的問(wèn)題。其中,最大的問(wèn)題是“誰(shuí)來(lái)作苦力”——在史學(xué)數(shù)據(jù)庫(kù)的建設(shè)中,有一些優(yōu)秀的學(xué)者成為了“數(shù)字史學(xué)的犧牲者”,未能產(chǎn)出理想的研究成果。另外,他還提出“由數(shù)字平臺(tái)操控學(xué)術(shù)評(píng)價(jià)”的危害。他認(rèn)為,目前各大數(shù)字平臺(tái)的學(xué)術(shù)評(píng)價(jià)體系存在弱點(diǎn),在論文查重方面也存在如公共知識(shí)被判定為抄襲等諸多問(wèn)題,這可能造成對(duì)學(xué)術(shù)的戕害。
王軍:“數(shù)字人文能為歷史做什么——人工智能技術(shù)在史料處理中的應(yīng)用”
北京大學(xué)信息管理學(xué)院王軍教授以“數(shù)字人文能為歷史做什么——人工智能技術(shù)在史料處理中的應(yīng)用”為題,展示館了北京大學(xué)數(shù)字人文研究中心的最新研究成果。
北京大學(xué)數(shù)字人文發(fā)展的一個(gè)重要方向,是幫助歷史學(xué)家從事研究工作。王軍教授表示,數(shù)字人文并不期待能夠在研究環(huán)節(jié)代替人文學(xué)者,而旨在為歷史研究提供輔助工具。歷史學(xué)家鄧廣銘先生有言,歷史研究有四把鑰匙,即目錄、年代、地理和職官。歷史學(xué)所做的工作,即在古典文獻(xiàn)的基礎(chǔ)上,在時(shí)空和政治制度的多維空間下,思考?xì)v史上的人與事。在這個(gè)框架之下,數(shù)字人文應(yīng)當(dāng)為歷史學(xué)家提供一些工具。文獻(xiàn)載體對(duì)歷史研究方法有決定性影響,傳統(tǒng)印本時(shí)代的年表、輿圖、職官志、圖書目錄、人名辭典等資料和工具書,在數(shù)據(jù)庫(kù)時(shí)代已被轉(zhuǎn)換成為各種數(shù)據(jù)庫(kù)。但目前數(shù)據(jù)庫(kù)能為學(xué)者提供的輔助,無(wú)非是快速數(shù)據(jù)查找和大規(guī)模資料存儲(chǔ),如何從大規(guī)模的資料中,還原地理時(shí)空以及職官制度的多維思考空間,實(shí)現(xiàn)如譚其驤先生從文獻(xiàn)文本構(gòu)建歷史地圖籍那樣的工作,仍舊有待思考。
王軍教授認(rèn)為,在智能時(shí)代,大數(shù)據(jù)環(huán)境和人工智能應(yīng)用是兩大特征。一方面,數(shù)字技術(shù)的普及和開(kāi)放共享風(fēng)氣的形成使得學(xué)者面臨歷史資料的再發(fā)現(xiàn),產(chǎn)生了“讀不完的材料”,也帶來(lái)網(wǎng)絡(luò)時(shí)代“數(shù)字文獻(xiàn)學(xué)”要解決的一系列問(wèn)題。王軍認(rèn)為,解決這些問(wèn)題的方法是實(shí)現(xiàn)文本材料的數(shù)據(jù)化、結(jié)構(gòu)化和語(yǔ)義化。另一方面,人工智能代表著計(jì)算機(jī)處理技術(shù)的極大提升,計(jì)算機(jī)已經(jīng)具備較強(qiáng)的搜索能力甚至理解能力,從基于規(guī)則的專家系統(tǒng)發(fā)展到基于學(xué)習(xí)的人工智能。
目前,王軍教授及其團(tuán)隊(duì)正致力于在兩三年之內(nèi)為學(xué)術(shù)界提供一個(gè)“漢語(yǔ)古籍大數(shù)據(jù)分析平臺(tái)”。該平臺(tái)的核心部分在于自動(dòng)句讀和命名實(shí)體自動(dòng)識(shí)別,王軍在現(xiàn)場(chǎng)向大家展示了這套系統(tǒng)的自動(dòng)句讀及命名實(shí)體識(shí)別過(guò)程。此系統(tǒng)目前從先秦上古文本到明清及近現(xiàn)代文本的平均自動(dòng)句讀準(zhǔn)確率已達(dá)94%左右,在詩(shī)詞韻文上的準(zhǔn)確率甚至達(dá)到99%。在命名實(shí)體自動(dòng)識(shí)別方面,系統(tǒng)已經(jīng)能識(shí)別人名、地名、時(shí)代名和職官名,其中,該在標(biāo)注語(yǔ)料上的識(shí)別準(zhǔn)確率達(dá)到99%,在泛化語(yǔ)料上的識(shí)別準(zhǔn)確率接近88%。在識(shí)別速度上,系統(tǒng)將8000字文本進(jìn)行句讀需要約20秒時(shí)間,進(jìn)行命名實(shí)體識(shí)別則需要約25秒。團(tuán)隊(duì)下一步的目標(biāo),是在此系統(tǒng)中實(shí)現(xiàn)關(guān)系提取。隨后,王軍還向大家展示了其團(tuán)隊(duì)開(kāi)發(fā)的“宋元學(xué)案知識(shí)圖譜”系統(tǒng)。這套系統(tǒng)在命名實(shí)體識(shí)別的基礎(chǔ)上,將87個(gè)宋元學(xué)案進(jìn)行可視化描繪,對(duì)學(xué)案中各學(xué)派學(xué)者人數(shù)變化、地理分布、著作信息、官職信息、人際關(guān)系網(wǎng)絡(luò)、學(xué)術(shù)傳承關(guān)系等各個(gè)層面的信息進(jìn)行生動(dòng)刻畫。
王軍表示他在數(shù)字人文研究中的終極目標(biāo),是實(shí)現(xiàn)系統(tǒng)的“自然語(yǔ)言問(wèn)答”。他樂(lè)觀地指出,如果能將二十四史的全部信息輸入到這套系統(tǒng)中,并用自然語(yǔ)言問(wèn)答來(lái)訪問(wèn)該系統(tǒng),就能“復(fù)活”歷史與文化,實(shí)現(xiàn)人與歷史的直接對(duì)話。
陳濤:“史料資源圖像知識(shí)框架構(gòu)建與應(yīng)用”
接下來(lái),上海圖書館及上??茖W(xué)技術(shù)情報(bào)研究所高級(jí)工程師陳濤博士以“史料資源圖像知識(shí)框架構(gòu)建與應(yīng)用”為題進(jìn)行了報(bào)告。
陳濤博士指出,圖像是一種重要的史料。當(dāng)前的資料平臺(tái)中,圖像更多的是作為附件而非“資源”存在,且各平臺(tái)間的圖像獨(dú)立存儲(chǔ)在各自的服務(wù)器上,不能進(jìn)行交互,造成了“圖像孤島”現(xiàn)象。上海圖書館的想法,則正是希望能夠讓這些圖像“活”起來(lái),通過(guò)使用 “國(guó)際圖像互操作框架(International Image Interoperability Framework, IIIF)”,實(shí)現(xiàn)圖像之間的“互操作、可獲取、可展示、可關(guān)聯(lián)、可比較、可分析”,使圖像成為可以流通、共享、交互的數(shù)據(jù)節(jié)點(diǎn)。IIIF已經(jīng)在全球掀起熱潮,國(guó)內(nèi)方面,除了上海圖書館的“歷史人文大數(shù)據(jù)平臺(tái)”項(xiàng)目之外,各大高校、博物館中也有多項(xiàng)數(shù)字人文項(xiàng)目使用了該框架。IIIF并非一個(gè)平臺(tái)或系統(tǒng),而是定義了一套交互的“標(biāo)準(zhǔn)”,目前包含“圖像、呈現(xiàn)、搜索、驗(yàn)證”四個(gè)API,其中“呈現(xiàn)API(Presentation API)”是核心。基于IIIF,陳濤所在的團(tuán)隊(duì)提出了“史料資源圖像知識(shí)框架”,該框架包含“圖像資源IIIF重組”、“圖像資源數(shù)據(jù)化提取”、“圖像資源語(yǔ)義化關(guān)聯(lián)”以及“圖像資源智慧化應(yīng)用”四個(gè)部分。
以IIIF為基礎(chǔ),結(jié)合關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜、圖數(shù)據(jù)庫(kù)等技術(shù),陳濤團(tuán)隊(duì)開(kāi)展了“多維圖像智慧系統(tǒng)(簡(jiǎn)稱MISS平臺(tái))”建設(shè)。該平臺(tái)支持多種格式的圖像資源一站式在線組織、發(fā)布、復(fù)用、語(yǔ)義標(biāo)注、分享等,目前可支持億級(jí)像素的超清、超大圖像資源的在線交互,為史料資源再利用提供了堅(jiān)實(shí)的技術(shù)堡壘。目前,平臺(tái)由上海市高等院校海外交流聯(lián)誼會(huì)及上海市海峽兩岸教育交流促進(jìn)會(huì)新文科專業(yè)委員會(huì)發(fā)布與運(yùn)營(yíng)。MISS平臺(tái)具備資源層、功能層、研究探索層三層架構(gòu)。在資源層,平臺(tái)可以將海內(nèi)外的資源進(jìn)行導(dǎo)入;在功能層,平臺(tái)將資源按照?qǐng)D數(shù)據(jù)庫(kù)結(jié)構(gòu)進(jìn)行存儲(chǔ),并能實(shí)現(xiàn)資源內(nèi)容重組、OCR、多層標(biāo)注、協(xié)同研究、對(duì)象識(shí)別及關(guān)聯(lián)等操作;在研究探索層,則可開(kāi)展語(yǔ)義鏈接、圖像內(nèi)容檢索、史料圖像復(fù)用、知識(shí)圖譜分析等。目前,MISS平臺(tái)已經(jīng)能導(dǎo)入海內(nèi)外超過(guò)20所高校、圖書館、博物館的資源,這為研究者整合研究資源提供了便利。此外,陳濤還著重介紹了平臺(tái)建設(shè)中正在實(shí)現(xiàn)的新設(shè)想,如通過(guò)圖像復(fù)用及重組保持圖像版本的唯一性、建設(shè)圖像多模態(tài)注釋體系、設(shè)計(jì)圖像內(nèi)容注釋模型和圖像語(yǔ)義標(biāo)注流程等。
陳濤認(rèn)為,可以將“數(shù)字人文”理解成一棵大樹。人文數(shù)據(jù)是這棵樹的樹根,研究數(shù)據(jù)是樹葉,數(shù)字人文的成果是樹果,資源描述框架則是樹干。想要將不同的樹葉連起來(lái),則需要關(guān)聯(lián)數(shù)據(jù)(Linked Data)和IIIF兩個(gè)樹枝。同時(shí),從人文數(shù)據(jù)到研究數(shù)據(jù)的提取,又需要大數(shù)據(jù)(Big Data)和人工智能(Artificial Intellegence, AI)兩項(xiàng)技術(shù)。他將這五項(xiàng)技術(shù),合稱為數(shù)字人文研究中的LIBRA技術(shù)理論。
曲安京:“中國(guó)出土文獻(xiàn)的數(shù)字人文研究”
下午的會(huì)議中,第一場(chǎng)報(bào)告人是西北大學(xué)科學(xué)史高等研究院曲安京教授,他的演講題目為“中國(guó)出土文獻(xiàn)的數(shù)字人文研究”。
目前,曲安京教授所在的西北大學(xué)科學(xué)史高等研究生院,正在進(jìn)行出土文獻(xiàn)與數(shù)字人文方面的研究,他們的目標(biāo)是實(shí)現(xiàn)“中國(guó)出土文獻(xiàn)語(yǔ)料庫(kù)”之構(gòu)建與應(yīng)用。出土文獻(xiàn)的目標(biāo)范圍,包括簡(jiǎn)牘、金文 、甲骨文等,西北大學(xué)團(tuán)隊(duì)期望在“中國(guó)出土文獻(xiàn)語(yǔ)料庫(kù)”的基礎(chǔ)上,開(kāi)展諸如簡(jiǎn)牘的復(fù)原和綴連等歷史問(wèn)題的數(shù)字人文研究,并為中文信息處理領(lǐng)域提出一些新鮮的問(wèn)題,如短文本處理等。曲安京教授向聽(tīng)眾們闡述了團(tuán)隊(duì)選擇出土文獻(xiàn)進(jìn)行研究的理由。他認(rèn)為,中國(guó)出土文獻(xiàn)文本規(guī)模適中,同時(shí)又與傳世文獻(xiàn)存在結(jié)構(gòu)上的顯著差異,值得單獨(dú)進(jìn)行研究。構(gòu)建“中國(guó)出土文獻(xiàn)語(yǔ)料庫(kù)”的意義在于,將數(shù)字人文的研究方法應(yīng)用到出土文獻(xiàn)的研究領(lǐng)域,為傳統(tǒng)出土文獻(xiàn)的研究提供新方法。在語(yǔ)料庫(kù)構(gòu)建完成后,團(tuán)隊(duì)亦期望能夠在此基礎(chǔ)上進(jìn)一步提出歷史問(wèn)題和中文信息處理問(wèn)題并進(jìn)行解決。
曲安京指出,數(shù)字人文研究中,語(yǔ)料庫(kù)的構(gòu)建是一項(xiàng)沉沒(méi)成本極高的工作。因此,他的團(tuán)隊(duì)在選擇出土文獻(xiàn)作為研究對(duì)象時(shí),立足點(diǎn)并不僅僅是基礎(chǔ)設(shè)施建設(shè),而更多放在數(shù)字人文研究和語(yǔ)料庫(kù)應(yīng)用之上。在未來(lái),團(tuán)隊(duì)還希望進(jìn)一步推動(dòng)數(shù)字人文基礎(chǔ)設(shè)施建設(shè)和數(shù)字人文方法的創(chuàng)新與應(yīng)用,形成以科學(xué)史為交叉點(diǎn)的全國(guó)高?!皵?shù)字人文”多學(xué)科融合交流平臺(tái),為歷史、考古、情報(bào)、信息等多學(xué)科在數(shù)字信息環(huán)境下的發(fā)展,構(gòu)建基礎(chǔ)設(shè)施、提供實(shí)驗(yàn)場(chǎng)所、創(chuàng)新研究方法。
路偉東:“數(shù)字人文背景下長(zhǎng)時(shí)段中國(guó)歷史人口研究”
來(lái)自復(fù)旦大學(xué)中國(guó)歷史地理研究所(以下簡(jiǎn)稱復(fù)旦史地所)的路偉東教授以“數(shù)字人文背景下長(zhǎng)時(shí)段中國(guó)歷史人口研究”為題進(jìn)行了報(bào)告。他指出,歷史地理研究的對(duì)象是典型的具有時(shí)間屬性的空間數(shù)據(jù),歷史地理學(xué)者關(guān)注數(shù)字人文是從GIS(地理信息系統(tǒng))開(kāi)始的。早在二十年前,在葛劍雄教授和包弼德教授(Peter K. Bol)的帶領(lǐng)下,復(fù)旦史地所和哈佛大學(xué)就曾一起推動(dòng)了CHGIS項(xiàng)目的建設(shè)。這一項(xiàng)目的本質(zhì)是基于史學(xué)考據(jù)的科學(xué)數(shù)據(jù)生產(chǎn)。該項(xiàng)目已經(jīng)公布一批免費(fèi)使用的標(biāo)準(zhǔn)歷史基礎(chǔ)數(shù)據(jù),在海內(nèi)外廣受關(guān)注。但路偉東教授認(rèn)為,對(duì)于個(gè)體研究者來(lái)說(shuō),如何將這些數(shù)據(jù)、技術(shù)、理論與方法運(yùn)用在自己的研究實(shí)踐中,進(jìn)行真正面向?qū)W術(shù)問(wèn)題關(guān)切的個(gè)案研究,可能是一個(gè)更值得思考的問(wèn)題。在過(guò)去的十幾年間,路偉東教授持續(xù)關(guān)注清代歷史人口相關(guān)問(wèn)題,他認(rèn)為自己在研究中“有一點(diǎn)點(diǎn)工作勉勉強(qiáng)強(qiáng)可以歸入數(shù)字人文的范疇”,他的演講就主要圍繞這些工作展開(kāi)。
路偉東教授表示,兩千年的中國(guó)歷史人口發(fā)展中,有一個(gè)重要的轉(zhuǎn)折點(diǎn)就是清末民初人口增長(zhǎng)模式發(fā)生了結(jié)構(gòu)性變化,在這個(gè)轉(zhuǎn)折點(diǎn)上發(fā)生了一次全國(guó)性的人口調(diào)查,即宣統(tǒng)人口調(diào)查。研究宣統(tǒng)人口調(diào)查對(duì)于觀察中國(guó)人口和社會(huì)由傳統(tǒng)向現(xiàn)代轉(zhuǎn)型,具有重要學(xué)術(shù)意義和現(xiàn)實(shí)價(jià)值。但是對(duì)于這次調(diào)查數(shù)據(jù)質(zhì)量,學(xué)界存在較大爭(zhēng)議,認(rèn)可這次調(diào)查結(jié)果的學(xué)者將其稱為“中國(guó)歷史上第一次真正具有現(xiàn)代人口普查意義的人口調(diào)查”,反對(duì)者則認(rèn)為這次調(diào)查的數(shù)據(jù)非常糟糕,與其說(shuō)是調(diào)查不如說(shuō)是編造。無(wú)論是支持者還是反對(duì)者,能夠看到的數(shù)據(jù)都非常有限,主要是出自民國(guó)學(xué)者分省統(tǒng)計(jì)表,基本上只有“戶、男口、女口、性別比” 等少量字段。實(shí)際上,就這份簡(jiǎn)單的統(tǒng)計(jì)表還不是原始數(shù)據(jù),而是王士達(dá)、陳長(zhǎng)蘅等人從清朝民政部宣統(tǒng)人口調(diào)查匯總表中抄錄并修訂而來(lái),被抄錄的原始數(shù)據(jù)則收藏在臺(tái)北“國(guó)史館”中,為分縣統(tǒng)計(jì)數(shù)據(jù)。大約十年前,路偉東教授在甘肅省圖書館偶然發(fā)現(xiàn)了宣統(tǒng)年間人口調(diào)查的基層原始文獻(xiàn),即“地理調(diào)查表”,該文獻(xiàn)以自然聚落為單位,大約記錄了7000個(gè)聚落的戶口等數(shù)據(jù)。這些原始的文獻(xiàn)引發(fā)了路偉東教授的思考。
第一個(gè)問(wèn)題是城市人口等級(jí)模式。傳統(tǒng)時(shí)代后期中國(guó)究竟有多少城市人口?這個(gè)問(wèn)題很有趣,但是很難回答。主要原因是缺少數(shù)據(jù),一方面中國(guó)傳統(tǒng)文獻(xiàn)中的歷史人口是以保甲體系為單位的納稅戶口,而非以城鄉(xiāng)為單元的全部人口;另一方面,文獻(xiàn)中有限的城市歷史人口又大多是行政治所類城市。在這種情況下,研究的問(wèn)題似乎可以轉(zhuǎn)化成為——假如可以在一個(gè)特定的區(qū)域內(nèi)根據(jù)有限的行政治所城市人口,構(gòu)建一個(gè)不同行政等級(jí)的城市人口非等差比例模型,就可以差補(bǔ)全部城市人口。這一做法,在邏輯上看似符合普遍認(rèn)知,即省城人口多于府城人口,府城人口多于縣城人口。但實(shí)際上卻存在嚴(yán)重錯(cuò)誤,因?yàn)閭鹘y(tǒng)時(shí)代決定城市行政等級(jí)的核心要素不是,或者至少不只是城市人口,反過(guò)來(lái)也無(wú)法推斷一個(gè)與城市行政等級(jí)相吻合的城市人口等級(jí)模式。用地理調(diào)查表的數(shù)據(jù)可以用來(lái)檢驗(yàn)這樣的結(jié)論,其實(shí),這一問(wèn)題更深層的社會(huì)背景是傳統(tǒng)時(shí)代行政城市的首位度很低,對(duì)于人口和資源的虹吸效應(yīng)很弱;人口與水源和交通等地理要素的相關(guān)性也較低;相較之下,人口是趨于離散的,人口的空間分布相當(dāng)平滑,這與當(dāng)代人口空間分布存在顯著差異。許多現(xiàn)在看起來(lái)遠(yuǎn)離交通線和水源的“窮鄉(xiāng)僻壤”,在改革開(kāi)放前都曾存在大量人口,這些人口實(shí)際上大部分都是傳統(tǒng)時(shí)代中后期逐漸遷入的。路偉東教授強(qiáng)調(diào),如果我們偏離這樣的基本歷史認(rèn)識(shí),用不同的地理因子匹配歷史人口,通過(guò)復(fù)雜的計(jì)算可能就會(huì)得出錯(cuò)誤結(jié)論 。
第二個(gè)問(wèn)題是中國(guó)傳統(tǒng)社會(huì)的城市化水平。這個(gè)問(wèn)題一方面呼應(yīng)了對(duì)傳統(tǒng)中國(guó)社會(huì)結(jié)構(gòu)穩(wěn)定性的討論,另一方面在某種程度上也迎合了對(duì)于歷史中國(guó)輝煌過(guò)往的想象,學(xué)界討論比較熱烈。許多知名學(xué)者,如珀金斯(D. H. Perkins)、諾斯坦(Frank Notestein)、喬啟明、施堅(jiān)雅(G. W. Skinne)、趙岡、饒濟(jì)凡(Gilbert Rozman)等,都曾根據(jù)自己定義的“城市”,即人口大于某一個(gè)閾值為城市,估算中國(guó)傳統(tǒng)社會(huì)晚期的城市化水平。路偉東通過(guò)對(duì)這些研究者的估計(jì)數(shù)據(jù)與“地理調(diào)查表”數(shù)據(jù)的對(duì)比,發(fā)現(xiàn)他們的結(jié)論均存在錯(cuò)誤。路偉東認(rèn)為,探討現(xiàn)代話語(yǔ)的城市化水平有兩個(gè)基本前提,其一是嚴(yán)格人為界定的城市和城市空間邊界,其二是基于空間邊界的科學(xué)人口普查數(shù)據(jù)。但是歷史中國(guó)這兩個(gè)條件均不具備,所以實(shí)際上討論歷史時(shí)期的城市化水平是一個(gè)偽命題。現(xiàn)實(shí)工作中,還有很多工作和研究歷史時(shí)期的城市化水平一樣,就是把歷史問(wèn)題強(qiáng)行納入到現(xiàn)實(shí)的框架中進(jìn)行討論,“新瓶裝舊酒”,最終,通過(guò)復(fù)雜的數(shù)據(jù)計(jì)算和眼花繚亂的數(shù)學(xué)公式堆砌,得出漏洞百出、似是而非的結(jié)論。
此外,路偉東還講解了一個(gè)通過(guò)靜態(tài)截面數(shù)據(jù)展示人口動(dòng)態(tài)遷移過(guò)程的案例。戰(zhàn)爭(zhēng)與戰(zhàn)爭(zhēng)引發(fā)的饑饉瘟疫是中國(guó)歷史人口短時(shí)間內(nèi)劇烈波動(dòng)的核心要素。同治西北的戰(zhàn)爭(zhēng)造成了約千萬(wàn)量級(jí)的人口損失,通過(guò)繁瑣的文獻(xiàn)梳理可以發(fā)現(xiàn),這一時(shí)期的人口遷移模式不是橫向的水平遷移,即從戰(zhàn)爭(zhēng)區(qū)域逃離到非戰(zhàn)爭(zhēng)區(qū)域;而是在戰(zhàn)爭(zhēng)區(qū)域內(nèi)部的縱向垂直遷移,即從小的聚落逐層逐級(jí)遷往較大的核聚落,尤其是那些有城墻和守衛(wèi)的行政治城。這一問(wèn)題體現(xiàn)在數(shù)據(jù)上就是聚落的數(shù)量在減少,但聚落的規(guī)模在擴(kuò)大。將“地理調(diào)查表”中千人以上聚落進(jìn)行可視化展示,會(huì)發(fā)現(xiàn)這些聚落的分布是集聚而非離散的,并且數(shù)據(jù)分布在戰(zhàn)時(shí)人口損失特別嚴(yán)重和特別不嚴(yán)重的兩個(gè)極端區(qū)域,前者顯然是由于戰(zhàn)爭(zhēng)期間人口收縮的結(jié)果,后者則是戰(zhàn)爭(zhēng)期間及戰(zhàn)爭(zhēng)后避難人口入遷導(dǎo)致的。
使用“地理調(diào)查表”中的戶口數(shù)據(jù),路偉東還對(duì)葛劍雄教授主編的六卷本《中國(guó)人口史》中的部分研究進(jìn)行了驗(yàn)證。在《中國(guó)人口史》中,第五卷和第六卷作者對(duì)宣統(tǒng)人口調(diào)查數(shù)據(jù)的認(rèn)識(shí)不同,數(shù)據(jù)前后無(wú)法銜接。通過(guò)使用人口重心模擬1776年至1953年西北人口變動(dòng),路偉東發(fā)現(xiàn),使用《中國(guó)人口史》第五卷中關(guān)于宣統(tǒng)人口數(shù)的校正數(shù)據(jù),和使用“地理調(diào)查表”人口數(shù)據(jù)計(jì)算出的人口與重心存在方向性的不同,在排除幾種不可能的解釋之后,他認(rèn)為《中國(guó)人口史》第五卷中的人口校正數(shù)據(jù)是錯(cuò)誤的。除此之外,基于“地理調(diào)查表”,路偉東及其團(tuán)隊(duì)還開(kāi)展了一系列其它工作,比如開(kāi)發(fā)聚落在線定位網(wǎng)站、基于隨機(jī)森林回歸模型重建西北地區(qū)歷史人口空間分布、輔助建設(shè)《清朝歷史地理信息系統(tǒng)》以及建設(shè)絲綢之路沿線歷史人口數(shù)據(jù)庫(kù)等。路偉東指出,在一套看似簡(jiǎn)單的數(shù)據(jù)上,傳統(tǒng)人文研究者可以工作十年甚至更久,這是因?yàn)樾枰獙⒖此坪?jiǎn)單枯燥的數(shù)據(jù)放在更宏大的時(shí)空背景中研究,才能透過(guò)數(shù)據(jù)觀察復(fù)雜多面向的歷史,不斷地感知和走近歷史現(xiàn)實(shí)。
最后,路偉東教授表達(dá)了他身為歷史學(xué)者對(duì)數(shù)字人文研究的一些看法。數(shù)字人文引起學(xué)界的普遍關(guān)注不過(guò)最近十余年,但如果談到人文計(jì)算或者人文計(jì)量,其實(shí)可以回溯得更久遠(yuǎn)一些。若干年前在史學(xué)界曾經(jīng)興起過(guò)計(jì)量史學(xué)的熱潮,但近年來(lái)計(jì)量史學(xué)已漸漸淡出主流史學(xué)研究者們的視野,表面上看,其原因是計(jì)量史學(xué)那種過(guò)于追求技術(shù)、數(shù)據(jù)和計(jì)算的研究偏離了傳統(tǒng)史學(xué)范式,同時(shí),也不排除,有相當(dāng)一部分計(jì)量史學(xué)工作者于有意或無(wú)意間流露出的技術(shù)炫耀和數(shù)據(jù)傲慢,引發(fā)了傳統(tǒng)史學(xué)工作者的厭惡與嫌棄,近而形成了溝壑式的學(xué)科成見(jiàn)。但路偉東認(rèn)為,這些只是問(wèn)題的表象,其更本質(zhì)的原因在于計(jì)量史學(xué)將復(fù)雜綜合的歷史現(xiàn)象和社會(huì)關(guān)系全部歸結(jié)于簡(jiǎn)單的數(shù)學(xué)函數(shù)關(guān)系,用單一的“數(shù)據(jù)變量”取代了構(gòu)成歷史主體的人的主動(dòng)歷史實(shí)踐,以及研究者本身對(duì)歷史復(fù)雜性的個(gè)性化全面理解和整體認(rèn)知,由此最終掩蓋了人文和人文研究的光輝。但是,最近十幾年“數(shù)字人文”的火熱,和之前計(jì)量史學(xué)興起的時(shí)代背景已有不同。路偉東認(rèn)為現(xiàn)在的數(shù)字人文堪稱“千萬(wàn)年未有之大變局”,最近十年信息技術(shù)的巨大進(jìn)步不僅僅引發(fā)了全新的技術(shù)變革,也帶來(lái)了社會(huì)結(jié)構(gòu)質(zhì)的飛躍,其背后更深層次的數(shù)據(jù)基礎(chǔ)是,包括歷史文本在內(nèi)的幾乎所有信息都開(kāi)始逐漸脫離物理的載體,不斷數(shù)字化。在這樣的時(shí)代背景下,無(wú)論傳統(tǒng)人文學(xué)者對(duì)數(shù)字人文存在怎樣的質(zhì)疑和批評(píng),毫無(wú)疑問(wèn),當(dāng)下?lián)涿娑鴣?lái)的數(shù)字人文浪潮已經(jīng)給傳統(tǒng)人文研究帶來(lái)了強(qiáng)烈的沖擊,實(shí)際上,比這種沖擊更重要,也更嚴(yán)重的問(wèn)題是,我們目前已經(jīng)處于一個(gè)完全不可逆的數(shù)字化進(jìn)程中,再也無(wú)法回頭。數(shù)字人文的崛起是信息技術(shù)向傳統(tǒng)人文研究滲透與介入的結(jié)果,但數(shù)字人文既不是傳統(tǒng)人文研究的終結(jié)者,也不是傳統(tǒng)人文研究的附屬品,在不遠(yuǎn)的將來(lái),數(shù)字人文發(fā)展的最終指向一定會(huì)有自己獨(dú)特的研究理論、方法、范式,以及學(xué)術(shù)關(guān)切和知識(shí)體系。從這一視角看,當(dāng)下蓬勃發(fā)展的數(shù)字人文浪潮,只不過(guò)是從剛剛開(kāi)啟的那扇數(shù)字人文大門的縫隙里透出的第一縷曙光。路偉東表示,未來(lái)的路還有很長(zhǎng),值得大家的共同努力。
陳靜:“迭代更新還是打破重構(gòu)?數(shù)字人文之于交叉學(xué)科的價(jià)值”
來(lái)自南京大學(xué)藝術(shù)學(xué)院的陳靜副教授以“迭代更新還是打破重構(gòu)?數(shù)字人文之于交叉學(xué)科的價(jià)值”為題進(jìn)行了報(bào)告。她表示,目前理工科中交叉學(xué)科的開(kāi)展情況較好,有生物醫(yī)學(xué)、物理化學(xué)、天文物理以及各學(xué)科與統(tǒng)計(jì)學(xué)的交叉等。文科中,則有文化研究、性別研究、審美人類學(xué)、藝術(shù)社會(huì)學(xué)等。陳靜教授提到,逐漸走向沒(méi)落的“文化研究”領(lǐng)域曾面對(duì)與當(dāng)下“數(shù)字人文”相似的困境,當(dāng)時(shí)盛寧、周憲、張紅兵、呂新雨等學(xué)者的研究中,曾就研究范式、學(xué)科化、本土資源和問(wèn)題意識(shí)、既有框架下的發(fā)展意義等展開(kāi)討論,這些對(duì)文化研究的探討會(huì)引發(fā)關(guān)于數(shù)字人文的思考。
陳靜教授探討的核心問(wèn)題,在于基于中國(guó)語(yǔ)境的人文與實(shí)踐問(wèn)題的一系列理論與方法。她認(rèn)為,數(shù)字人文的建設(shè)性意義在于直面新一輪技術(shù)變革帶來(lái)的大挑戰(zhàn)、響應(yīng)國(guó)家主導(dǎo)的“新文科”策略、滿足學(xué)科建設(shè)的內(nèi)部匱乏與突破剛需、以及形成新的學(xué)術(shù)共同體與評(píng)價(jià)體系。在理論探討之外,陳靜也介紹了她的研究團(tuán)隊(duì)近兩年正在開(kāi)展的中國(guó)傳統(tǒng)色彩知識(shí)研究?!吧省弊鳛橐环N跨領(lǐng)域的存在,分散于典籍、織繡、器物乃至口頭知識(shí)中。陳靜及其研究團(tuán)隊(duì)希望通過(guò)數(shù)字人文的手段從生產(chǎn)主體、生產(chǎn)方式、知識(shí)存在方式及知識(shí)特點(diǎn)四個(gè)層面體現(xiàn)數(shù)字時(shí)代的知識(shí)生產(chǎn)轉(zhuǎn)型。項(xiàng)目期望做到傳統(tǒng)手工藝的有籍可查、有物可考、有據(jù)可依、有人可問(wèn),實(shí)現(xiàn)方法論和應(yīng)用層面的多個(gè)目標(biāo),并對(duì)接產(chǎn)業(yè)需求。
魏希徳(Hilde De Weerdt):“東亞數(shù)字人文的關(guān)鍵問(wèn)題”
隨后,Markus古籍半自動(dòng)標(biāo)記平臺(tái)的主持開(kāi)發(fā)者、來(lái)自荷蘭萊頓大學(xué)的魏希徳(Hilde De Weerdt)教授以“東亞數(shù)字人文的關(guān)鍵問(wèn)題”為題進(jìn)行了演講,從五個(gè)有關(guān)問(wèn)題出發(fā),探討東亞數(shù)字人文的問(wèn)題與挑戰(zhàn)。
首先是近年來(lái)東亞數(shù)字人文研究主要成果的問(wèn)題。其一是創(chuàng)建了全文人名地理信息資料庫(kù),且維護(hù)并擴(kuò)大了這些資料庫(kù),如CBDB、CHGIS、C-Text等;其二是不同機(jī)構(gòu)開(kāi)發(fā)了促進(jìn)數(shù)字人文研究的工具和平臺(tái),如魏希徳教授自己所在的研究團(tuán)隊(duì)開(kāi)發(fā)的MARKUS文本標(biāo)記平臺(tái)、COMPARATIVUS文本對(duì)比平臺(tái)和PARALLELS版本對(duì)比平臺(tái)等;其三是不同研究機(jī)構(gòu)的開(kāi)發(fā)者開(kāi)始一起設(shè)計(jì)交換信息、提供工具使用權(quán)的渠道,如馬克斯-普朗克人類歷史科學(xué)研究所開(kāi)發(fā)的RISE平臺(tái)等;其四是在各個(gè)方面上東亞數(shù)字人文的發(fā)展越來(lái)越快,國(guó)際數(shù)字人文期刊越來(lái)越歡迎東亞數(shù)字人文研究的相關(guān)文章;其五是東亞數(shù)字人文研究數(shù)量不斷增加,并呈現(xiàn)出多樣化的取向,多個(gè)領(lǐng)域的期刊上都推出了關(guān)于數(shù)字人文的特刊,且產(chǎn)生了新的電子書項(xiàng)目;其六是與中國(guó)的情況相似,海外的數(shù)字人文研究也出現(xiàn)了虛擬的學(xué)術(shù)共同體,學(xué)術(shù)共同體內(nèi)部通過(guò)電子媒體互相交換經(jīng)驗(yàn)和分享資源。
第二個(gè)問(wèn)題則是東亞數(shù)字人文面對(duì)的關(guān)鍵挑戰(zhàn)。魏希徳教授認(rèn)為,目前東亞數(shù)字人文面對(duì)的挑戰(zhàn)分別為學(xué)術(shù)界內(nèi)的障礙、技術(shù)性的挑戰(zhàn)、文物管制上的不同、以及數(shù)字人文認(rèn)識(shí)論性的挑戰(zhàn)。其中她特別強(qiáng)調(diào),技術(shù)性的問(wèn)題往往沒(méi)有學(xué)者想象的那樣嚴(yán)重,以機(jī)器學(xué)習(xí)技術(shù)為例,在MARKUS的開(kāi)發(fā)過(guò)程中很早就設(shè)計(jì)了機(jī)器學(xué)習(xí)模組,并將其運(yùn)用至資料的命名實(shí)體識(shí)別等過(guò)程。但她同時(shí)也指出,由于MARKUS開(kāi)發(fā)時(shí)間較早,當(dāng)時(shí)所采用的技術(shù)以現(xiàn)在來(lái)看已顯落后。目前,萊頓大學(xué)已經(jīng)拿到歐盟和荷蘭國(guó)科會(huì)的兩項(xiàng)大項(xiàng)目,兩個(gè)項(xiàng)目的主要目標(biāo)是描繪長(zhǎng)時(shí)期的“物質(zhì)基礎(chǔ)建設(shè)的社會(huì)史(social history of material infrastructures)”,如通過(guò)對(duì)地方志、考古報(bào)告等文獻(xiàn)的數(shù)字分析,探究中國(guó)各地的城墻、道路、橋梁等的建設(shè)、瓦解和重組;利用挖掘出的數(shù)據(jù)研究各地的區(qū)域發(fā)展或縮小等。給歷史學(xué)家開(kāi)發(fā)較好的機(jī)器學(xué)習(xí)服務(wù),也是兩個(gè)項(xiàng)目的核心目標(biāo)。從今年九月開(kāi)始,萊頓大學(xué)將開(kāi)放9個(gè)博士及博士后職位,包括數(shù)字歷史、數(shù)字考古、人工智能與軟件開(kāi)發(fā)等,她也歡迎對(duì)此感興趣的聽(tīng)眾申請(qǐng)。在認(rèn)識(shí)論性的挑戰(zhàn)方面,魏希徳認(rèn)為數(shù)字人文有兩條道路,一條是計(jì)算機(jī)學(xué)性的,利用各種計(jì)算機(jī)學(xué)的計(jì)量研究方法;另一條是理論性的,也常常是批判性的??上У氖悄壳斑@兩條道路往往是分開(kāi)的,而她認(rèn)為無(wú)論是研究方面還是教學(xué)方面,兩種方法都缺一不可,應(yīng)該將計(jì)算性的研究與批判性的理論聯(lián)合在一起。計(jì)算機(jī)學(xué)的研究方法往往源自于自然科學(xué)與社會(huì)科學(xué)領(lǐng)域,必須把人文科學(xué)方面的關(guān)懷和研究流程與這些科學(xué)的模式結(jié)合在一起。
第三是對(duì)數(shù)字人文的不同理念與不同的制度嵌入對(duì)國(guó)際性合作的影響問(wèn)題。在理念影響方面,仍然存在面向計(jì)算機(jī)學(xué)的數(shù)字人文與面向理論性、文化性的數(shù)字人文地位不平等的問(wèn)題。在東亞數(shù)字人文研究中,后者比前者更少出現(xiàn)在數(shù)字人文的會(huì)議上。在國(guó)際合作的問(wèn)題上,一般來(lái)講數(shù)字人文的項(xiàng)目以一個(gè)國(guó)家的邊界為限,以每個(gè)國(guó)家的官方語(yǔ)言為主,魏希徳認(rèn)為數(shù)字人文需要更多多語(yǔ)言的研究、工具和平臺(tái)。目前,中國(guó)的數(shù)字人文研究界大部分平臺(tái)只支持漢語(yǔ),事實(shí)上其它在中國(guó)歷史上被利用的語(yǔ)言也需要被包含進(jìn)來(lái),魏希徳認(rèn)為,此問(wèn)題的改善可能需要靠加強(qiáng)國(guó)內(nèi)、國(guó)際合作來(lái)實(shí)現(xiàn)。最近,MARKUS系統(tǒng)中已經(jīng)開(kāi)始支持更多語(yǔ)言,如在中文和英文之外支持韓文材料的處理等。
第四個(gè)問(wèn)題是國(guó)內(nèi)和國(guó)際性標(biāo)準(zhǔn)的優(yōu)勢(shì)與缺陷。魏希徳指出,不同的標(biāo)準(zhǔn)各有優(yōu)劣,但多語(yǔ)言性的研究以及資料庫(kù)與工具的結(jié)合無(wú)疑需要共同的標(biāo)準(zhǔn)。舉例而言,在剛開(kāi)始做基礎(chǔ)建設(shè)設(shè)施時(shí),她就開(kāi)始尋找有關(guān)于基礎(chǔ)設(shè)施的本體(Ontology)或術(shù)語(yǔ)集,但這非常困難。這樣的方法和工具本應(yīng)存在,她的團(tuán)隊(duì)也希望能夠在未來(lái)為大家提供這樣的工具。
最后一個(gè)問(wèn)題是數(shù)字人文的教學(xué)。目前國(guó)外已經(jīng)有一些教學(xué)項(xiàng)目提供數(shù)字人文教材、暑期學(xué)校等,在這個(gè)方面,魏希徳也希望大家能努力分享自己的教學(xué)課程和資源。
德龍(Donald Sturgeon):“從計(jì)算機(jī)科學(xué)和中國(guó)歷史研究的角度反思數(shù)字人文的相遇”
接下來(lái),由英國(guó)杜倫大學(xué)助理教授德龍(Donald Sturgeon)進(jìn)行了題為“從計(jì)算機(jī)科學(xué)和中國(guó)歷史研究的角度反思數(shù)字人文的相遇”的報(bào)告。德隆教授是著名的C-Text項(xiàng)目的唯一創(chuàng)辦者。
德龍教授先介紹了自己的相關(guān)背景。他在本科時(shí)學(xué)習(xí)數(shù)學(xué),中間經(jīng)過(guò)漢語(yǔ)、哲學(xué)、東亞研究等多次學(xué)習(xí)、研究轉(zhuǎn)向,目前在杜倫大學(xué)計(jì)算機(jī)科學(xué)系工作。他本次演講的核心內(nèi)容在于從人文科學(xué)與計(jì)算機(jī)科學(xué)的兩個(gè)角度討論數(shù)字與人文的合作問(wèn)題,特別是教學(xué)方面的問(wèn)題。德龍教授曾在哈佛大學(xué)東亞系為碩士生開(kāi)設(shè)“中國(guó)研究的數(shù)字方法”課程,也曾在杜倫大學(xué)計(jì)算機(jī)科學(xué)系為三年級(jí)本科生開(kāi)展“人文、社會(huì)科學(xué)中的計(jì)算模型”課程。這兩門課程雖然在細(xì)節(jié)上有所不同,但在內(nèi)容和評(píng)定方法方面有相似之處,都涉及文本處理、文本相似性、社會(huì)網(wǎng)絡(luò)分析及作者身份識(shí)別,并采用期末報(bào)告的方式進(jìn)行考核。德龍教授從兩次教學(xué)經(jīng)驗(yàn)的對(duì)比出發(fā),以探討數(shù)字與人文兩種學(xué)科間合作的可能性與難題。
根據(jù)德龍教授的觀察,人文背景的碩士生在數(shù)字方法課中面對(duì)諸多挑戰(zhàn)。在概念上的挑戰(zhàn)方面,這些學(xué)生要學(xué)習(xí)計(jì)算機(jī)思維,理解電腦運(yùn)作,以及學(xué)習(xí)評(píng)估每種方法應(yīng)用的難度;在實(shí)用上的挑戰(zhàn)方面,需要從零學(xué)習(xí)編程,并花時(shí)間學(xué)習(xí)如何使用有力工具。反觀計(jì)算機(jī)科學(xué)系的學(xué)生,也同樣面對(duì)許多挑戰(zhàn)。在概念上的挑戰(zhàn)方面,這些學(xué)生往往受限于計(jì)算機(jī)思維而欠缺問(wèn)題意識(shí),不善于評(píng)估什么分析值得做;在實(shí)用上的挑戰(zhàn)方面,則面對(duì)不知道怎么尋找適當(dāng)?shù)难芯靠瞻?,和傾向于選擇保守研究題目的問(wèn)題。這兩類學(xué)生也各有優(yōu)勢(shì)和缺點(diǎn):人文背景的學(xué)生具有非常強(qiáng)的問(wèn)題意識(shí),但不一定能夠?qū)嶋H做到想做的工作;計(jì)算機(jī)科學(xué)的學(xué)生則往往從工具出發(fā)思考問(wèn)題,依賴成熟的數(shù)據(jù)集,他們的研究課題成功率高卻缺乏創(chuàng)意和突破。
德龍?jiān)诮虒W(xué)中發(fā)現(xiàn),“人文、社會(huì)科學(xué)中的計(jì)算模型”課堂上的計(jì)算機(jī)科學(xué)系學(xué)生,常常使用來(lái)自Kaggle網(wǎng)站的成熟數(shù)據(jù)完成他們的期末報(bào)告。該網(wǎng)站提供各類便于計(jì)算機(jī)學(xué)者使用的數(shù)據(jù)集,如Twitter情感分析數(shù)據(jù)、圖片分類數(shù)據(jù)等。同時(shí),Kaggle會(huì)對(duì)數(shù)據(jù)“可用性”進(jìn)行基于數(shù)據(jù)集元數(shù)據(jù)的評(píng)估,評(píng)估指標(biāo)包括是否有元數(shù)據(jù)及簡(jiǎn)單介紹、數(shù)據(jù)格式是否清晰、是否針對(duì)指定目標(biāo)等,而完全不包括資料的完整性、可靠性、客觀性,也不包括指定目標(biāo)的重要性和難度。德龍認(rèn)為,這或許能夠代表計(jì)算機(jī)科學(xué)的學(xué)生看待數(shù)據(jù)集的典型思路。德龍?jiān)谶@堂課上向?qū)W生們介紹了TEI(Text Encoding Initiative)/XML,希望學(xué)生可以用已標(biāo)記好的豐富文本嘗試數(shù)字人文研究。然而在閱讀學(xué)生們報(bào)告的過(guò)程中,他發(fā)現(xiàn)學(xué)生們往往不愿意接受這些文本標(biāo)記,因?yàn)樗鼈兊臉?biāo)簽透明度不夠高,需要翻閱TEI說(shuō)明才能了解,這對(duì)學(xué)生來(lái)說(shuō)是一種過(guò)于繁雜的挑戰(zhàn)。但學(xué)生們相對(duì)愿意接受有線上查詢系統(tǒng)的RDF(Resource Description Framework,資源描述框架)資料,因?yàn)樗鼈兙哂小白哉f(shuō)明系統(tǒng)”和更為簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)。此外,德龍還發(fā)現(xiàn)學(xué)生們對(duì)于自然語(yǔ)言處理,尤其是文本情感分析類的題目極為偏愛(ài),因?yàn)檫@些題目具有清晰易懂的指定目標(biāo)和簡(jiǎn)單的評(píng)價(jià)方法。接下來(lái),德龍進(jìn)一步探討了機(jī)器可讀性(Readability)和可處理性(Processability)方面的問(wèn)題。他指出,機(jī)器可讀并不代表機(jī)器可處理,需要進(jìn)一步將數(shù)據(jù)鏈接到本體或知識(shí)圖譜,引入領(lǐng)域知識(shí)或常識(shí),以使其具有機(jī)器可處理性,在此方面,Wikidata是一個(gè)優(yōu)秀的案例。
德龍?zhí)岢隽藥讉€(gè)他認(rèn)為數(shù)字人文學(xué)者在開(kāi)展項(xiàng)目時(shí)可以考慮的問(wèn)題。其一是把相關(guān)資料鏈接到內(nèi)容廣泛的一般性知識(shí)圖譜,以補(bǔ)充“理所當(dāng)然”的領(lǐng)域知識(shí)或常識(shí);其二是考慮參與Wikidata的知識(shí)圖譜建設(shè),提出新性質(zhì)并提供自己的標(biāo)識(shí)符;其三是把數(shù)據(jù)庫(kù)包裝成適合機(jī)器學(xué)習(xí)處理的項(xiàng)目,在Kaggle等平臺(tái)上分享,吸引計(jì)算機(jī)學(xué)者參與;其四是為數(shù)據(jù)提供簡(jiǎn)單完整的說(shuō)明,這會(huì)使得數(shù)據(jù)更容易被其它領(lǐng)域的研究者使用。
包平:“方志物產(chǎn)數(shù)字人文研究實(shí)踐與思考”
最后,由本次會(huì)議的東道主,來(lái)自南京農(nóng)業(yè)大學(xué)的包平教授以“方志物產(chǎn)數(shù)字人文研究實(shí)踐與思考”為題進(jìn)行了報(bào)告。包平教授首先向大家介紹了本次會(huì)議召開(kāi)的原因。在開(kāi)展研究的過(guò)程中,他的團(tuán)隊(duì)在項(xiàng)目推進(jìn)過(guò)程中遇到了很多難以在內(nèi)部突破的問(wèn)題,因此決定求教外部力量,這也是本次會(huì)議召開(kāi)的初衷。同時(shí),因?yàn)橐恢睂?duì)思考跨學(xué)科發(fā)展有所思考,他特地將兩個(gè)領(lǐng)域的專家召集起來(lái)進(jìn)行討論。包平教授對(duì)在場(chǎng)各位專家的到來(lái)表示感謝,并在演講中對(duì)南京農(nóng)業(yè)大學(xué)數(shù)字人文研究團(tuán)隊(duì)的工作進(jìn)行了簡(jiǎn)要報(bào)告。
包平教授介紹到,方志是中華獨(dú)有的一種歷史文獻(xiàn),約占存世古籍的十分之一。從宋代以后,物產(chǎn)成為方志中一個(gè)重要的欄目。較為幸運(yùn)的是,此前已經(jīng)有幾代人將方志資料進(jìn)行整理,如萬(wàn)國(guó)鼎先生在建國(guó)初年所整理的一百余冊(cè)《方志物產(chǎn)》手抄本,摘錄有3600多萬(wàn)字的物產(chǎn)信息專題資料?!斗街疚锂a(chǎn)》的材料在空間維度上涵蓋了國(guó)內(nèi)所有行政區(qū)域,在時(shí)間維度上涵蓋宋代以降約九百年的舊志,在內(nèi)容上涵蓋了多種罕見(jiàn)或廣義方志,是獨(dú)一無(wú)二的古籍再造,也是規(guī)模最大的地方志物產(chǎn)資料集成匯錄,并且具有完備的查檢系統(tǒng),可以輔佐追溯和還原物種演變的路線圖。上世紀(jì)九十年代開(kāi)始,王思明教授帶領(lǐng)一支團(tuán)隊(duì)開(kāi)始了《方志物產(chǎn)》的數(shù)字化工作,先是對(duì)原始文獻(xiàn)進(jìn)行掃描,而后又開(kāi)展全文錄入。侯漢清教授的團(tuán)隊(duì),則在十幾年前就開(kāi)始進(jìn)行文本的自動(dòng)斷句、自動(dòng)標(biāo)點(diǎn)、引書、本體構(gòu)建等研究工作,此為《方志物產(chǎn)》智能整理的開(kāi)端。從2008年開(kāi)始,包平教授開(kāi)始接手此項(xiàng)任務(wù)并開(kāi)展新的系列工作,團(tuán)隊(duì)中的朱鎖玲、李娜、徐晨飛等博士分別從實(shí)體名稱智能識(shí)別、社會(huì)網(wǎng)絡(luò)、深度學(xué)習(xí)、關(guān)聯(lián)數(shù)據(jù)等角度進(jìn)行了體系化探索。2018年,團(tuán)隊(duì)獲批國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目,繼而深入開(kāi)展幾項(xiàng)新的研究,包平教授對(duì)這些研究的進(jìn)展依次進(jìn)行了詳述。
首先是《方志物產(chǎn)》資料的再輯錄、整理與數(shù)字化?!斗街疚锂a(chǎn)》手抄本資料也有缺漏,團(tuán)隊(duì)目前正在進(jìn)行再輯錄和整理,并對(duì)原有材料開(kāi)展糾錯(cuò)和校對(duì),現(xiàn)已補(bǔ)充了1696種方志物產(chǎn)資料,總量已達(dá)9071種。同時(shí),團(tuán)隊(duì)還進(jìn)行了方志物產(chǎn)素材庫(kù)構(gòu)建,目前該素材庫(kù)已經(jīng)能夠基本實(shí)現(xiàn)物產(chǎn)的導(dǎo)入、導(dǎo)出、瀏覽、抽檢、刪除、修改、統(tǒng)計(jì)和用戶管理等功能。其二是方志物產(chǎn)資料的多層級(jí)自動(dòng)標(biāo)注,在這個(gè)方面,團(tuán)隊(duì)已經(jīng)制定了相應(yīng)規(guī)范并搭建了一體化標(biāo)注平臺(tái),開(kāi)展分詞、詞性和命名實(shí)體識(shí)別等工作。其三是知識(shí)庫(kù)的構(gòu)建,團(tuán)隊(duì)進(jìn)行了面向領(lǐng)域?qū)<业膯?wèn)卷調(diào)查工作,充分了解需求,目前已構(gòu)建新的知識(shí)組織框架,并著手處理關(guān)聯(lián)數(shù)據(jù)發(fā)布和本體構(gòu)建問(wèn)題。這三個(gè)子課題相互關(guān)聯(lián),最終目的設(shè)計(jì)并實(shí)現(xiàn)方志物產(chǎn)知識(shí)庫(kù)原型系統(tǒng),提供檢索、可視化、關(guān)聯(lián)功能。其四是方志物產(chǎn)知識(shí)發(fā)現(xiàn)與考證,該子課題當(dāng)下正處在構(gòu)想階段,其核心就是解決方志物產(chǎn)的“同物異名”和“異物同名”問(wèn)題,目前團(tuán)隊(duì)希望通過(guò)結(jié)合上下文、引入外部資料、構(gòu)建分類體系等方式構(gòu)建智能考釋模型。其五是方志物產(chǎn)資料深度利用,在這個(gè)方面,團(tuán)隊(duì)希望將他們的研究與社會(huì)需求從宏觀、微觀層面結(jié)合起來(lái)。對(duì)此,包平給出了幾個(gè)典型應(yīng)用場(chǎng)景,包括通過(guò)梳理方志物產(chǎn)資料以挖掘傳統(tǒng)種質(zhì)資源,地標(biāo)產(chǎn)品的歷史文化內(nèi)涵挖掘,以及藥用物產(chǎn)的智能整理與利用等。
包平提到,在研究開(kāi)展的過(guò)程中,團(tuán)隊(duì)也遇到了版本與資料完整性、集外字、別名、同物異名、同名異物、知識(shí)庫(kù)構(gòu)建、理論體系與技術(shù)方法構(gòu)建等問(wèn)題,對(duì)此,他們正在積極尋求解決方案。包教授在結(jié)語(yǔ)中先引用《未來(lái)簡(jiǎn)史》尤瓦爾?赫拉利的一段話:每股科學(xué)的陽(yáng),都包含著一股人文主義的陰,反之亦然。陽(yáng)給了我們力量,而陰則提供了意義和倫理判斷?,F(xiàn)代性的陽(yáng)和陰,就是理性和感性、實(shí)驗(yàn)室和博物館。延伸出若把方志物產(chǎn)知識(shí)組織與挖掘的技術(shù)體系喻為陽(yáng),那么物產(chǎn)與自然、社會(huì)發(fā)展的關(guān)系則是陰;把物種演變的生物學(xué)屬性喻為陽(yáng),其多樣的形態(tài)與人文的解釋又成為陰;數(shù)字人文是數(shù)字技術(shù)快速發(fā)展,學(xué)科間交叉融合的產(chǎn)物,其研究范式尚在形成之中,我們只有多一些合作賦能,多一些爭(zhēng)鳴批判,發(fā)展方能行穩(wěn)致遠(yuǎn)。
最后,他還向大家展示了南京農(nóng)業(yè)大學(xué)設(shè)計(jì)的“中華方志物語(yǔ)”標(biāo)志,未來(lái)團(tuán)隊(duì)的知識(shí)庫(kù)正式發(fā)布時(shí),將會(huì)使用這個(gè)logo。