ChatGPT、人工智能與數(shù)字人文：傳統(tǒng)學(xué)問的科技未來？

彭珊珊 2023-02-21 來源：澎湃新聞

美國人工智能公司OpenAI推出的聊天機(jī)器人ChatGPT“火”出了科技圈，也驚動了學(xué)術(shù)圈。當(dāng)傳統(tǒng)學(xué)問進(jìn)入數(shù)字時代，以ChatGPT為代表的人工智能會改變?nèi)宋膶W(xué)科的未來嗎？

美國人工智能公司OpenAI推出的聊天機(jī)器人ChatGPT“火”出了科技圈，也驚動了學(xué)術(shù)圈。當(dāng)傳統(tǒng)學(xué)問進(jìn)入數(shù)字時代，以ChatGPT為代表的人工智能會改變?nèi)宋膶W(xué)科的未來嗎？

澎湃新聞?wù)垇碜怨鸫髮W(xué)、北京大學(xué)、南京大學(xué)、上海交通大學(xué)以及德國柏林馬克斯·普朗克科學(xué)史研究所的五位學(xué)者，共同討論ChatGPT及人工智能技術(shù)如何參與人文學(xué)科的研究與教學(xué)。這五位學(xué)者均為當(dāng)下數(shù)字人文領(lǐng)域的中堅力量，他們曾接受歷史學(xué)、哲學(xué)或計算機(jī)科學(xué)的博士訓(xùn)練，又在數(shù)字人文這一跨學(xué)科的領(lǐng)域中，將計算機(jī)工具與方法引入人文學(xué)科，也使科技工作者逐漸理解人文學(xué)科的學(xué)術(shù)語境。

圓桌嘉賓：

王宏甦，哈佛大學(xué)計量社會科學(xué)研究所研究員、“中國歷代人物傳記數(shù)據(jù)庫”（CBDB）資深項目經(jīng)理

王濤，南京大學(xué)歷史系教授

陳詩沛，德國柏林馬克斯·普朗克科學(xué)史研究所研究員

楊浩，北京大學(xué)人工智能研究院副研究員

趙思淵，上海交通大學(xué)歷史系教授

來自人文學(xué)科的ChatGPT使用測評

澎湃新聞：各位在人文學(xué)科相關(guān)的工作中用ChatGPT了嗎？目前為止體驗如何？

王宏甦（哈佛大學(xué)計量社會科學(xué)研究所研究員）：我們在開發(fā)“中國歷代人物傳記資料庫”（China Biographical Database，簡稱CBDB）的過程中，ChatGPT和AI編程工具Copilot這類人工智能工具已經(jīng)完全融入日常工作。我們會和 ChatGPT討論方案設(shè)計。比如上周的一個案例是，我和同事在討論如何對百萬級文件按照一定的結(jié)構(gòu)進(jìn)行整理，希望找出最優(yōu)的程序設(shè)計邏輯。在討論過程中，ChatGPT也提出了建設(shè)性方案。在工作中我們會把ChatGPT當(dāng)作平等的同事來討論問題。

在程序設(shè)計和規(guī)范方面，ChatGPT是一位非常有經(jīng)驗的同事。而在人文的問題上，我們當(dāng)下很少使用ChatGPT。比如下圖是最近我們在工作的時候涉及的一個官職名稱，“東北面朔方江陵道都統(tǒng)使”。這是十四世紀(jì)朝鮮王朝的官職，而 ChatGPT給出了完全錯誤的說明：

受訪者供圖

在我們的工作中，ChatGPT的使用場景是很明確的：能夠快速驗證的問題。比如，程序?qū)懙檬欠裾_、程序的方案設(shè)計得是否合理，我們可以通過運(yùn)行和測試，對ChatGPT的答案進(jìn)行直接驗證。

王濤（南京大學(xué)歷史系教授）：我和幾個同伴將于3月18日在南京召開一個研討會——“ChatGPT與人文學(xué)科的挑戰(zhàn)：人工智能對人文學(xué)科影響的跨學(xué)科會議”，我們請ChatGPT來撰寫會議征稿啟事，它在幾秒鐘內(nèi)生成的會議通知完整準(zhǔn)確、文從字順，已經(jīng)超出一般學(xué)生的水平。

ChatGPT撰寫的會議通知

剛開始上手的時候ChatGPT給我的感覺是驚艷。它對使用者提出的各種需求都能夠給出有邏輯、符合一定預(yù)期的結(jié)果，讓人震撼。而且，它能夠應(yīng)付各種語境、各種場景、各種方向上的需求。從OpenAI的官網(wǎng)介紹可以了解到，ChatGPT的功能其實不僅局限于問答機(jī)器人，而是一個多面手，可以編寫程序、修改代碼、撰寫提綱、多語翻譯等等?？梢哉f，ChatGPT以一己之力，取代了程序員、翻譯、律師、數(shù)據(jù)分析師、秘書、會計師等不同工種的職位。

我們可以將ChatGPT當(dāng)作一個非常智能的研究助理，是研究者大腦的延伸。從工具論的角度看，以ChatGPT為代表的人工智能產(chǎn)品的出現(xiàn)，跟汽車等交通工具在人類社會的出現(xiàn)，具有相似的意義。如果說現(xiàn)代交通工具是人類腳力的延伸，那么ChatGPT就是人類腦力的延伸。

因此，從積極的角度說，ChatGPT是在知識生產(chǎn)領(lǐng)域為人類提供服務(wù)，可以起到協(xié)助的作用，幫助使用者提高知識梳理的效率。但是，ChatGPT是否能夠完全進(jìn)行知識創(chuàng)新，特別是進(jìn)行探索性研究，目前還看不到這種可能性。從人工智能的工作原理來看，ChatGPT的知識體系來自對人類現(xiàn)有知識結(jié)構(gòu)的模型訓(xùn)練。它的能力邊界，跟ChatGPT被投喂的數(shù)據(jù)在數(shù)量、豐富度、多樣性等方面的因素密切相關(guān)。

在官方的介紹中，ChatGPT所依循的語言模型，數(shù)據(jù)來源時間截止2021年。理論上說，它對2021年之后人類社會的知識是一無所知的。而且，研究者已經(jīng)發(fā)現(xiàn)，ChatGPT雖然是一個能夠熟練進(jìn)行“多語種”輸出的平臺，可以無縫在不同語言中切換，但是，在高頻語言與低頻語言之中的表現(xiàn)存在顯著的不同。這是因為ChatGPT所接受的語言訓(xùn)練模型存在數(shù)量上的差異性，比如ChatGPT在英語語境中的表現(xiàn)更加智能，而在中文語境的表現(xiàn)只能算是差強(qiáng)人意。它甚至還存在中文知識的盲區(qū)。

我曾經(jīng)試探ChatGPT，是否知道“地上本沒有路，走的人多了，也便成了路”這句話出自何處。ChatGPT倒也坦率，它說出了魯迅的大名，但并不知道來自哪篇文章?？梢?，在中文語料的訓(xùn)練上，ChatGPT還存在缺陷。不過，隨著微軟與OpenAI的合作，ChatGPT將獲得升級，能夠得到更加即時的網(wǎng)絡(luò)信息。

但是，ChatGPT仍然是一個“任務(wù)導(dǎo)向性”的工具，它只能對使用者發(fā)出的指令進(jìn)行反饋，還不存在“主動性”。所以，是否能夠用好ChatGPT，還是要基于用戶的設(shè)計。最明顯的一點(diǎn)在于，為了規(guī)避倫理上的問題，ChatGPT的后臺設(shè)置了一些屏障，用戶不能就違背公序良俗的問題發(fā)問。但是，用戶依然能夠通過間接提問的方式，“誘導(dǎo)”ChatGPT給出答案?？梢?，ChatGPT對“道德”并無感知。

陳詩沛（德國柏林馬克斯·普朗克科學(xué)史研究所研究員，臺灣大學(xué)計算機(jī)博士）：ChatGPT作為一個產(chǎn)品成功吸引了大眾的目光，因為它把“Chat”即“聊天”的部分做得非常好，生成的文章或回答，起碼在格式上看起來很完美。

但我覺得大家對它的評價過高了。人們覺得它很“智能”，會“思考”，但事實上它只是在“模擬”，模擬得非常逼真，以至于大家覺得它好像是一個真的機(jī)器“人”。OpenAI的官網(wǎng)說ChatGPT是“Optimizing Language Models for Dialogue”，一個為聊天對話優(yōu)化的語言模型。語言模型的概念是，你向它提供很多文字（文章），之后它對這些大量的文句進(jìn)行整理（大致上是基于統(tǒng)計），以預(yù)測下一個文字或句子應(yīng)該是什么。ChatGPT這個語言模型產(chǎn)品結(jié)合強(qiáng)大的類神經(jīng)網(wǎng)絡(luò)以及大量文本，完成得很好，但基本上它做的只有一件事——將數(shù)據(jù)庫里的文章拆分成句子，通過你提出的問題，去預(yù)測和挑選成功幾率最高的下一個句子，再生成答案反饋給你。

我認(rèn)為ChatGPT跟大部分人想象中的“智能”還有很大落差，它的實作中還沒有人工智能學(xué)界（AI）中所謂的“推理”環(huán)節(jié)（reasoning），也沒有大部分人想象中的“自主學(xué)習(xí)”，它只是文字的堆砌、基于統(tǒng)計的文獻(xiàn)整理，它并沒有理解到語意，因此它從大量訓(xùn)練文本中整理出來的回答有可能是錯的。

至于說人類社會“被機(jī)器統(tǒng)治”……我們距離這種浪漫的想象大概至少還有一百年吧。

楊浩（北京大學(xué)人工智能研究院副研究員，北京大學(xué)哲學(xué)博士）：一開始我也被驚艷到了。在技術(shù)上，ChatGPT的算法底層其實很普通，國內(nèi)外很多公司都能做大語言模型。但它做了很好的優(yōu)化，用戶的命令完全可以自然語言的方式呈現(xiàn)出來。自然語言理解和自然語言生成，一個相當(dāng)于閱讀，一個相當(dāng)于寫作，目前ChatGPT都做得很好。更重要的是，它能適配更多任務(wù)，是一種初步的通用人工智能，能寫代碼、做翻譯、讀古文、寫報告，各種想不到的任務(wù)都能做。過去大眾熟悉的人工智能比如AlphaGo，只能下圍棋，不能下象棋，完全不通用。ChatGPT的優(yōu)點(diǎn)還在于可以通過與用戶進(jìn)行交互，進(jìn)行自我學(xué)習(xí)和提升。通過人機(jī)交互不斷提升，學(xué)習(xí)到對話人更偏好的答案。過去的模型能夠生成一個答案，但它不知道這個答案是不是人最喜歡的，現(xiàn)在ChatGPT根據(jù)上下文來判斷你的喜好，答案更符合對話人的喜好。這種算法多年前就有，只是現(xiàn)在有了數(shù)據(jù)的加持以及算法的優(yōu)化，交互的體驗與對話的質(zhì)量都提升了。

但是ChatGPT所采用的深度學(xué)習(xí)方法有一個嚴(yán)重的問題，就是它沒有常識，不知道自己在說什么，它只能在語言上進(jìn)行模仿。它有意義的壁壘和障礙，對文字表達(dá)的意義完全是無知的。而且它不會推理和類比。雖然ChatGPT是通用人工智能，和此前的非通用人工智能確實區(qū)別顯著，但它離真正的“智能”還很遠(yuǎn)。甚至如楊立昆（Yann LeCun）認(rèn)為，大語言模型（LLMs）是一個岔道（off-ramp）。通過這個方式不可能實現(xiàn)真正的人工智能，因為它只學(xué)習(xí)到了語言的皮毛，沒有真正學(xué)習(xí)到其中的知識，它所掌握的知識都是不可靠的。但它的厲害之處在于它可以一直跟你對話下去，特別是通過人機(jī)交互使得它回答問題的能力越來越好，這是我認(rèn)為它能“出圈”的主要原因。

趙思淵（上海交通大學(xué)歷史系教授）：我想在研究之外先討論教學(xué)的部分。我也看到了此前ChatGPT對于以寫作為主要考核形式的大學(xué)課程的沖擊。對于這一點(diǎn)我持比較積極開放的心態(tài)。也許就像圍棋一樣，當(dāng)人工智能擊敗了人類選手后，人工智能反而成了圍棋競賽中很好的輔助工具。如果我們的大學(xué)教育的目的仍然是培養(yǎng)具有獨(dú)立思考與解決問題能力的人的話，人工智能也可以成為課程教學(xué)很好的輔助工具。我自己每年都教學(xué)術(shù)寫作，我也嘗試了把寫作題目喂給ChatGPT的反饋。至少目前，ChatGPT所能做到的是寫出可理解的文本，而不是可信的文本。或者說，ChatGPT的工作邏輯，并不需要去進(jìn)行證據(jù)的檢驗。這兩者是有區(qū)別的。我看到很多討論都模糊提到這一點(diǎn)，但還沒有足夠明確地指出。而學(xué)術(shù)寫作的輸出是需要基于可靠證據(jù)的——這一點(diǎn)對于自然科學(xué)、人文與社會科學(xué)、應(yīng)用科學(xué)研究，都是相同的。也就是說，學(xué)生仍然要在我們的課堂上學(xué)習(xí)如何獲取和處理證據(jù)，以支撐研究結(jié)論。并且，在此基礎(chǔ)上，更為重要的是，提出問題。在學(xué)術(shù)研究中，什么樣的問題是值得去問的？是更重要的問題？我想，這是我們在大學(xué)中特別需要教會學(xué)生的。正是基于這樣的認(rèn)識，ChatGPT可以成為課堂教學(xué)的一部分。這學(xué)期的課程我已經(jīng)準(zhǔn)備讓學(xué)生們試著把自己設(shè)計的研究問題扔給ChatGPT，看看會得到什么樣的輸出。這可以幫他們?nèi)z驗和反思自己的研究提問。這甚至可能比老師直接告訴學(xué)生，某種提問方式在研究上是死胡同，還要更有效。

回到具體的研究中，我的看法是同樣的，我愿意將ChatGPT視作一個輔助工具。如果輸入一段史料給人工智能，會得到什么樣的結(jié)果？這會輔助我的思考——這仍然是一個檢驗與反思的過程。在更早的時代，我們已經(jīng)經(jīng)歷過各種技術(shù)變化對于歷史學(xué)工作方式的改變了。畢竟歷史學(xué)也是一門時間太久的學(xué)問。歷史學(xué)的核心是處理時間變化的概念。這意味著，隨著“當(dāng)下”的時間坐標(biāo)的不斷移動，“當(dāng)下”與“過去”的聯(lián)系也在不斷發(fā)生變化，有一些會凸顯，有一些會消隱。歷史學(xué)家是在這些變化中發(fā)現(xiàn)問題，設(shè)置研究議題。對時間變化的敘述，是以具體的資料為載體的。這也意味著歷史學(xué)家總是在具體的環(huán)境中，借助一定的工具處理史料。這工具當(dāng)然也在一直變化。ChatGPT當(dāng)然一定會改變歷史學(xué)家的工作方法，甚至這個行業(yè)的生態(tài)。這當(dāng)然也會帶來激動、焦慮或其他情緒。在所有這些情緒之前，更需要問的問題也許是，有了一個可理解的人工智能的“當(dāng)下”，其與過去的聯(lián)系可能已經(jīng)發(fā)生了怎樣的變化？這種變化對于歷史學(xué)議程設(shè)置的影響可能是更深遠(yuǎn)的。

澎湃新聞：要在人文領(lǐng)域使用的話，首先要過中國古代文獻(xiàn)這一關(guān)。楊浩老師在用計算機(jī)進(jìn)行古籍整理方面很有經(jīng)驗，您認(rèn)為ChatGPT的古文處理水平如何？隨著機(jī)器的自主學(xué)習(xí)，它是否會進(jìn)步到人類的水平？

楊浩：我沒有去測試古文，但是做了調(diào)研，我認(rèn)為它不會達(dá)到頂級專家的水平，但是可以超過一般的學(xué)生。

ChatGPT的古文理解與翻譯水平并不比GPT模型的祖宗——BERT模型強(qiáng)太多。BERT全稱是Bidirectional Encoder Representation from Transformers（來自Transformers的雙向編碼表示），是2018年谷歌引入的，我認(rèn)為它才是真正具有革命性的一種自然語言處理技術(shù)。它開啟了預(yù)訓(xùn)練模型時代，就是先用海量數(shù)據(jù)進(jìn)行訓(xùn)練，再根據(jù)具體需求進(jìn)行細(xì)分微調(diào)。

北大數(shù)字人文中心在古文上訓(xùn)練有BERT模型，在古文的自動標(biāo)點(diǎn)、自動句讀和命名實體識別上進(jìn)行試驗，表現(xiàn)都很優(yōu)異。其中自動標(biāo)點(diǎn)的結(jié)果令人驚嘆，能達(dá)到90%甚至更高的正確率，實際使用的話，點(diǎn)斷的錯誤其實比較少。根據(jù)相關(guān)老師的說法，它已經(jīng)超過一般古典文獻(xiàn)碩士生的水平。

BERT模型的訓(xùn)練實際上就是兩種算法，就像我們做閱讀理解，把其中一個單詞去掉，根據(jù)上下文做完形填空。自動標(biāo)點(diǎn)相當(dāng)于把標(biāo)點(diǎn)去掉，讓機(jī)器預(yù)測這里要不要加標(biāo)點(diǎn)。另一個算法就是預(yù)測下一句話是什么，仍然類比我們的閱讀理解——空出一句話，或者打亂順序，讓機(jī)器選擇，哪一句話更可能是下一句。算法本身并不復(fù)雜，但卻能表現(xiàn)出非常神奇的效果。過去我們認(rèn)為，要把古文讀懂很難，人物、官職、地理、朝代都要懂才能加標(biāo)點(diǎn)，但是計算機(jī)卻通過簡單的概率運(yùn)算，從大量專家學(xué)者已有的標(biāo)點(diǎn)語料中訓(xùn)練，最終能達(dá)到一個很高的標(biāo)點(diǎn)水平。

目前人工智能能夠?qū)W習(xí)到古文中字與字之間的規(guī)律。那么未來會不會有更好的模型，學(xué)到古文當(dāng)中更多信息？我想會有的。但是仍然不會超過頂級專家的水平。因為很難用算法的方式來實現(xiàn)“理解”?，F(xiàn)在人工智能只不過給我們一種“理解”的假象。網(wǎng)上有一篇文章用《大唐開元禮》檢驗ChatGPT對文言文的理解能力，包括標(biāo)點(diǎn)、翻譯等等（《ChatGPT對中國古文的理解》，微信公號“智能數(shù)字人文”），這個任務(wù)交給專家學(xué)者來說都很難，果然從結(jié)果來看ChatGPT的回答就是在一本正經(jīng)地胡說八道。ChatGPT靠的是模仿，超過一般專家有可能，但超過頂級專家的水平是不可能的。

隨著機(jī)器的自主學(xué)習(xí)，它是否會進(jìn)步到人類的水平？關(guān)鍵在于這個“人類”是誰。我覺得我不如它。它可以對任何類型的文獻(xiàn)——醫(yī)學(xué)、數(shù)學(xué)、旅游、文學(xué)等各種類型古籍進(jìn)行標(biāo)點(diǎn)，而我只能對我自己所能掌握的領(lǐng)域的古文進(jìn)行標(biāo)點(diǎn)。它沒有人的情緒波動，不太會犯特別低級的錯誤。另外它處理文獻(xiàn)的速度更是沒有任何專家學(xué)者能趕上，整個中華文明漢語古籍約有300億字，只要配置足夠性能的機(jī)器，幾天時間就可以全部完成，這是難以想象的速度。雖然目前人工智能在古籍自動標(biāo)點(diǎn)等方面還遠(yuǎn)遠(yuǎn)達(dá)不到完美，但確實對我們做古籍整理已經(jīng)能夠有很大的幫助了。

澎湃新聞：人文學(xué)科學(xué)者嘗試將新的計算機(jī)技術(shù)應(yīng)用于傳統(tǒng)研究，我們稱之為“數(shù)字人文”，近十來年有不少成果，許多高校都有代表性的數(shù)據(jù)庫。但ChatGPT與過去數(shù)字人文領(lǐng)域所熟悉的工具有怎樣的差別？

王濤：單純從工具的角度說，ChatGPT跟其他數(shù)字人文研究存在三點(diǎn)最大的不同：

首先，ChatGPT具有通用性。使用者幾乎所有的需求，都可以在ChatGPT上實現(xiàn)。傳統(tǒng)的數(shù)字人文工具，基本上有特定的用途，比如要做自然語言處理，可以使用Voyant；查找資料，需要使用搜索引擎，或者專業(yè)數(shù)據(jù)庫；編寫程序，需要使用Python編輯器。但這些工作，都可以在ChatGPT的平臺上完成。可以說，ChatGPT是一個全能型的助理，能夠為人類用戶提供一站式的解決方案。

其次，ChatGPT的使用門檻很低，使用者只需要會用電腦打字就足夠駕馭。傳統(tǒng)的數(shù)字人文工具，都有比較高的學(xué)習(xí)成本。使用者需要對特定工具的術(shù)語、概念、適用范圍有一定了解，還需要花時間去熟悉工具的界面、命令等，才能夠獲得比較有效的結(jié)果。ChatGPT最厲害的一點(diǎn)就在于，它沒有對用戶設(shè)置任何障礙，只要會識字，就能夠用起來。（目前ChatGPT的人機(jī)交互，只能通過文本輸入輸出進(jìn)行。也許，將來更智能的AI助理，可以支持語音輸入輸出。）這很可能是ChatGPT能夠在眾多人工智能競品中率先脫穎而出的重要原因。

第三，ChatGPT給出的結(jié)果簡潔而干脆，符合用戶“只想找答案”的心態(tài)。正是由于ChatGPT基于任務(wù)導(dǎo)向的產(chǎn)品設(shè)計理念，它非常了解用戶的預(yù)期。對于用戶的任務(wù)指令，ChatGPT的反饋都是唯一的答案，沒有提供其他選項。這既提高了效率，也在某種程度上提升了ChatGPT的“權(quán)威性”。

當(dāng)然，這很可能跟ChatGPT本身的知識邊界相關(guān)。我看到網(wǎng)上有人嘗試讓ChatGPT重復(fù)回答同一個問題，結(jié)果若干次之后的答案基本上就是在說車轱轆話，說明ChatGPT的知識體系非常有限。升級版的ChatGPT在新必應(yīng)的加持下，將會對反饋的結(jié)果加入信息來源，也提供了更多選項。這或許是為了平衡。但是，跟傳統(tǒng)的關(guān)鍵詞搜索相比，其反饋動輒上萬條網(wǎng)頁結(jié)果，ChatGPT簡直就是一個知識的霸道總裁。

澎湃新聞：在我印象中，數(shù)字人文工具大部分是做數(shù)據(jù)呈現(xiàn)、檢索以及量化結(jié)構(gòu)分析，相較而言，類似ChatGPT這樣基于神經(jīng)網(wǎng)絡(luò)的人工智能，是否可以說是革命性的技術(shù)？

楊浩：是的，數(shù)字人文在過去常常是做量化分析，采用各種統(tǒng)計的方法，并對統(tǒng)計結(jié)果予以可視化與分析。比如，語言學(xué)領(lǐng)域有計算語言學(xué)，用統(tǒng)計的方法研究語言學(xué)，歷史學(xué)領(lǐng)域有計量史學(xué)，這些都是很早就在發(fā)展的學(xué)科。但數(shù)字人文在近年來的熱潮應(yīng)該是受到人工智能的推動，與此前不同，可以說是數(shù)字人文+人工智能。

傳統(tǒng)的人文學(xué)者，通常是對特別少量的文本進(jìn)行深度挖掘。之前古籍文本數(shù)據(jù)庫的出現(xiàn)實際上已經(jīng)逐漸在改變傳統(tǒng)的人文學(xué)科研究方式。人工智能出現(xiàn)以后，在我看來，可能會有巨大的、革命性的改變。以傳統(tǒng)的古典文獻(xiàn)學(xué)為例，光是標(biāo)點(diǎn)一部典籍就是一項極為繁重的任務(wù)，可能需要耗費(fèi)一位學(xué)者幾個月、甚至幾年的光陰，但計算機(jī)現(xiàn)在可以瞬間完成。雖然會有一些錯誤，但是對一般的理解來說夠用了。不難預(yù)料，基于神經(jīng)網(wǎng)絡(luò)的人工智能，在不久的未來，一定會對傳統(tǒng)的人文學(xué)科產(chǎn)生一些沖擊。

陳詩沛：我覺得是革命性的。語言模型的專長是把不同的資料片段集合在一起，如果我們使用這樣的模型，大量“投喂”歷史研究的論文，當(dāng)我們再問一些基礎(chǔ)的歷史問題比如“為什么中國沒有發(fā)生工業(yè)革命”，它能很快從現(xiàn)有的研究中整合出回答，這是可以實現(xiàn)的?，F(xiàn)在一般的數(shù)字人文工具沒有到這個程度。

但是，語言模型里并沒有真正的智能，它不能辨識語義，只是一種很好的拼湊和堆砌。我們需要知道這些內(nèi)容里可能有錯誤，這非常重要。那誰去判斷里面有沒有錯誤呢？就是真正的人類，知識到達(dá)一定水平的人類。

人工智能+數(shù)字人文

澎湃新聞：除了ChatGPT，還有哪些人工智能技術(shù)已經(jīng)應(yīng)用在數(shù)字人文工具中？

王宏甦：有很多，比如我們訓(xùn)練transformer 神經(jīng)模型通過文章的標(biāo)題（比如《報任少卿書》）來判斷這篇文章是不是一封書信。這個模型是為了滿足“明代書信計劃”這個子項目的需求而訓(xùn)練。我們需要在120萬個來自明人文集的文章標(biāo)題中過濾出所有書信標(biāo)題，并對這些標(biāo)題進(jìn)行進(jìn)一步數(shù)據(jù)挖掘。在“明代書信計劃”的簡介頁面中可以看到，我們當(dāng)前已經(jīng)把54391個經(jīng)過初步數(shù)據(jù)挖掘的明代書信信息導(dǎo)入到任何人都可以訪問且免費(fèi)注冊、下載全部數(shù)據(jù)的開源社會關(guān)系數(shù)據(jù)眾包平臺。

再比如幾年前我們訓(xùn)練BERT + LSTM 神經(jīng)網(wǎng)絡(luò)模型，用來識別中國古代地方志中的人名、地名、官名等信息。

以上這些神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型我們都做了開放下載，任何人都可以直接下載免費(fèi)使用。

訓(xùn)練 transformer 神經(jīng)模型通過文章的標(biāo)題判斷是不是書信，Labels1是書信，0 是非書信

澎湃新聞：CBDB最新發(fā)布的“韓文（諺文）人名轉(zhuǎn)羅馬字神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練模型（Kraft）”是否同為機(jī)器學(xué)習(xí)的應(yīng)用？

王宏甦：是的，現(xiàn)在能見到的人名諺文-羅馬字生成工具大多基于專家規(guī)則。這些規(guī)則本身非常復(fù)雜，你可以直接打開這個網(wǎng)頁看到，總共有16頁的規(guī)范。另外，諺文羅馬字的標(biāo)準(zhǔn)也有好幾套。我們的“Kraft”在來自韓國的教授、同事、同學(xué)、學(xué)者的幫助下，建立了一萬多條訓(xùn)練集數(shù)據(jù)，通過這個訓(xùn)練集，不用書寫任何規(guī)則，就能訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型將諺文轉(zhuǎn)成拼音。未來如果我們希望訓(xùn)練其他標(biāo)準(zhǔn)的諺文-羅馬字轉(zhuǎn)換規(guī)范，只要做一批訓(xùn)練集即可。在今年三月份哈佛的國際會議Tools of the Trade上，我們將會介紹這項工作。

澎湃新聞：楊浩老師主要致力于將人工智能的方法運(yùn)用于中國古代典籍的整理與研究，能否談?wù)勛钚碌倪M(jìn)展？

楊浩：人工智能技術(shù)在古籍方面的運(yùn)用，目前主要是將自然語言處理技術(shù)用于自動標(biāo)點(diǎn)、命名實體識別、命名實體消歧、命名實體鏈接、相似文本的判定等方面，以及將屬于計算機(jī)視覺領(lǐng)域的OCR文字識別（光學(xué)字符識別）用于古籍圖像的文字識別上。我們現(xiàn)在基于預(yù)訓(xùn)練模型在做一些相似文本的判定方面的探索，效果比之前好很多。希望未來能夠基于更多語料，建立更廣與更深的文本與文本之間的關(guān)系，切實地成為人文學(xué)者可資利用的工具。

例如北大數(shù)字人文中心在王軍教授帶領(lǐng)下正在開發(fā)的“吾與點(diǎn)”古籍智能處理系統(tǒng)與“識典古籍”整理平臺，是人工智能方法在古籍?dāng)?shù)字化方面的集中應(yīng)用。

古籍整理平臺涉及的工作流程是：上傳圖片、OCR識別（光學(xué)字符識別）、文字校對、文字?？?，自動標(biāo)點(diǎn)、自動分段、結(jié)構(gòu)整理，標(biāo)點(diǎn)校對，命名實體校對。其中古籍OCR、自動標(biāo)點(diǎn)、自動分段、命名實體校對應(yīng)用的是人工智能，結(jié)構(gòu)整理用的是傳統(tǒng)計算機(jī)方法，文字校對文字?？眲t依賴人機(jī)交互，即計算機(jī)校對?？?、人工審閱。

自動標(biāo)點(diǎn)、自動分段、命名實體校對是基于預(yù)訓(xùn)練語言模型的，準(zhǔn)確率都比較高。以自動分詞功能為例，古文分詞很難，沒有預(yù)訓(xùn)練語言模型之前，對古文的分詞基本上不可靠，現(xiàn)在我們用人工智能的方法使得傳統(tǒng)的搜索變得更加智能，基于詞頻的統(tǒng)計分析也更加精確。

“吾與點(diǎn)”古籍智能處理系統(tǒng)的自動分詞功能

“吾與點(diǎn)”古籍智能處理系統(tǒng)的專名識別功能

北京大學(xué)與字節(jié)跳動聯(lián)合實驗室建設(shè)的“識典古籍”這個項目，是希望通過人機(jī)協(xié)作的方式，利用人工智能方法，在OCR、自動標(biāo)點(diǎn)、命名實體識別等技術(shù)之外，還能夠進(jìn)一步實現(xiàn)古籍的自動注音、自動釋義、自動翻譯等，建立起來一個文字精良、功能豐富、閱讀體驗優(yōu)秀的古籍閱讀平臺。北大數(shù)字人文中心的其他項目還有“國家珍貴古籍名錄”、《永樂大典》高清影像數(shù)據(jù)庫等等，主要是采用數(shù)字人文的可視化方法。

澎湃新聞：陳詩沛老師在馬克斯·普朗克科學(xué)史研究所負(fù)責(zé)地方志研究工具LoGaRT（Local Gazetteers Research Tools）的研發(fā)工作，您曾提到想把機(jī)器學(xué)習(xí)的方法應(yīng)用于古籍影像掃描，能否談?wù)勏嚓P(guān)的設(shè)想或?qū)嶒灒?/p>

陳詩沛：我們的人工智能主要應(yīng)用在古籍圖像上。地方志里有一些圖像，如地圖、山水建筑、星象天文圖等，晚清民國時期還有人物或風(fēng)景的照片。在古籍掃描的基礎(chǔ)上，我們使用機(jī)器學(xué)習(xí)對這些影像進(jìn)行分類。很多古籍已經(jīng)掃描成影像，人工智能會把它簡化，同時根據(jù)過去人工標(biāo)注的結(jié)果，辨認(rèn)該影像是文檔、地圖或是照片，并且繼續(xù)按照這個方法去深度學(xué)習(xí)。這個機(jī)制其實和ChatGPT很像，它根據(jù)概率選擇可能性最大的一項。其實這個算法本身已經(jīng)很成熟，只是應(yīng)用于古籍圖像還很少。

澎湃新聞：目前的量化歷史研究、數(shù)字人文研究中，數(shù)據(jù)庫主要還是服務(wù)于學(xué)者的工具。未來的數(shù)據(jù)庫是否有可能實現(xiàn)自主學(xué)習(xí)、自主分析數(shù)據(jù)的功能，甚至最終懂得對數(shù)據(jù)自主發(fā)問，進(jìn)而壓縮質(zhì)性研究的空間？

陳詩沛：我覺得不會。無論量化還是定性研究，面對工具，人還是在主宰的位置。我會用ChatGPT搜集材料，但最后可以下結(jié)論的一定是我，而不是機(jī)器。

王宏甦：我們一直致力于用一切方法來研究歷史，在這幾年的實踐中，定量研究幫助我們發(fā)現(xiàn)了很多有助于定性研究的問題，定性研究的成果也幫助著我們建設(shè)數(shù)據(jù)和設(shè)計研究方法。這是我們項目主任、哈佛大學(xué)東亞系包弼德（Peter K. Bol）教授的新書 Localizing Learning: The Literati Enterprise in Wuzhou, 1100–1600 ，在這本地方史（浙江婺州）的研究著作中，可以看到許多利用“中國歷代人物傳記資料庫”數(shù)據(jù)做定量和定性分析的例子。

包弼德著，《學(xué)習(xí)在地化：婺州的文人事業(yè)（1100-1600）》，哈佛大學(xué)出版社，2022年5月

歷史學(xué)的科技未來？

澎湃新聞：王宏甦老師提到，目前在人文的問題上很少使用ChatGPT，顯然它的人文知識不夠準(zhǔn)確。不過，有沒有可能在足夠的語料庫訓(xùn)練之后，它也能勝任人文問題的解答？換句話說，歷史學(xué)家需要擔(dān)心被人工智能替代嗎？

王宏甦：未來的神經(jīng)網(wǎng)絡(luò)模型一定能在人文問題上表現(xiàn)得更好，特別是百科類和有明確答案的問題。

歷史學(xué)家本身我認(rèn)為不會被人工智能替代。首先從狹義的角度看，有些問題需要一則或者幾則史料作為鑰匙。比如某個文化在某個時期有沒有遷徙到某個地區(qū)。這需要由例如通過考古發(fā)掘發(fā)現(xiàn)的新“事實材料”給出答案。第二，從更宏觀的角度。在一些歷史問題的價值是促進(jìn)歷史學(xué)家的思考和研究，提出自己的（沒有標(biāo)準(zhǔn)答案的）想法。比如李約瑟問題、唐宋變革問題等等。對這些問題的探討不僅有助于歷史學(xué)家理解歷史，也有助于理解當(dāng)下。如果只是對這些問題做一個歷史考卷論述題式的回答，那就太浪費(fèi)這些問題了。做一個比喻，刀叉沒有替代筷子，或者筷子沒有替代刀叉并不意味著某種對抗的結(jié)果。用刀叉吃炒飯和用筷子割肉一樣不方便，它們各自有各自勝任的場景。

澎湃新聞：人工智能可能給傳統(tǒng)人文學(xué)科帶來怎樣的機(jī)會或者挑戰(zhàn)？學(xué)者應(yīng)該如何應(yīng)對、應(yīng)用這樣的技術(shù)？

楊浩：我認(rèn)為文史哲這些傳統(tǒng)的人文學(xué)科需要做出一些改變和適應(yīng)。歷史上新技術(shù)的發(fā)明總是會對某些職業(yè)帶來沖擊，人工智能是會對人文學(xué)科帶來挑戰(zhàn)的，盡管短時間內(nèi)不明顯。

首先，對于一些程式化的工作、量化的研究來說，人工智能顯然是很有力的工具。王宏甦老師把ChatGPT當(dāng)作同事，王濤老師用它來寫會議通知，它還可以做簡單的文獻(xiàn)綜述、文本摘要等。其他很多功能還可以探索，人機(jī)交互會讓它變得越來越好用。

此外，它在一定意義上可以作為一種搜索工具。王宏甦老師提到的朝鮮官職是非常專業(yè)的問題，但是我覺得“大路貨”的問題它還是可以回答。我問ChatGPT：《社會契約論》的主要內(nèi)容是什么？它就對這本名著做了一個簡單的摘要。當(dāng)然我們要警惕其中有錯誤的內(nèi)容。就目前來說，它是很有用的工具，未來類似的大語言模型還是很有發(fā)展空間的。

ChatGPT回答《社會契約論》的主要內(nèi)容，受訪者供圖

在教學(xué)方面，之前看到網(wǎng)絡(luò)上有人說，有學(xué)生用ChatGPT寫出了關(guān)于世界宗教的小論文，獲得了高分。這是可能的。本科生的作業(yè)，如果只要求對本學(xué)期講述的內(nèi)容做簡單的綜合，不需要有創(chuàng)見，ChatGPT可以做得很好。這樣以后學(xué)生是不是就會偷懶、作弊呢？這種擔(dān)憂是存在的，但是也不必過于擔(dān)憂。就像數(shù)據(jù)庫剛出現(xiàn)的時候也有人擔(dān)心，學(xué)生會不會從此不讀書了？但是數(shù)據(jù)庫根本無法取代人文學(xué)者對材料的分析綜合和鑒別能力。當(dāng)大家都用數(shù)據(jù)庫的時候，工具以外的知識與能力才能決定你是否能成為一位好的研究者。反過來說，完全“掉書袋”的研究方法，未來可能會失去市場。

目前的ChatGPT，甚至未來的ChatGPT，如果它仍不具有常識，是不可能取代人文學(xué)者的。我認(rèn)為只有實現(xiàn)真正的通用人工智能，未來才有可能談得上“取代”，但那時候應(yīng)該是整個人類都要陷入危機(jī)了。

至于對于技術(shù)的態(tài)度，人文學(xué)者顯然不應(yīng)該拒斥這樣的技術(shù)，反而應(yīng)該積極了解人工智能到底是怎么一回事。大數(shù)據(jù)、人工智能技術(shù)正在逐漸改變?nèi)宋难芯康姆妒剑瑱C(jī)器可以協(xié)助處理社會、歷史、文化等各方面的語料，呈現(xiàn)新的結(jié)果，帶來新問題和新思考。當(dāng)然這個改變過程可能是緩慢的。

人文學(xué)者應(yīng)該積極參與和了解技術(shù)，因為技術(shù)也需要人文精神的引領(lǐng)。北大人工智能研究院朱松純老師有一句話叫“為機(jī)器立心”。未來通用人工智能的發(fā)展無法預(yù)料，人工智能會不會是“人類發(fā)明的最后一項技術(shù)”？技術(shù)會不會奴役人類？為人工智能立法、建立倫理、設(shè)立邊界，也是需要人文學(xué)者參與的。韓啟德院士曾經(jīng)打比方，技術(shù)發(fā)展就像一輛沒有司機(jī)但卻在加速行駛中的汽車，人文學(xué)者首先要在車上，然后才有可能逐漸去掌握方向盤。人文和技術(shù)絕不是矛盾的。

王濤：歷史學(xué)者需要利用ChatGPT，而不是被ChatGPT利用。歷史學(xué)者在研究工作中要有非常明確的問題導(dǎo)向，可以直接向ChatGPT提出需求，讓它根據(jù)算法給出一個反饋。至于這個結(jié)果是否有效，是否能夠用于研究，還是需要?dú)v史學(xué)者做專業(yè)的判斷。我對ChatGPT的歷史問答做過測評，對某些問題，ChatGPT給出的答案其實非常普通，評價為一本正經(jīng)地“胡說八道”也并不為過；即便如此，ChatGPT卻能夠用非常自信的口吻表達(dá)出來。從目前的表現(xiàn)來看，ChatGPT其實是一個“普信AI”，人類用戶不用過于悲觀，畢竟拔掉電源的主動權(quán)還在人類這邊。

第二，人工智能的進(jìn)化也逃不過巧婦難為無米之炊的窘境。我們可以預(yù)見在不久的將來，在ChatGPT普及之后，歷史學(xué)者都用它來進(jìn)行知識生產(chǎn)，互聯(lián)網(wǎng)上將充斥著主要由人工智能完成的歷史內(nèi)容。ChatGPT如果還繼續(xù)用這樣的素材來進(jìn)行訓(xùn)練、進(jìn)化，那人工智能的發(fā)展很快就會進(jìn)入瓶頸。所以，人類歷史學(xué)家的工作很難被取代，否則ChatGPT拿不到新鮮的訓(xùn)練集，只能吃老本，這樣的“內(nèi)卷”對歷史研究，對人工智能都將毫無意義。

最后，在人工智能日趨成熟的當(dāng)下，破解“信息繭房”顯得更加迫切了。如果我們盡信ChatGPT的結(jié)果，沒有能力識破它是否在一本正經(jīng)地胡說八道，這將是很悲哀的事情?？苹脛　兑煞缸粉櫋吩v了一個故事，男主角在互聯(lián)網(wǎng)上查詢?nèi)魏涡畔?，都會出現(xiàn)跟抑郁癥、自殺等內(nèi)容相關(guān)，結(jié)果在這樣的信息熏陶下，他也選擇了自殺。看似毫無破綻的自殺案件，其實是一場精心策劃的謀殺案。原來，男主角的仇人買兇殺人，殺手利用人工智能控制了男主角的電腦，定向給他推送自殺的消息。在這個寓言般的故事中，人工智能其實沒有好壞，用它的人才是。所以，如果我們對“信息繭房”毫無戒心，把ChatGPT的結(jié)果當(dāng)全部真相，不僅可能要錢，還有可能要命。

澎湃新聞：王濤老師在社交網(wǎng)絡(luò)上分享了ChatGPT是如何回答“鴉片戰(zhàn)爭爆發(fā)的原因”這個問題的。從教學(xué)方面來看，您認(rèn)為ChatGPT有能力完成歷史學(xué)專業(yè)的作業(yè)和論文嗎？老師們是否考慮過如何應(yīng)對？

王濤：這是一個非正式的實驗。我出了一道非?；A(chǔ)的歷史問題，讓ChatGPT去解釋一下鴉片戰(zhàn)爭爆發(fā)的原因，然后把ChatGPT生成的答案，拿給一些歷史學(xué)者評分。坦率地講，ChatGPT的答案像模像樣，有思路，有邏輯，也能夠從多種角度作答。歷史學(xué)者們對ChatGPT答案的評價參差不齊。當(dāng)然，之所以會出現(xiàn)這種局面有一個很重要的外在因素，歷史學(xué)者事先知道這個答案是人工智能生成的，他們主觀上已經(jīng)對此有了先入為主的判斷，所以會對評價的客觀性帶來影響。

ChatGPT回答“鴉片戰(zhàn)爭爆發(fā)的原因”，受訪者供圖

從教學(xué)的方面看，讓ChatGPT獨(dú)立完成一篇具有原創(chuàng)性結(jié)論的歷史學(xué)專業(yè)論文，目前看還不可能。因為，ChatGPT本質(zhì)上是一個語言模型，它所有知識來源都是基于已有和已知的信息。只是基于強(qiáng)大的算力，讓ChatGPT能夠快速定位，再加上算法，把知識關(guān)聯(lián)起來，并能使用邏輯通順的自然語言導(dǎo)出結(jié)果，才讓ChatGPT看起來很智能。

ChatGPT擅長的其實是對知識的整合，在文字處理上，讓它完成公務(wù)文章或者應(yīng)用文，是信手拈來的事情，因為這種類型的文章具有極強(qiáng)的范式。讓ChatGPT去完成一篇?dú)v史作業(yè)，對知識進(jìn)行梳理和總結(jié)，對它而言也是正中下懷。對ChatGPT稍加調(diào)教，投喂足夠多的八股文數(shù)據(jù)，它在競爭激烈的科舉考試中拔得頭籌，應(yīng)該也是毫無壓力。

我看到《連線》網(wǎng)站上發(fā)布的一個新聞，一名英語老師對ChatGPT布置了不同類型的寫作任務(wù)，從打油詩、劇本到十四行詩，ChatGPT都能應(yīng)對自如，并以極高的效率完成，多項作業(yè)取得了不俗的成績。

但是，老師不應(yīng)該過分擔(dān)心ChatGPT對教學(xué)的沖擊。老師們能夠調(diào)教出像ChatGPT這樣的孩子，在業(yè)務(wù)考試中取得優(yōu)異成績的學(xué)生固然值得慶幸，但是如果所有的學(xué)生都像ChatGPT那樣，只會掉書袋，也是一種悲哀。

老師們的擔(dān)憂可能是，學(xué)生們有了類似ChatGPT這樣人工智能的協(xié)助，考試作弊，不認(rèn)真學(xué)習(xí)，會破壞教學(xué)秩序。這個問題，需要從老師如何教，以及學(xué)生如何學(xué)兩個方面解決。

在人工智能技術(shù)日趨完善的將來，老師的教學(xué)不能僅僅追求知識的灌輸，而是要教會學(xué)生自我成長的方法。在ChatGPT可以在掌握知識的準(zhǔn)確度上碾壓人類的背景下，“授之以魚不如授之以漁”顯得更加重要了。

對學(xué)生而言，死記硬背的方式學(xué)習(xí)知識，顯然已經(jīng)不能滿足未來社會的需求了。在記憶這個技能上，沒有人能夠比得過ChatGPT。學(xué)生們需要掌握的技能是要善于提出問題，并且能夠使用包括ChatGPT在內(nèi)的工具找出解決方案。

澎湃新聞：以一個歷史學(xué)者的眼光，您認(rèn)為人工智能會給史學(xué)這門古老的學(xué)問帶來怎樣的影響？

王濤：ChatGPT的歷史知識是有來源的，它之所以顯得智能，就在于它能夠在數(shù)據(jù)庫中定位到相關(guān)的歷史結(jié)論。而這些知識體系，是由一代一代人類歷史學(xué)者通過腦力研究得出的成果。

所以，從比較和諧的角度來說，以ChatGPT為代表的人工智能技術(shù)對歷史學(xué)科的發(fā)展有積極推動作用，關(guān)鍵在于專業(yè)的歷史學(xué)家是否能夠用好這個助理。

歷史學(xué)家的長處，從來不是過目不忘，而是善于在不同史料中穿行，找出符合歷史語境的解釋與判斷。而歷史學(xué)家不擅長的地方，正是對ChatGPT等人工智能工具而言最普通的技能，所以兩者的合作對雙方都是揚(yáng)長避短，有機(jī)會達(dá)到雙贏的局面。

在前數(shù)字化時代，歷史學(xué)者非常重視閱讀筆記的作用，因為即便有博聞強(qiáng)識的大學(xué)問家，大多數(shù)人的情況是好記性不如爛筆頭。學(xué)者們需要通過筆記對史料進(jìn)行體系化構(gòu)建，從而給研究提供思路和線索，特別是在書寫研究論文的時候，根據(jù)學(xué)術(shù)規(guī)范的要求對史料來源進(jìn)行注釋才能夠從容不迫。

我在ChatGPT上做過實驗，丟給ChatGPT一個問題，用符合美國現(xiàn)代語言協(xié)會制定的論文格式（MLA），規(guī)范地引用“知識就是力量”這句話。ChatGPT精準(zhǔn)地給出了作者、書名、出版年份等信息，獨(dú)缺頁碼信息。我追問了一下，為什么沒有頁碼，ChatGPT回答，在培根生活的16世紀(jì)，出版的圖書還沒有出現(xiàn)規(guī)范的頁碼格式。ChatGPT還特別貼心地提醒我，培根的作品被很多文集再版了，那里可以找到頁碼信息。

澎湃新聞：楊浩老師是北大哲學(xué)系的博士，跨界到技術(shù)領(lǐng)域從事數(shù)字人文的工作。您怎么看技術(shù)給人文學(xué)科帶來的改變？要跨越不同學(xué)科間的壁壘，關(guān)鍵在哪里？

楊浩：帶來的改變我認(rèn)為大致有三個方面。第一在方法上，數(shù)字人文是量化的方法，對傳統(tǒng)的質(zhì)性研究是很重要的補(bǔ)充。第二是在視角上，逆轉(zhuǎn)了傳統(tǒng)人文學(xué)科研究那種越來越細(xì)分、越來越專門的趨勢，整合碎片化的知識生產(chǎn)，帶來大尺度、大跨度的視角。第三在文獻(xiàn)上，可以提供全量文獻(xiàn)基礎(chǔ)上的研究與分析。真正的大數(shù)據(jù)含義，是趨向于無窮大的數(shù)據(jù)；全部中文古籍總量也就300億字，永遠(yuǎn)不再增長，其實是“小數(shù)據(jù)”，是有極限的。數(shù)字人文的方法在理論上可以實現(xiàn)全量文獻(xiàn)基礎(chǔ)上的研究，這是過去不可能做到的。

打破不同學(xué)科之間的學(xué)術(shù)壁壘需要一些頂層設(shè)計，在教育的層面鼓勵交叉學(xué)科的實踐、跨學(xué)科人才的培養(yǎng)。作為個體，無論是文是理，有這樣一些內(nèi)容是需要主動學(xué)習(xí)的：通識教育、經(jīng)典教育、對技術(shù)的掌握和自學(xué)的能力。通識的重要性毋庸多言，通用人工智能之所以驚人，也正是因為“通”。而掌握傳統(tǒng)人文知識，最好的途徑就是經(jīng)典教育，未來的人工智能如果要理解人，也要學(xué)習(xí)經(jīng)典?，F(xiàn)在這個時代，無論文理都需要掌握技術(shù)，技術(shù)就是一門語言，一種生存技能。最后，我個人最大的體會還是自學(xué)能力，善于自學(xué)才能突破邊界。技術(shù)日新月異，各種新思想也不斷涌現(xiàn)，沒有主動學(xué)習(xí)的能力，肯定不行。

人工智能讓我們反思人的本質(zhì)，“人是什么”。人類做機(jī)械的、重復(fù)的工作的能力，并不比機(jī)器弱。所以人工智能會淘汰平庸的抄襲者，完全沒有創(chuàng)造力的工作一定會被人工智能取代。

澎湃新聞：陳詩沛老師所在的德國柏林馬克斯·普朗克科學(xué)史研究所是一個很有代表性的跨學(xué)科研究機(jī)構(gòu)，科學(xué)史本身有學(xué)科交叉的性質(zhì)，馬普所又倡導(dǎo)“歷史學(xué)家和計算機(jī)科學(xué)家同桌思考”。陳老師是計算機(jī)系的博士，您是怎么與歷史結(jié)緣的？以您的個人經(jīng)驗而言，如何使兩個來自不同領(lǐng)域的人溝通得更順暢？

陳詩沛：我在臺灣大學(xué)計算機(jī)工程系的導(dǎo)師是項潔老師，他是數(shù)字人文最早的倡導(dǎo)者和實踐者之一。當(dāng)時他被任命為臺大圖書館館長，正在做歷史古籍的數(shù)字化項目，我和系里的很多碩士生、博士生一樣，參與了這些項目。

我的確覺得計算機(jī)和歷史學(xué)這兩個領(lǐng)域之間的壁壘很高，難以跨越。這也解釋了為什么很少計算機(jī)科學(xué)家投入數(shù)字人文。我當(dāng)初并不是一個好的計算機(jī)科學(xué)家，因為我喜歡跟人講話，不喜歡跟機(jī)器講話。但由于我了解一些計算機(jī)的基礎(chǔ)概念，我就試著把它們解釋給歷史學(xué)家、人文學(xué)家。在這兩個領(lǐng)域里，大家使用的語言和思考方式不同。一個計算機(jī)科學(xué)家可能不理解一個歷史學(xué)家提出的問題有什么意思，做出來的東西不見得符合歷史學(xué)的需求。

我覺得我花了很長時間才真正進(jìn)入人文學(xué)科，直到最近幾年才覺得自己被歷史學(xué)家們接納，他們開始認(rèn)可我提出的問題是人文學(xué)者的問題。而我真正理解他們在做的事情，是通過閱讀歷史學(xué)、科學(xué)史方面的論文，以及參與他們的討論。我所接觸的歷史學(xué)者們，主要的學(xué)術(shù)活動是報告論文，他們會把論文初稿拿出來和大家切磋討論，得到反饋后再修改、發(fā)表。我參與這樣的報告和討論三四年以后，才逐漸感覺能夠理解他們在意的問題、他們的需求、他們做研究的本質(zhì)，以及他們所追求的到底是什么。

身在數(shù)字人文這個領(lǐng)域，我的確有一個信念，就是這些數(shù)字工具可以為歷史研究提供很好的服務(wù)，做出以往不容易做到的事情。但我們需要保持警醒，數(shù)據(jù)本身是不客觀的，尤其是歷史上的數(shù)據(jù)，因為有太多信息已經(jīng)遺失。所以我們不會完全相信它。我們解釋這些數(shù)據(jù)背后代表什么意思，保持對歷史文檔本身的懷疑，保持對歷史的懷疑。因為每一個文檔都不是客觀的。

回到你前面的問題，歷史學(xué)的訓(xùn)練到底是什么？我經(jīng)過和許多歷史學(xué)家的合作，深深體會到的就是，歷史文檔不是客觀的，每個文檔產(chǎn)生的背景都不一樣，很多東西沒有被寫下來，只有去重構(gòu)文檔生成的過程，才能做出相對客觀的判斷。

0 好文

下一篇:《聽見天才》：在對的時代做對的事

上一篇:首屆“鯤鵬”獎獲獎書系發(fā)布：青少年怎樣寫科幻故事？

ChatGPT、人工智能與數(shù)字人文：傳統(tǒng)學(xué)問的科技未來？

熱門文章排行

ChatGPT、人工智能與數(shù)字人文：傳統(tǒng)學(xué)問的科技未來？