注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)新聞資訊歷史

從甲骨文到古希臘銘文:AI挑戰(zhàn)古代文獻(xiàn)

在加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程系博士生候選人陳丹露的分享中,復(fù)旦大學(xué)本科生必修課《15世紀(jì)以前的世界》迎來(lái)了第29次拓展講座。

在加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程系博士生候選人陳丹露的分享中,復(fù)旦大學(xué)本科生必修課《15世紀(jì)以前的世界》迎來(lái)了第29次拓展講座。此次講座以“當(dāng)人工智能遇上歷史研究 ——AI如何解讀古代文獻(xiàn)”為主題,深入探討了如何將人工智能融入歷史研究,為傳統(tǒng)學(xué)科帶來(lái)新的視角和方法。陳丹露本科就讀于復(fù)旦大學(xué),其主要研究方向包括自然語(yǔ)言處理、機(jī)器學(xué)習(xí)以及數(shù)字人文。

當(dāng)前,數(shù)字人文(Digital Humanities)的常見(jiàn)理解和實(shí)踐包括建立電子數(shù)據(jù)庫(kù)、分析文本、繪制歷史地圖與網(wǎng)絡(luò)分析,以及文化遺產(chǎn)的數(shù)字化重建。然而,這些應(yīng)用大多將計(jì)算機(jī)技術(shù)視為輔助工具,尚未與人工智能等先進(jìn)技術(shù)深度融合。

為了幫助聽(tīng)眾更好地理解講座內(nèi)容,陳丹露通過(guò)幾個(gè)生動(dòng)的例子進(jìn)行了說(shuō)明。首先,以《紅樓夢(mèng)》的文本分析為例,將120回文本拆分為120個(gè)樣本作為輸入,利用k聚類分析方法進(jìn)行處理,輸出點(diǎn)狀聚類結(jié)果。結(jié)果顯示,前80回與后40回(除去第67回)在特征空間中存在明顯差異,從而支持了“前80回與后40回作者不同”的觀點(diǎn)。

處理歷史文獻(xiàn)往往第一步需要做文本電子化處理,即光學(xué)字符識(shí)別(OCR)。光學(xué)字符識(shí)別(OCR)技術(shù)是將紙質(zhì)文字轉(zhuǎn)化為計(jì)算機(jī)可處理的電子化表示的重要手段。然而,處理歷史文獻(xiàn)時(shí),OCR技術(shù)面臨諸多挑戰(zhàn)。由于歷史文獻(xiàn)的字體、排版和紙張質(zhì)量差異,OCR的識(shí)別準(zhǔn)確率可能較低,通常需要人工校正。例如,在對(duì)古代文獻(xiàn)進(jìn)行OCR識(shí)別時(shí),最理想的情況下,也約有5%的字符無(wú)法正確識(shí)別。為了提高準(zhǔn)確率,研究人員需要先提取文本,再對(duì)每個(gè)字符進(jìn)行分類,識(shí)別出字符的多種可能性,并進(jìn)行人工校對(duì)。

陳丹露主持的EEBO-verse項(xiàng)目則試圖打破使用OCR的傳統(tǒng)方法。該項(xiàng)目從早期現(xiàn)代西方文獻(xiàn)中篩選有韻律的詞句和詩(shī)歌,通過(guò)將圖片直接作為機(jī)器學(xué)習(xí)模型的輸入,篩選出可能包含詩(shī)歌的頁(yè)面,然后結(jié)合人工和文字識(shí)別軟件進(jìn)行精校。這種基于圖片的篩選方法針對(duì)特殊需求結(jié)合詩(shī)歌的版式特征,不需要單獨(dú)關(guān)注文本內(nèi)容,極大地提升了工作效率,為計(jì)算機(jī)和歷史文獻(xiàn)研究的結(jié)合提供了新思路。

然而,上述例子大多停留在使用機(jī)器建立數(shù)據(jù)庫(kù)和統(tǒng)計(jì)文本的層面,較少能夠超越“搜索與索引”,突破簡(jiǎn)單的字符匹配或統(tǒng)計(jì)詞頻的層面。機(jī)器學(xué)習(xí)模型通常需要大量的樣本來(lái)進(jìn)行訓(xùn)練,但在歷史研究中,尤其是古代文獻(xiàn)領(lǐng)域,很多時(shí)候樣本數(shù)量有限,無(wú)法滿足機(jī)器學(xué)習(xí)的條件。同時(shí),一個(gè)關(guān)鍵問(wèn)題是:如何表示古代文本?從機(jī)器學(xué)習(xí)的視角來(lái)看,大部分文字無(wú)法直接編碼,或者說(shuō)編碼無(wú)法儲(chǔ)存所有的信息。所以,古代文字并非可直接處理的文本數(shù)據(jù),而是以圖像形式存在的視覺(jué)信息。這些圖片需要經(jīng)過(guò)預(yù)處理和標(biāo)注,才能被機(jī)器學(xué)習(xí)模型理解和學(xué)習(xí)。

歷史研究材料樣本不足和分布不均問(wèn)題也構(gòu)成了挑戰(zhàn)。如果使用機(jī)器學(xué)習(xí)模型對(duì)楔形文字泥板進(jìn)行斷代,當(dāng)數(shù)據(jù)集來(lái)源單一(如大英博物館或耶魯博物館)時(shí),模型的表現(xiàn)可能較為理想。但如果將模型應(yīng)用于其他來(lái)源(如開(kāi)羅博物館)的泥板時(shí),錯(cuò)誤率可能會(huì)高達(dá)80%。這是因?yàn)椴煌┪镳^的拍照環(huán)境、光線、色調(diào)和參數(shù)差異巨大,導(dǎo)致數(shù)據(jù)分布不一致。相比之下,識(shí)別貓狗等常見(jiàn)模型能夠取得成功,是因?yàn)檫@些數(shù)據(jù)集的規(guī)模足夠大,能夠覆蓋各種場(chǎng)景和變化。然而,網(wǎng)絡(luò)上楔形文字泥板的數(shù)量有限,且分布分散,難以形成大規(guī)模的、統(tǒng)一標(biāo)注的數(shù)據(jù)集,這使得機(jī)器學(xué)習(xí)模型的訓(xùn)練和應(yīng)用面臨巨大挑戰(zhàn)。

總結(jié)來(lái)說(shuō),人工智能在應(yīng)用于歷史研究時(shí)面臨三大核心問(wèn)題:首先,歷史研究中的許多問(wèn)題難以轉(zhuǎn)化為機(jī)器學(xué)習(xí)能夠理解的形式;其次,古代文字本身難以被機(jī)器學(xué)習(xí)模型直接識(shí)別,需要復(fù)雜的預(yù)處理和標(biāo)注;最后,古代文獻(xiàn)的數(shù)據(jù)資源稀缺,且訓(xùn)練集和測(cè)試集之間存在顯著的數(shù)據(jù)分布偏移。這些問(wèn)題導(dǎo)致目前的研究大多停留在將紙質(zhì)文獻(xiàn)數(shù)字化為電子數(shù)據(jù)庫(kù)的階段,難以深入到更復(fù)雜的歷史問(wèn)題的分析和解決中。

接下來(lái),陳丹露通過(guò)多個(gè)案例展示了人工智能在古代文獻(xiàn)研究中的深入應(yīng)用。

重建古希臘銘文:DeepMind Ithaca

DeepMind開(kāi)發(fā)的Ithaca模型旨在通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)補(bǔ)全受損銘文的缺失部分,并嘗試推測(cè)銘文的地理來(lái)源和年代。Ithaca通過(guò)隨機(jī)挖掉銘文中未破損的字符(例如20%的字符)來(lái)模擬破損銘文,并將這些字符作為模型的輸出進(jìn)行訓(xùn)練。這種方法的優(yōu)點(diǎn)在于避免了專家補(bǔ)全可能帶來(lái)的主觀錯(cuò)誤,確保模型能夠基于更可靠的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。Ithaca的模型不僅能夠預(yù)測(cè)缺失的字符,還能確定銘文的地理來(lái)源和年代。實(shí)驗(yàn)結(jié)果顯示,Ithaca單獨(dú)使用時(shí)的錯(cuò)誤率遠(yuǎn)低于接受過(guò)希臘文字訓(xùn)練的研究生。

人工智能重建古希臘銘文


該研究論文題為“Restoring and attributing ancient texts using deep neural networks”,已發(fā)表在《自然》雜志上。



甲骨文綴合:OBI-Bench

由于甲骨文尚未有成熟的數(shù)字化表達(dá)方式,直接將其轉(zhuǎn)化為機(jī)器可讀的格式并不容易。OBI-Bench項(xiàng)目通過(guò)將甲骨文綴合問(wèn)題轉(zhuǎn)化為字符相似度檢索問(wèn)題,以期完成甲骨文的識(shí)別、綴合、分類、檢索和破譯五大任務(wù)。具體而言,該方法將甲骨文的圖片作為輸入,通過(guò)模型召回與目標(biāo)字符相似的其他字符,從而幫助研究人員進(jìn)行綴合。這種方法的優(yōu)勢(shì)在于無(wú)需對(duì)甲骨文進(jìn)行復(fù)雜的數(shù)字化編碼,直接利用圖片進(jìn)行處理,大大降低了技術(shù)門(mén)檻,同時(shí)也為甲骨文的研究提供了新的思路。

本圖來(lái)自“甲骨文AI協(xié)同平臺(tái)”



龐貝古城赫庫(kù)蘭尼姆卷軸的非侵入式閱讀:Vesuvius Challenge

考古學(xué)家在龐貝古城附近的庫(kù)赫蘭尼姆遺址的考古發(fā)掘中,于火山灰泥層下發(fā)現(xiàn)了一座古代圖書(shū)館,其中保存著大量因火山噴發(fā)而碳化的珍貴古籍。這些古籍的閱讀難度極大,傳統(tǒng)的物理打開(kāi)方法可能會(huì)對(duì)古籍造成不可逆的損壞。Vesuvius Challenge項(xiàng)目通過(guò)非侵入式的方法,利用三維掃描技術(shù)對(duì)古籍進(jìn)行成像,然后通過(guò)機(jī)器學(xué)習(xí)技術(shù)識(shí)別古籍中的文字。這種方法的主要步驟包括:CT成像、分割每一頁(yè)并(虛擬地)展平、墨水檢測(cè)識(shí)別,以及專家驗(yàn)證機(jī)器識(shí)別的文字是否準(zhǔn)確。然而,由于這些卷軸的掃描數(shù)據(jù)量巨大(例如25cm的卷軸掃描后數(shù)據(jù)量可達(dá)3.41TB),其中99%以上都是噪音,這給機(jī)器學(xué)習(xí)和識(shí)別帶來(lái)了巨大挑戰(zhàn)。此外,由于缺乏監(jiān)督數(shù)據(jù),研究人員不得不先人工辨認(rèn)墨跡,然后通過(guò)不斷迭代訓(xùn)練模型來(lái)提高識(shí)別準(zhǔn)確率。2023年的結(jié)果顯示,該方法成功識(shí)別出了一部失傳的哲學(xué)家作品。但模型的泛化能力有限,例如能夠準(zhǔn)確識(shí)別單獨(dú)一個(gè)卷軸的模型無(wú)法直接應(yīng)用于另外一個(gè)卷軸。

左圖為Vesuvius Challenge(維蘇威火山挑戰(zhàn)賽)獲勝者利用機(jī)器學(xué)習(xí)技術(shù)解讀的古籍;右圖是這類古籍通過(guò)傳統(tǒng)的物理打開(kāi)方式打開(kāi)后的情況。


在碳化的古卷上找到的字母ΠΟΡΦΥΡΑΣ ,是古文的紫色(Porphyras)



莎士比亞第四對(duì)開(kāi)本的印刷者識(shí)別:Print and Probability

莎士比亞的第四對(duì)開(kāi)本存在許多錯(cuò)漏,因此學(xué)者對(duì)尋找其印刷者表現(xiàn)出極大興趣,但當(dāng)時(shí)出版商匿名出版的習(xí)慣使之變得困難。通過(guò)機(jī)器學(xué)習(xí)技術(shù),研究人員可以利用活字印刷的特性來(lái)解決這一問(wèn)題。具體而言,同一出版社印刷的字符在形狀(帶有破損)上應(yīng)該是相同的,因此可以通過(guò)尋找具有相似破損形狀的字符來(lái)確定兩本書(shū)是否由同一出版社印刷。來(lái)自加州大學(xué)圣地亞哥分校(UC San Diego)和卡內(nèi)基梅隆大學(xué)的跨學(xué)科合作團(tuán)隊(duì)把這個(gè)問(wèn)題拆解成幾個(gè)機(jī)器學(xué)習(xí)模型能處理的子任務(wù),用AI首次回答了這個(gè)歷史懸案。首先,Ocular無(wú)監(jiān)督字符識(shí)別系統(tǒng)能夠提取一頁(yè)英文打印書(shū)籍中的所有字符并進(jìn)行分類,篩選出具有破損的字符,并通過(guò)訓(xùn)練小的神經(jīng)網(wǎng)絡(luò)來(lái)判斷字符是否有破損。隨后,通過(guò)標(biāo)注100-200個(gè)肉眼判斷為相似的字符樣本,訓(xùn)練一個(gè)網(wǎng)絡(luò)來(lái)識(shí)別這些字符的相似性。最終,通過(guò)匹配已知出版者的作品中的字符,可以確定未署名版本的印刷者。

通過(guò)這些案例,陳丹露給我們展示了人工智能在古代文獻(xiàn)研究中的多樣化應(yīng)用,從古希臘銘文的補(bǔ)全到甲骨文的綴合,從赫庫(kù)蘭尼姆卷軸的非侵入式破譯到莎士比亞對(duì)開(kāi)本的印刷者識(shí)別,這些研究為歷史研究提供了新的視角和方法。

最后,在講座的互動(dòng)環(huán)節(jié)中,在場(chǎng)聽(tīng)眾提出了多個(gè)問(wèn)題,陳丹露也結(jié)合實(shí)際研究經(jīng)驗(yàn)進(jìn)行了詳細(xì)解答。

提問(wèn):

從大量古代文獻(xiàn)中篩選韻文的工作,是否更接近圖像識(shí)別任務(wù)而非語(yǔ)言分析任務(wù)?是否需要人工預(yù)先標(biāo)注數(shù)據(jù)?是否有比較有效的模型?

回答:

確實(shí)如此,篩選韻文的工作更接近圖像識(shí)別任務(wù)。圖像本質(zhì)上是矩陣,而文字需要轉(zhuǎn)化為機(jī)器能夠理解的連續(xù)形式,這增加了處理的復(fù)雜性。例如,在一百萬(wàn)本書(shū)中,大約只有20%的文本經(jīng)過(guò)了人為標(biāo)注。在這種情況下,通常會(huì)將其中5%的數(shù)據(jù)用作測(cè)試集,95%用作訓(xùn)練集。從實(shí)際效果來(lái)看,基于圖像的方法往往比傳統(tǒng)的文字識(shí)別或特征提取方法表現(xiàn)更好。

提問(wèn):

建筑師手稿的OCR手寫(xiě)體識(shí)別非常困難,目前的思路是人工標(biāo)注后再進(jìn)行機(jī)器識(shí)別,這是否正確?對(duì)于小樣本學(xué)習(xí)領(lǐng)域,您怎么看?在處理手稿時(shí),除了中文和英文,還有繪制的相關(guān)圖紙,這種情況下是否更應(yīng)該采用圖像處理的思路?

回答:

對(duì)于手寫(xiě)體識(shí)別和小樣本學(xué)習(xí),人工標(biāo)注是非常關(guān)鍵的一步。實(shí)際上,只需要標(biāo)注一小部分?jǐn)?shù)據(jù),例如5%,就足以讓模型識(shí)別出95%的內(nèi)容。小樣本學(xué)習(xí)在近年來(lái)得到了廣泛應(yīng)用,尤其在歷史文獻(xiàn)研究中,這種方法貫穿了項(xiàng)目的整個(gè)流程。對(duì)于包含多種語(yǔ)言和圖紙的手稿,圖像處理的方法(或者說(shuō)多模態(tài)的特征輸入)確實(shí)更為適用。通過(guò)將手稿中的文字和圖紙視為圖像,可以利用圖像處理技術(shù)進(jìn)行特征提取和分析,從而更好地處理這些復(fù)雜的內(nèi)容。

提問(wèn):

在處理大量文本并截取韻文時(shí),如果中文世界中并沒(méi)有整頁(yè)或半頁(yè)的版式體現(xiàn),是否還能采用類似的方法?在《紅樓夢(mèng)》這一例子中,使用的聚類分析方法是否可以手工微調(diào)這些庫(kù)的參數(shù)以獲得更好的結(jié)果?

回答:

如果中文文獻(xiàn)中沒(méi)有明顯的整頁(yè)或半頁(yè)版式,那么直接應(yīng)用類似的方法確實(shí)會(huì)面臨困難。不過(guò),韻文的例子是為了說(shuō)明,除了文字內(nèi)容本身,還可以關(guān)注版式等非文字的特征。而關(guān)于《紅樓夢(mèng)》的例子,在實(shí)際操作中,原文可能進(jìn)行了字級(jí)別的篩選。雖然聚類分析主要依賴于第三方庫(kù),但每一步的分析過(guò)程都是可以觀察和調(diào)整的。例如,可以選擇不同的參數(shù)來(lái)優(yōu)化聚類結(jié)果,使其更符合研究需求,比如情感色彩等特征。當(dāng)然,需要注意的是,選擇參數(shù)時(shí)應(yīng)盡量避免僅選擇那些能夠明確得出預(yù)期結(jié)果的參數(shù),否則可能會(huì)導(dǎo)致結(jié)果的偏差,從而陷入循環(huán)論證的謬誤。

提問(wèn):

關(guān)于銘文補(bǔ)充的例子,是否因?yàn)槟P褪窃谝粋€(gè)集中的數(shù)據(jù)集里訓(xùn)練,所以結(jié)果會(huì)比較準(zhǔn)確?是否存在循環(huán)驗(yàn)證的情況?人類的詞語(yǔ)組合能力是否比機(jī)器更強(qiáng),從而導(dǎo)致機(jī)器的錯(cuò)誤率更高?現(xiàn)在所有模型都是基于大數(shù)據(jù)量訓(xùn)練的,但對(duì)于中世紀(jì)手稿這類數(shù)據(jù)量不足且風(fēng)格迥異的情況,該如何解決?

回答:

我認(rèn)為,人類在銘文補(bǔ)充任務(wù)中的錯(cuò)誤率59.6%可能有些偏高,因?yàn)檫@個(gè)數(shù)字是讓兩個(gè)做古典學(xué)的學(xué)生測(cè)出來(lái)的。但個(gè)人認(rèn)為這并非完全是因?yàn)槿祟惖脑~語(yǔ)組合能力更強(qiáng)而導(dǎo)致人類可以補(bǔ)全得更多。大多數(shù)情況下,錯(cuò)誤率較高是因?yàn)殂懳娜睋p過(guò)多,導(dǎo)致無(wú)法準(zhǔn)確補(bǔ)充。其次,機(jī)器給出的并非單一結(jié)果,而是多種可能性的概率分布,這為歷史學(xué)家提供了更多參考。最后,人和AI模型不應(yīng)該是一種競(jìng)爭(zhēng)關(guān)系,而是人與機(jī)器可以相互補(bǔ)充:機(jī)器可以進(jìn)行初步篩選,尤其是在那些懂的人不多的語(yǔ)言中,由人類專家進(jìn)行最終確認(rèn)可能會(huì)更有效。對(duì)于小樣本問(wèn)題,例如中世紀(jì)手稿,可以采用一些現(xiàn)有工具或方法。例如,像Ocular是一個(gè)專門(mén)用于處理小樣本和字符集較少的語(yǔ)言的工具。此外,也可以通過(guò)人工添加一些限制條件來(lái)優(yōu)化模型的訓(xùn)練過(guò)程。

提問(wèn):

甲骨文和其他古文字的字?jǐn)?shù)有限且相對(duì)規(guī)范,但竹簡(jiǎn)文字的部件可以隨意拼貼組合,存在無(wú)數(shù)種可能性。在這種情況下,我們?cè)撊绾巫R(shí)別?

回答:

可以嘗試讓模型生成關(guān)于這些部件的解讀,將分類問(wèn)題轉(zhuǎn)化為描述性問(wèn)題。這種方法可能有助于解決竹簡(jiǎn)文字的識(shí)別問(wèn)題。有些文字的分類并非固定組合,目前只有中文的簡(jiǎn)帛存在類似問(wèn)題,楔形文字其實(shí)也比較類似,但還是沒(méi)有竹簡(jiǎn)字復(fù)雜。這是一個(gè)非常有趣且具有挑戰(zhàn)性的問(wèn)題,值得進(jìn)一步研究。

提問(wèn):

我試用了Ithaca,特意挑選了一些包含地名和時(shí)間信息的銘文讓它判斷,但模型在判斷字符權(quán)重時(shí)會(huì)忽略一些重要名詞。這是不是意味著我們需要再訓(xùn)練一個(gè)大模型來(lái)輔助它,還是有其他方法可以讓一個(gè)模型同時(shí)實(shí)現(xiàn)字符推斷和結(jié)合歷史信息校正推斷?

回答:

Ithaca在訓(xùn)練的時(shí)候特意去除日期和地點(diǎn)這種能泄露年代的信息,并主要從純文風(fēng)角度去推斷銘文所屬的年代和地點(diǎn),因此會(huì)忽略一些人類專家可能會(huì)注意到的權(quán)重,例如地名、人名等信息。解決辦法是針對(duì)具體需求重新進(jìn)行相關(guān)訓(xùn)練。由于數(shù)據(jù)量通常不會(huì)太大,因此不需要重新接入一個(gè)大模型。可以通過(guò)調(diào)整訓(xùn)練數(shù)據(jù)和目標(biāo),讓模型更好地結(jié)合歷史信息進(jìn)行推斷。

提問(wèn):

作為純文科體系的學(xué)生,如果想結(jié)合數(shù)字技術(shù)與人文研究,需要做哪些準(zhǔn)備?

回答:

我個(gè)人的建議是,作為本科生,可以暫時(shí)把數(shù)字技術(shù)當(dāng)作一個(gè)“黑箱”,現(xiàn)在的GPT大模型已經(jīng)將輸入和輸出簡(jiǎn)化到了極致,所以暫時(shí)不需要深入了解其內(nèi)部工作機(jī)制,而是要清楚它能做到什么,不能做到什么。網(wǎng)上有許多關(guān)于數(shù)字技術(shù)與人文社科結(jié)合的學(xué)習(xí)資源,雖然可能僅限于了解如何對(duì)問(wèn)題進(jìn)行建模,但在學(xué)習(xí)專業(yè)課程時(shí),可以思考某個(gè)問(wèn)題為什么可以或不可以被數(shù)字技術(shù)建模。不要過(guò)于焦慮,如果對(duì)交叉領(lǐng)域感興趣,可以主動(dòng)去學(xué)習(xí)更多的AI相關(guān)的數(shù)理課程,譬如說(shuō)線性代數(shù)和機(jī)器學(xué)習(xí)基礎(chǔ)。更重要地是,要學(xué)會(huì)如何表述一個(gè)問(wèn)題,思考如何將一個(gè)人文歷史問(wèn)題轉(zhuǎn)化為可操作的分析問(wèn)題,明確輸入和輸出,或者如何利用數(shù)字工具輔助研究,這是非數(shù)理技術(shù)專業(yè)的學(xué)者需要培養(yǎng)的重要能力。

講座現(xiàn)場(chǎng)



 

熱門(mén)文章排行

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)