注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁新聞資訊書摘

真正讓ChatGPT發(fā)揮作用的是什么

人類語言,及其生成所涉及的思維過程,一直被視為復(fù)雜性的巔峰。人類大腦“僅”有約1000億個神經(jīng)元(及約100萬億個連接),卻能夠做到這一切,確實令人驚嘆。

人類語言,及其生成所涉及的思維過程,一直被視為復(fù)雜性的巔峰。人類大腦“僅”有約1000億個神經(jīng)元(及約100萬億個連接),卻能夠做到這一切,確實令人驚嘆。人們可能會認(rèn)為,大腦中不只有神經(jīng)元網(wǎng)絡(luò),還有某種具有尚未發(fā)現(xiàn)的物理特性的新層。但是有了ChatGPT之后,我們得到了一條重要的新信息:一個連接數(shù)與大腦神經(jīng)元數(shù)量相當(dāng)?shù)募兇獾娜斯ど窠?jīng)網(wǎng)絡(luò),就能夠出色地生成人類語言。

這仍然是一個龐大而復(fù)雜的系統(tǒng),其中的神經(jīng)網(wǎng)絡(luò)權(quán)重幾乎與當(dāng)前世界上可用文本中的詞一樣多。但在某種程度上,似乎仍然很難相信語言的所有豐富性和它能談?wù)摰氖挛锒伎梢员环庋b在這樣一個有限的系統(tǒng)中。這里面的部分原理無疑反映了一個普遍現(xiàn)象(這個現(xiàn)象最早在規(guī)則30[1]的例子中變得顯而易見):即使基礎(chǔ)規(guī)則很簡單,計算過程也可以極大地放大系統(tǒng)的表面復(fù)雜性。但是,正如上面討論的那樣,ChatGPT使用的這種神經(jīng)網(wǎng)絡(luò)實際上往往是特別構(gòu)建的,以限制這種現(xiàn)象(以及與之相關(guān)的計算不可約性)的影響,從而使它們更易于訓(xùn)練。

那么,ChatGPT是如何在語言方面獲得如此巨大成功的呢?我認(rèn)為基本答案是,語言在根本上比它看起來更簡單。這意味著,即使是具有簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的ChatGPT,也能夠成功地捕捉人類語言的“本質(zhì)”和背后的思維方式。此外,在訓(xùn)練過程中,ChatGPT 已經(jīng)通過某種方式“隱含地發(fā)現(xiàn)”了使這一切成為可能的語言(和思維)規(guī)律。

我認(rèn)為,ChatGPT的成功為一個基礎(chǔ)而重要的科學(xué)事實向我們提供了證據(jù):它表明我們?nèi)匀豢梢云诖軌虬l(fā)現(xiàn)重大的新“語言法則”,實際上是“思維法則”。在ChatGPT中,由于它是一個神經(jīng)網(wǎng)絡(luò),這些法則最多只是隱含的。但是,如果我們能夠通過某種方式使這些法則變得明確,那么就有可能以更直接、更高效和更透明的方式做出ChatGPT所做的那些事情。

這些法則可能是什么樣子的呢?最終,它們必須為我們提供某種關(guān)于如何組織語言及其表達(dá)方式的指導(dǎo)。我們稍后將討論“在ChatGPT內(nèi)部”可能如何找到一些線索,并根據(jù)構(gòu)建計算語言的經(jīng)驗探索前進(jìn)的道路。但首先,讓我們討論兩個早已知曉的“語言法則”的例子,以及它們與ChatGPT的運作有何關(guān)系。

第一個是語言的語法。語言不僅僅是把一些詞隨機拼湊在一起。相反,不同類型的詞之間有相當(dāng)明確的語法規(guī)則。例如,在英語中,名詞的前面可以有形容詞、后面可以有動詞,但是兩個名詞通常不能挨在一起。這樣的語法結(jié)構(gòu)可以通過一組規(guī)則來(至少大致地)捕捉,這些規(guī)則定義了如何組織所謂的“解析樹”。

ChatGPT并不明確地“了解”這些規(guī)則。但在訓(xùn)練過程中,它隱含地發(fā)現(xiàn)了這些規(guī)則,并且似乎擅長遵守它們。這里的原理是什么呢?在“宏觀”上還不清楚。但是為了獲得一些見解,也許可以看看一個更簡單的例子。

考慮一種由“(”和“)”的序列組成的“語言”,其語法規(guī)定括號應(yīng)始終保持平衡,就像下面的解析樹一樣。

我們能訓(xùn)練神經(jīng)網(wǎng)絡(luò)來生成“語法正確”的括號序列嗎?在神經(jīng)網(wǎng)絡(luò)中,有各種處理序列的方法,但是這里像ChatGPT一樣使用Transformer網(wǎng)絡(luò)。給定一個簡單的Transformer網(wǎng)絡(luò),我們可以首先向它饋送語法正確的括號序列作為訓(xùn)練樣例。一個微妙之處(實際上也出現(xiàn)在ChatGPT的人類語言生成中)是,除了我們的“內(nèi)容標(biāo)記”[這里是“(”和“)”]之外,還必須包括一個“End”標(biāo)記,表示輸出不應(yīng)繼續(xù)下去了(即對于ChatGPT來說,已經(jīng)到達(dá)了“故事的結(jié)尾”)。

如果只使用一個有8個頭的注意力塊和長度為128的特征向量來設(shè)置Transformer網(wǎng)絡(luò)(ChatGPT也使用長度為128的特征向量,但有96個注意力塊,每個塊有96個頭),似乎不可能讓它學(xué)會括號語言。但是使用2個注意力塊,學(xué)習(xí)過程似乎會收斂——至少在給出1000萬個樣例之后(并且,與Transformer網(wǎng)絡(luò)一樣,展示更多的樣例似乎只會降低其性能)。

通過這個網(wǎng)絡(luò),我們可以做類似于ChatGPT所做的事情,詢問括號序列中下一個符號是什么的概率。

在第一種情況下,網(wǎng)絡(luò)“非常確定”序列不能在此結(jié)束——這很好,因為如果在此結(jié)束,括號將不平衡。在第二種情況下,網(wǎng)絡(luò)“正確地識別出”序列可以在此結(jié)束,盡管它也“指出”可以“重新開始”:下一個標(biāo)記是“(”,后面可能緊接著一個“)”。但糟糕的是,即使有大約400000個經(jīng)過繁重訓(xùn)練的權(quán)重,它仍然說下一個標(biāo)記是“)”的概率是15%——這是不正確的,因為這必然會導(dǎo)致括號不平衡。

如果要求網(wǎng)絡(luò)以最高概率補全逐漸變長的“(”序列,結(jié)果將如下所示。

在一定長度內(nèi),網(wǎng)絡(luò)是可以正常工作的。但是一旦超出這個長度,它就開始出錯。這是在神經(jīng)網(wǎng)絡(luò)(或廣義的機器學(xué)習(xí))等“精確”情況下經(jīng)常出現(xiàn)的典型問題。對于人類“一眼就能解決”的問題,神經(jīng)網(wǎng)絡(luò)也可以解決。但對于需要執(zhí)行“更算法式”操作的問題(例如明確計算括號是否閉合),神經(jīng)網(wǎng)絡(luò)往往會“計算過淺”,難以可靠地解決。順便說一句,即使是當(dāng)前完整的ChatGPT在長序列中也很難正確地匹配括號。

對于像ChatGPT這樣的程序和英語等語言的語法來說,這意味著什么呢?括號語言是“嚴(yán)謹(jǐn)”的,而且是“算法式”的。而在英語中,根據(jù)局部選詞和其他提示“猜測”語法上合適的內(nèi)容更為現(xiàn)實。是的,神經(jīng)網(wǎng)絡(luò)在這方面做得要好得多——盡管它可能會錯過某些“形式上正確”的情況,但這也是人類可能會錯過的。重點是,語言存在整體的句法結(jié)構(gòu),而且它蘊含著規(guī)律性。從某種意義上說,這限制了神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的內(nèi)容“多少”。一個關(guān)鍵的“類自然科學(xué)”觀察結(jié)果是,神經(jīng)網(wǎng)絡(luò)的Transformer架構(gòu),就像ChatGPT中的這個,好像成功地學(xué)會了似乎在所有人類語言中都存在(至少在某種程度上是近似的)的嵌套樹狀的句法結(jié)構(gòu)。

語法為語言提供了一種約束,但顯然還有更多限制。像“Inquisitive electrons eat blue theories for fish”(好奇的電子為了魚吃藍(lán)色的理論)這樣的句子雖然在語法上是正確的,但不是人們通常會說的話。ChatGPT即使生成了它,也不會被認(rèn)為是成功的——因為用其中的詞的正常含義解讀的話,它基本上是毫無意義的。

有沒有一種通用的方法來判斷一個句子是否有意義呢?這方面沒有傳統(tǒng)的總體理論。但是可以認(rèn)為,在用來自互聯(lián)網(wǎng)等處的數(shù)十億個(應(yīng)該有意義的)句子對ChatGPT進(jìn)行訓(xùn)練后,它已經(jīng)隱含地“發(fā)展出”了一個這樣的“理論”。

這個理論會是什么樣的呢?它的冰山一角基本上已經(jīng)為人所知了2000多年,那就是邏輯。在亞里士多德發(fā)現(xiàn)的三段論(syllogistic)形式中,邏輯基本上用來說明遵循一定模式的句子是合理的,而其他句子則不合理。例如,說“所有X都是Y。這不是Y,所以它不是X”(比如“所有的魚都是藍(lán)色的。這不是藍(lán)色的,所以它不是魚”)是合理的。就像可以異想天開地想象亞里士多德是通過(“機器學(xué)習(xí)式”地)研究大量修辭學(xué)例子來發(fā)現(xiàn)三段論邏輯一樣,也可以想象ChatGPT在訓(xùn)練中通過查看來自互聯(lián)網(wǎng)等的大量文本能夠“發(fā)現(xiàn)三段論邏輯”。(雖然可以預(yù)期ChatGPT會基于三段論邏輯等產(chǎn)生包含“正確推理”的文本,但是當(dāng)涉及更復(fù)雜的形式邏輯時,情況就完全不同了。我認(rèn)為可以預(yù)期它在這里失敗,原因與它在括號匹配上失敗的原因相同。)

除了邏輯的例子之外,關(guān)于如何系統(tǒng)地構(gòu)建(或識別)有合理意義的文本,還有什么其他可說的嗎?有,比如像Mad Libs?這樣使用非常具體的“短語模板”的東西。但是,ChatGPT似乎有一種更一般的方法來做到這一點。也許除了“當(dāng)你擁有1750億個神經(jīng)網(wǎng)絡(luò)權(quán)重時就會這樣”,就沒有什么別的可以說了。但是我強烈懷疑有一個更簡單、更有力的故事。

注釋

1.規(guī)則30是一個由本書作者在1983年提出的單維二進(jìn)制元胞自動機規(guī)則。這個簡單、已知的規(guī)則能夠產(chǎn)生復(fù)雜且看上去隨機的模式?!幷咦?/p>

本文摘自《這就是ChatGPT》。

《這就是ChatGPT》,【美】斯蒂芬·沃爾弗拉姆/著 WOLFRAM傳媒漢化小組/譯,人民郵電出版社,2023年7月版



熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號