喬姆斯基對(duì)語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)和哲學(xué)有深刻貢獻(xiàn),同時(shí)他也是在世的最有影響力的知識(shí)分子之一。有人說(shuō)他位列有史以來(lái)引用數(shù)最高的十位思想者,這話即使不完全準(zhǔn)確,應(yīng)該也很接近。用Google Ngram查一下:他的名聲和維特根斯坦差不多,高于波普爾、托爾斯泰、圖靈和哥德?tīng)?,但遜于羅素,更不要說(shuō)愛(ài)因斯坦、牛頓和希臘三賢。
ChatGPT 2022年底橫空出世。2023年3月8日,近九十五歲的喬姆斯基應(yīng)《紐約時(shí)報(bào)》之邀發(fā)表文章:The False Promise of ChatGPT,如文題所示,喬姆斯基對(duì)ChatGPT不買賬。文中用了一個(gè)幾乎在他老人家所有著作中都出現(xiàn)過(guò)的例句:John is too stubborn to talk to。喬姆斯基認(rèn)為機(jī)器會(huì)把這個(gè)句子理解為:John太固執(zhí)不愿意和人談話;而不會(huì)正確地理解其本意:John不可理喻。但網(wǎng)民們把這個(gè)例句丟給ChatGPT:ChatGPT準(zhǔn)確地知道這個(gè)句子的深層含義。喬姆斯基被打了臉。喬姆斯基對(duì)他年輕時(shí)代的新興學(xué)科如計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)的前沿成果了如指掌,但對(duì)大語(yǔ)言模型卻持忽視態(tài)度。斯坦福大學(xué)的計(jì)算語(yǔ)言學(xué)家克里斯·曼寧(Chris Manning)在推文中說(shuō):“看到一位年輕時(shí)深刻的創(chuàng)新者,現(xiàn)在卻保守地阻礙激動(dòng)人心的新方法,真是令人悲傷?!边@大概也是崇拜過(guò)喬姆斯基的兩代人的普遍失望:?jiǎn)汤蠣斃狭?。?dāng)然,期盼年過(guò)九旬的喬姆斯基親手微調(diào)大語(yǔ)言模型,是不公平的。
喬姆斯基其人
喬姆斯基的父母和那時(shí)大多數(shù)猶太人一樣都是復(fù)國(guó)主義者,同時(shí)有強(qiáng)烈的不自私的社會(huì)主義色彩。作為左派猶太家庭的孩子,喬姆斯基十二歲就涉足政治,他的政治態(tài)度受他老師哈里斯的影響,不信布爾什維克,也反猶太復(fù)國(guó)主義。喬姆斯基剛結(jié)婚時(shí)曾考慮到遷居以色列,反諷的是,他出名后因?yàn)榉椽q立場(chǎng),被以色列拒絕簽證。他1960年代因參與反越戰(zhàn)活動(dòng),曾被美國(guó)政府關(guān)押。他的同牢房獄友是諾曼·梅勒,梅勒說(shuō)他是個(gè)書(shū)呆子,在監(jiān)獄里還在擔(dān)心沒(méi)法給學(xué)生上課怎么辦。他1970年冒險(xiǎn)訪問(wèn)越南和老撾。為了保護(hù)喬姆斯基,麻省理工學(xué)院一度雇了兩個(gè)專職保鏢——相較于雞賊的鄰居哈佛,麻省理工更富理想和勇氣。喬姆斯基的最新政論書(shū)《美國(guó)夢(mèng)安魂曲》表現(xiàn)出他的博學(xué),我們甚至有信心他可以成為一個(gè)絕妙的美國(guó)憲法律師。他的政治立場(chǎng)也并非一成不變,但有一個(gè)基本原則:永遠(yuǎn)站在弱勢(shì)一邊,借用那個(gè)“墻和雞蛋”的比喻,喬姆斯基永遠(yuǎn)是那個(gè)雞蛋,具體地說(shuō),就是反美反猶。在評(píng)論拉美政治時(shí),喬姆斯基居然堅(jiān)定支持篤信天主教的神父?jìng)?。基辛格影響力如日中天時(shí),喬姆斯基曾是他的激烈批評(píng)者?;粮裨诖笱蟮牧硪贿呉恢笔窍沭G餑,但現(xiàn)在的大多數(shù)美國(guó)年輕人甚至不知道此人的存在?;粮裼悬c(diǎn)像西洋參,所有美國(guó)華人回國(guó)探親前都會(huì)在中國(guó)商店買點(diǎn)回國(guó)送人,但西洋參真不西洋。
喬姆斯基1970年攝于麻省理工
簡(jiǎn)單地說(shuō),“柏拉圖之問(wèn)”和“奧威爾之問(wèn)”是驅(qū)動(dòng)喬姆斯基一生的兩條主線?!鞍乩瓐D之問(wèn)”即后人所謂“刺激貧乏論”(poverty of stimulus):在可借鑒的事物極端貧乏的情況下,人類是如何獲取如此豐富的知識(shí)的;而“奧威爾之問(wèn)”恰相反:在可借鑒事物如此之多的情況下,人類所知為何如此之少。奧威爾是第一人稱敘事,他曾說(shuō):“每個(gè)生命從內(nèi)部看都是一串失敗?!保ˋny life, when viewed from the inside, is simply a series of defeats.)第一人稱敘事者少有樂(lè)觀派。喬姆斯基做學(xué)問(wèn)時(shí),貼近柏拉圖,而從事政治活動(dòng)時(shí),遵循奧威爾。在他麻省理工學(xué)院辦公室里,曾經(jīng)掛著一幅巨大的羅素照片,大有羅素之后舍我其誰(shuí)的架勢(shì)。語(yǔ)言學(xué)之于喬姆斯基,就像邏輯學(xué)之于羅素。他們都關(guān)心政治和社會(huì)進(jìn)步,承認(rèn)平等的同時(shí)也強(qiáng)調(diào)自由。在喬姆斯基心中,奧威爾大概會(huì)排在羅素之前。喬姆斯基不是一般意義的左派,他是無(wú)政府主義者。
喬姆斯基雖自稱是理性主義者,但內(nèi)心卻鄙視現(xiàn)代歐陸哲學(xué)。他和法國(guó)人??碌膶?duì)談,被歐陸學(xué)界引申,但喬姆斯基自己則稱兩人不是嚴(yán)肅的對(duì)話,只是看看不借助翻譯是否能聽(tīng)懂彼此的母語(yǔ)。喬姆斯基直言德里達(dá)、拉康和福柯等法國(guó)文科知識(shí)分子是“騙子”“文盲”“邪教”。他對(duì)反智極端憤恨。
如果看喬姆斯基過(guò)去二十年的著作和訪談,翻來(lái)覆去都是講同樣的幾件事,核心立場(chǎng)并無(wú)大變。他的所有采訪都被編輯成書(shū)。他講話雖然少有激情,但語(yǔ)言嚴(yán)謹(jǐn)清晰且通俗,這是他能海量出版的原因,只要把演講和采訪的錄音轉(zhuǎn)為文字就可以了,幾乎不用修改?!墩Z(yǔ)言科學(xué)》(The Science of Language)一書(shū)是加拿大語(yǔ)言哲學(xué)家詹姆斯·麥吉爾弗雷(James McGilvray)對(duì)喬姆斯基的采訪記錄,這是喬姆斯基思想最通俗易懂的介紹。喬姆斯基認(rèn)為笛卡爾和休謨之后,哲學(xué)家已經(jīng)普遍落后于時(shí)代,只有少數(shù)幾個(gè)哲學(xué)家是例外:康德、弗里格、羅素和美國(guó)哲學(xué)家中唯一被他佩服的皮爾士?!墩Z(yǔ)言與心智》(Languages and Mind)是根據(jù)喬姆斯基1967年在加州大學(xué)伯克利分校的三次貝克曼講座的內(nèi)容整理而成,到2006年出第三版時(shí)增加了生物語(yǔ)言學(xué)的內(nèi)容,篇幅增加了近一倍。更新版的《我們是誰(shuí)》(What Kind of Creatures Are We)很可讀,最后一章顯示出他對(duì)科學(xué)史的廣泛涉獵。如果把這幾本書(shū)當(dāng)作喬姆斯基本人的著述,別人寫(xiě)的必讀書(shū)肯定包括英國(guó)語(yǔ)言學(xué)家萊昂斯(John Lyons)的《喬姆斯基》,這書(shū)附有術(shù)語(yǔ)表,解釋喬姆斯基特定的術(shù)語(yǔ)。另一位英國(guó)語(yǔ)言學(xué)家尼爾·史密斯(Neil Smith)寫(xiě)的喬姆斯基學(xué)述更加全面,除了語(yǔ)言學(xué),還公平地評(píng)論了他的政治,書(shū)名就叫Ideas and Ideals, 很明顯,Ideas指學(xué)問(wèn),Ideals指政治。
1953年喬姆斯基和新婚妻子卡羅爾去歐洲度假,在從蒙特利爾到鹿特丹的跨洋破船上,喬姆斯基嚴(yán)重暈船,于是躺平,開(kāi)始重新審視他老師哈里斯的結(jié)構(gòu)語(yǔ)言學(xué)。他想出了廣義文法(Universal Grammar,UG)。喬姆斯基從與他同年的數(shù)學(xué)家、邏輯學(xué)家馬丁·戴維斯處了解到戴維斯的老師、邏輯學(xué)家波斯特(Post)的工作。喬姆斯基早期最有影響的文章《語(yǔ)言描述的三個(gè)模型》(Three Models for the Description of Language,1956)中引用了數(shù)學(xué)家羅森布魯姆(Paul C. Rosenbloom)的教科書(shū)《數(shù)理邏輯要素》(The Elements of Mathematical Logic),其中正式地講述了產(chǎn)生式系統(tǒng)。這篇文章后來(lái)衍生出喬姆斯基分層,對(duì)語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)都有深刻影響:?jiǎn)棠匪够?0型文法(遞歸可枚舉語(yǔ)言)等價(jià)于圖靈機(jī),1型文法(上下文相關(guān)語(yǔ)言)等價(jià)于線性有界非確定圖靈機(jī),2型文法(上下文無(wú)關(guān)語(yǔ)言)等價(jià)于非確定下壓自動(dòng)機(jī),3型文法就是碼農(nóng)們熟悉的正則表達(dá)式,等價(jià)于有限自動(dòng)機(jī)?!岸陶Z(yǔ)結(jié)構(gòu)文法”(phrase structure grammar),在喬姆斯基早期著作中不嚴(yán)格地用來(lái)泛指Post系統(tǒng),但后來(lái)則特指1型和2型文法。對(duì)編程語(yǔ)言有巨大影響的Algol-60語(yǔ)言是用BNF(巴克斯-諾爾范式)描述的,而B(niǎo)NF就是上下文無(wú)關(guān)文法。喬姆斯基認(rèn)為短語(yǔ)結(jié)構(gòu)文法不足以描述自然語(yǔ)言。除了四層分法,還有五層分法,即在常規(guī)的0型和1型之間,加個(gè)遞歸語(yǔ)言(recursive language),遞歸與遞歸可枚舉的區(qū)別在于對(duì)應(yīng)的圖靈機(jī)是不是可停機(jī)。再講下去需要點(diǎn)數(shù)學(xué)和計(jì)算理論的知識(shí),就此打住。語(yǔ)言學(xué)家馮志偉先生的《現(xiàn)代語(yǔ)言學(xué)流派》可作為進(jìn)一步的入門參考。
喬姆斯基最重要的著作《語(yǔ)言學(xué)理論的邏輯結(jié)構(gòu)》完成于1955年,他的博士論文取自這書(shū)。他把打字稿交給麻省理工學(xué)院出版社,想作為專著出版,但審稿的語(yǔ)言學(xué)家們并不認(rèn)可,回復(fù)是這樣一個(gè)初出茅廬的年輕人提出的非常規(guī)思路應(yīng)該先寫(xiě)成論文交給學(xué)術(shù)刊物,待學(xué)術(shù)界認(rèn)可后再出書(shū)。但喬姆斯基關(guān)于此題材的第一篇論文恰被拒稿。審稿者根本就沒(méi)看,直接將原件寄回?!叭齻€(gè)模型”一文最終還是在美國(guó)電氣電子工程師學(xué)會(huì)IEEE的前身IRE組織的信息論會(huì)議上宣讀,后來(lái)正式發(fā)表于IRE的《信息論學(xué)報(bào)》。喬姆斯基在這次會(huì)上結(jié)識(shí)了參會(huì)的數(shù)學(xué)家所羅門諾夫,他在會(huì)上也宣讀了一篇文章,并由此開(kāi)辟了算法信息論。兩人互相啟發(fā),所羅門諾夫早期文章常引用喬姆斯基的生成文法。如果他也像喬老爺這么長(zhǎng)壽,就能夠活著欣慰地看到:是算法信息論為ChatGPT奠定了理論基礎(chǔ),這個(gè)故事值得另一篇長(zhǎng)文,暫且不表。
《語(yǔ)言學(xué)理論的邏輯結(jié)構(gòu)》
喬姆斯基的伯樂(lè)是比他年長(zhǎng)幾歲的同校青年教授,一位是認(rèn)知心理學(xué)的創(chuàng)立者之一喬治·米勒(George Miller)和猶太裔語(yǔ)言學(xué)家莫里斯·哈利(Morris Halle)。米勒是最早看過(guò)《語(yǔ)言學(xué)理論的邏輯結(jié)構(gòu)》的人。哈利看了喬姆斯基給本科生上課的講稿,推薦給Mouton出版社作為現(xiàn)代語(yǔ)言學(xué)叢書(shū)的一個(gè)小冊(cè)子先出版了,這就是《句法結(jié)構(gòu)》。這本科普書(shū)好評(píng)如潮,奠定了喬姆斯基在語(yǔ)言學(xué)界的地位,而更學(xué)術(shù)的《語(yǔ)言學(xué)理論的邏輯結(jié)構(gòu)》則要到二十年后才正式出版。他的語(yǔ)言學(xué)經(jīng)歷了幾個(gè)階段的變化:1950年代轉(zhuǎn)換生成文法,1960年代標(biāo)準(zhǔn)理論,1970年代管轄與約束(government和binding),1980年代最簡(jiǎn)方案。平克曾經(jīng)用“文革”語(yǔ)言戲稱喬老爺語(yǔ)言學(xué)思想的變化為“繼續(xù)革命”,但他的核心思想——“思維是由語(yǔ)言生成的”(這里簡(jiǎn)稱“思維即語(yǔ)言”或“語(yǔ)言即思維”),從來(lái)沒(méi)有變過(guò)。
思維即語(yǔ)言?
喬姆斯基的理論在語(yǔ)言學(xué)界被認(rèn)為是開(kāi)天辟地的,所謂“喬姆斯基革命”。但從計(jì)算機(jī)科學(xué)和邏輯學(xué)的角度看,它是自然的。喬姆斯基承認(rèn)廣義文法(UG)受到波斯特的啟發(fā)??上Рㄋ固丶葲](méi)有被邏輯學(xué)家(如哥德?tīng)枺┬蕾p,也沒(méi)有被數(shù)學(xué)家包容。相較于計(jì)算機(jī)科學(xué),語(yǔ)言學(xué)是遲鈍的:計(jì)算機(jī)科學(xué)幾乎與相應(yīng)的數(shù)理邏輯同步,當(dāng)哥德?tīng)柡秃2畟?1934年定義了廣義遞歸函數(shù),圖靈1936年就發(fā)明了圖靈機(jī);而波斯特的工作要到1956年才被喬姆斯基引入語(yǔ)言學(xué)。喬姆斯基之前,語(yǔ)言學(xué)是文科,喬老爺力圖把語(yǔ)言學(xué)變成自然科學(xué)。喬姆斯基稱第一次認(rèn)知革命發(fā)生在十七世紀(jì),主角是笛卡爾;而第二次認(rèn)知革命發(fā)生在1950年代的麻省理工。喬姆斯基甚至把“思維即語(yǔ)言”回溯到基督教楊森派主要人物阿爾諾(Arnauld)寫(xiě)的《王港語(yǔ)法》,阿爾諾和同時(shí)代的笛卡爾和帕斯卡相熟,并深受他們影響。也有語(yǔ)言學(xué)史家認(rèn)為喬姆斯基誤讀了《王港語(yǔ)法》。
與英美經(jīng)驗(yàn)主義傳統(tǒng)不同,喬姆斯基自稱是理性主義者,他的語(yǔ)言學(xué)理論也被他冠以笛卡爾語(yǔ)言學(xué)的帽子。在語(yǔ)言是區(qū)分智人和其他物種的決定性因素上,認(rèn)知科學(xué)家和進(jìn)化心理學(xué)家都同意喬姆斯基。但在語(yǔ)言的來(lái)源上,喬姆斯基和大家有明顯分歧。波普爾和平克等認(rèn)為語(yǔ)言是進(jìn)化的產(chǎn)物,所謂漸進(jìn)派;而喬姆斯基則認(rèn)為語(yǔ)言是突現(xiàn)的,他自稱“跳躍”(saltation)派。
喬姆斯基不斷地引用洪堡的說(shuō)法“語(yǔ)言是有限手段的無(wú)限運(yùn)用”。他提出的一個(gè)極為簡(jiǎn)單的機(jī)制:“合并”(merge),其實(shí)是一種原始的遞歸機(jī)制,考慮到通用遞歸函數(shù)等價(jià)于圖靈機(jī),我們不驚奇“合并”機(jī)制可以解釋所有的語(yǔ)法現(xiàn)象。對(duì)喬姆斯基來(lái)說(shuō),只要能找到“合并”的生物學(xué)解釋,他的計(jì)劃就可以變成科學(xué)理論了——他目前都以更加謙遜的“計(jì)劃”(program)而不是“理論”來(lái)指稱自己的研究。如果“合并”的生物學(xué)解釋成立,那么這不過(guò)是丘奇-圖靈論題的一個(gè)生物學(xué)支持證據(jù)而已。如果承認(rèn)語(yǔ)言等于思維,實(shí)際上承認(rèn)了圖靈機(jī)可以思維。
語(yǔ)言學(xué)家說(shuō)“思維即語(yǔ)言”,有點(diǎn)像物理學(xué)家(例如網(wǎng)紅邁克斯·泰格馬克)說(shuō)“數(shù)學(xué)等于物理”。常人看,思維肯定大于語(yǔ)言,而數(shù)學(xué)也大于物理。圖靈測(cè)試是語(yǔ)言能力的測(cè)試,無(wú)關(guān)其他模態(tài)。十幾年前深度學(xué)習(xí)能火起來(lái),是因?yàn)樯窠?jīng)網(wǎng)絡(luò)解決了語(yǔ)音和視覺(jué)問(wèn)題,但那時(shí)人們只是興奮。GPT卻令人驚喜甚至震撼。無(wú)論是語(yǔ)音還是視覺(jué),我們都認(rèn)為這是增強(qiáng)人的能力。但直到2022年ChatGPT在語(yǔ)言能力的突破才使人意識(shí)到人性可能被冒犯。語(yǔ)言要比聽(tīng)覺(jué)和視覺(jué)更接近人性。
喬姆斯基認(rèn)為語(yǔ)言的交流功能是思想功能的外化,思想在先,交流在后。他還認(rèn)為人類可能在十萬(wàn)到五萬(wàn)年前因?yàn)榛蛲蛔?,?dǎo)致了遞歸枚舉能力。這種突變可能在人類更早的歷史上發(fā)生過(guò)多次,只不過(guò)這次有了顯著的群體效果。感覺(jué)-運(yùn)動(dòng)系統(tǒng)(sensory-motor)是語(yǔ)言外化的結(jié)果。喬姆斯基的妻子卡羅爾是麻省理工學(xué)院的生物語(yǔ)言學(xué)家,她研究過(guò)兩歲前得過(guò)腦膜炎的兒童,他們喪失了視覺(jué)和聽(tīng)覺(jué),但還保留有觸覺(jué)。他們能通過(guò)觸覺(jué)補(bǔ)償語(yǔ)言能力,從而能思維。這證明了語(yǔ)言是比其他感知模態(tài)更加基礎(chǔ)的官能。
GPT的G就是喬姆斯基生成文法中所謂“生成”。喬姆斯基最出名的例句大概是:Colorless green ideas sleep furiously. 這個(gè)生成的句子被傳統(tǒng)經(jīng)驗(yàn)主義者批判為“虛無(wú)”,但很多詩(shī)人贊賞這個(gè)句子,稱其富有禪意。按照當(dāng)下流行的GPT術(shù)語(yǔ),就是“幻覺(jué)”(hallucination),或者創(chuàng)造力。
喬姆斯基雖不愿承認(rèn)還原論,但他的方法論本質(zhì)上還是還原論的:他企圖找到語(yǔ)言的生物學(xué)基礎(chǔ)。他稱贊圖靈把生物學(xué)問(wèn)題還原到物理學(xué)問(wèn)題——圖靈1952年做過(guò)形態(tài)學(xué)(Chemical Basis of Morphogenesis)。牛頓也很困惑萬(wàn)有引力不能歸約到機(jī)械力學(xué),即任何運(yùn)動(dòng)必須有某種物理的推動(dòng)。喬姆斯基不認(rèn)可經(jīng)驗(yàn)主義和行為主義,他有時(shí)也稱之為馬赫主義。他認(rèn)為深度學(xué)習(xí)就是當(dāng)代的行為主義。洛克說(shuō)心靈是白板,萊布尼茨說(shuō)心靈不是白板,而是有紋理的大理石板。雖然圖靈測(cè)試被看作是行為主義的,但一個(gè)基本假設(shè)是數(shù)據(jù)是喂給圖靈機(jī)的,而圖靈機(jī)不是白板。經(jīng)驗(yàn)主義者也不得不承認(rèn)思維源于某種有組織的物質(zhì)(organized matter)。如果承認(rèn)丘奇-圖靈論題,那么所謂“有組織的物質(zhì)”和理性主義者所謂“紋理”都可被看作是圖靈機(jī)或者與之等價(jià)的“語(yǔ)言官能”。經(jīng)驗(yàn)主義者會(huì)把學(xué)習(xí)看作記憶,而承認(rèn)丘奇-圖靈論題的人會(huì)把學(xué)習(xí)看作壓縮。通用人工智能(AGI)不過(guò)是不熟悉計(jì)算理論的人提出的口號(hào),如果我們認(rèn)可語(yǔ)言即思維,那么,AGI的標(biāo)準(zhǔn)就是語(yǔ)言,無(wú)關(guān)乎其他模態(tài),這就又回到圖靈測(cè)試。
思維不等于語(yǔ)言?
塔南鮑姆(Joshua Tenenbaum)是麻省理工學(xué)院大腦與認(rèn)知科學(xué)系的學(xué)術(shù)新星。他父親曾是1980年代硅谷人工智能重鎮(zhèn)Schlumberger實(shí)驗(yàn)室的掌門人,后來(lái)連環(huán)創(chuàng)業(yè),我和老塔同事時(shí),小塔還沒(méi)上高中,現(xiàn)在居然成了大佬。ChatGPT出來(lái)后,小塔跟風(fēng),企圖標(biāo)新立異這樣一種觀點(diǎn):大語(yǔ)言模型解決了語(yǔ)言問(wèn)題,但還是不能思維。他和幾位同道學(xué)生在arXiv上掛了篇文章Dissociating Language and Thought in Large Language Models: A Cognitive Perspective,標(biāo)題一目了然:分離語(yǔ)言與思維。他們把語(yǔ)言能力分為形式能力(formal competence)和功能能力(functional competence),結(jié)論大致是大語(yǔ)言模型解決了形式能力,而沒(méi)有解決功能能力,所以思維不等于語(yǔ)言。小塔所謂“功能能力”就是用言語(yǔ)同世界打交道,換算成大模型的術(shù)語(yǔ)就是“多模態(tài)”。其實(shí),他們對(duì)語(yǔ)言能力的劃分,都是喬姆斯基玩剩下的,喬老爺早就有內(nèi)部語(yǔ)言(I-語(yǔ)言)與外部語(yǔ)言(E-語(yǔ)言)之分,內(nèi)部語(yǔ)言是天生的能力(competence),外部語(yǔ)言用于行為(performance),這本就是兩件不同的事情。小塔的“功能能力”對(duì)應(yīng)于喬老爺?shù)耐獠空Z(yǔ)言。內(nèi)部語(yǔ)言受制于生物、數(shù)學(xué)和物理的約束。喬姆斯基應(yīng)該認(rèn)可丘奇-圖靈論題的某個(gè)版本。任何相信丘奇-圖靈論題的人不會(huì)是純粹的理性主義者,也不會(huì)是純粹的經(jīng)驗(yàn)主義者。喬姆斯基-0型文法等價(jià)于圖靈機(jī),所謂“語(yǔ)言官能”(language faculty)等價(jià)于某種自動(dòng)機(jī)。這間接地支持思維即語(yǔ)言的論斷。
塔南鮑姆
內(nèi)部語(yǔ)言關(guān)乎“真”,尺度是內(nèi)在一致性;而外部語(yǔ)言關(guān)乎“意義”,尺度是外在對(duì)應(yīng)性。意義得自交流,維特根斯坦所謂“意義即使用”,或者約翰·奧斯汀所謂“以言行事”(do things with words),“言語(yǔ)行為”都是指外部語(yǔ)言。外部語(yǔ)言對(duì)應(yīng)于工程師們感興趣的 embodied intelligence(中文別扭地翻譯為“具身智能”)或“多模態(tài)”(視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)。意義是功能層在與外界交互時(shí)進(jìn)行強(qiáng)化學(xué)習(xí)的過(guò)程。喬老爺認(rèn)為外部語(yǔ)言是交流而不是思維。小塔并沒(méi)有提出什么新東西。即使馬斯克這樣聰明的工程師也認(rèn)為自動(dòng)駕駛之類的具身智能是狹隘的(narrow form),要遠(yuǎn)比人們想象的簡(jiǎn)單,這很明顯要比喜歡討好大眾的小塔更加有洞見(jiàn)。
承認(rèn)思維即語(yǔ)言,對(duì)工程實(shí)踐也會(huì)有影響。設(shè)計(jì)多模態(tài)大模型時(shí),承認(rèn)派會(huì)把語(yǔ)言模型作為基座,其他模態(tài)坐在基座之上,不同模態(tài)之間的溝通也通過(guò)基座進(jìn)行。但否認(rèn)派可能企圖直接在任意模態(tài)之間建立映射,這明顯不經(jīng)濟(jì)。
設(shè)想在火星上做自動(dòng)駕駛,如果所有的停車標(biāo)志(STOP)都是綠色的,難道我們需要拿所有的數(shù)據(jù)重新訓(xùn)練一遍火星自動(dòng)駕駛大模型嗎?如果駕駛員是人,一條簡(jiǎn)單的指令:“注意!停車標(biāo)志是綠色的”,就足以讓人適應(yīng)新的駕駛場(chǎng)景。難道在大語(yǔ)言模型上不可以用一條簡(jiǎn)單的提示或者“咒語(yǔ)”(prompt):“把所有停車標(biāo)志的顏色替換成綠色”嗎?事實(shí)上,1970年代普渡大學(xué)的傅京孫就曾經(jīng)用語(yǔ)言學(xué)的手段研究視覺(jué),當(dāng)時(shí)不被廣泛認(rèn)可??上⒛暝缡?。如果在“思維即語(yǔ)言”的立場(chǎng)重新審視視覺(jué),傅京孫可算得高瞻遠(yuǎn)矚。
大語(yǔ)言模型的可解釋性
2000年,麻省理工學(xué)院的人文社科學(xué)院成立五十年的慶祝大會(huì)上,喬姆斯基、普特南和平克三人參加一個(gè)論壇,題為“關(guān)于人性,我們知道什么?”(What Do We Know About Human Nature?)這場(chǎng)論壇被組織者稱為“三大男高音”齊聚。從休謨起,人性的核心是思維。平克把認(rèn)知革命歸功于喬姆斯基。喬老爺和普特南曾經(jīng)在賓夕法尼亞大學(xué)同學(xué),立場(chǎng)偶有不同,但彼此尊重。 2011年5月,麻省理工學(xué)院為配合一百五十周年校慶,召開(kāi)名為“大腦、心、機(jī)器”的研討會(huì)(Brain, Mind and Machine Symposium),本校的幾位大佬喬姆斯基、明斯基、溫斯頓等悉數(shù)出席,并由平克主持。喬姆斯基批評(píng)當(dāng)時(shí)重新開(kāi)始流行的神經(jīng)網(wǎng)絡(luò)是黑盒子:沒(méi)有提供解釋和知識(shí)。麻省理工學(xué)院主辦的《技術(shù)評(píng)論》雜志為這個(gè)研討會(huì)發(fā)了專文,標(biāo)題故意挑事兒:“不會(huì)思維的機(jī)器”(Unthinking Machines)。時(shí)任谷歌研發(fā)總監(jiān)的諾維格(Peter Norvig)很快回應(yīng)喬姆斯基,他批評(píng)語(yǔ)言學(xué)的規(guī)則在自然語(yǔ)言處理上,根本就沒(méi)用?,F(xiàn)在看,諾維格的工程實(shí)踐還真給了他一些先知先覺(jué)。有人用“兩種文化”來(lái)總結(jié)喬姆斯基和諾維格的隔空掐架。
喬姆斯基
語(yǔ)言問(wèn)題曾被理所應(yīng)當(dāng)?shù)卣J(rèn)為是邏輯的,現(xiàn)在卻被用神經(jīng)網(wǎng)絡(luò)得到滿意地解決,這本身就是令人驚奇的。工程師們甚至認(rèn)為語(yǔ)言的中間任務(wù)(詞分析、句法分析、語(yǔ)義分析)已經(jīng)不需要認(rèn)真對(duì)待了,因?yàn)镃hatGPT代表的大模型對(duì)語(yǔ)言學(xué)問(wèn)題給出了端到端的解決辦法。語(yǔ)言學(xué)家就是研究各種中間步驟的,中間步驟就是解釋。其實(shí)在1990年代統(tǒng)計(jì)方法被引入之后,自然語(yǔ)言處理(NLP)就越來(lái)越不需要語(yǔ)言學(xué)了,曾有玩笑:NLP團(tuán)隊(duì)每開(kāi)除一個(gè)語(yǔ)言學(xué)家,系統(tǒng)的性能就提升一個(gè)臺(tái)階。估計(jì)令喬姆斯基沮喪的是:大語(yǔ)言模型把自己的工作徹底搞丟了。諾維格的合作者、伯克利教授斯圖亞特·羅素(Stuart Russell)的態(tài)度則一直溫和得多。他懷疑ChatGPT的良好表現(xiàn)是不是碰巧碰上的。他說(shuō):“如今的自然語(yǔ)言處理不再研究語(yǔ)言,我認(rèn)為這是非常不幸的?!边@和喬姆斯基的態(tài)度差不多,斯圖亞特·羅素仍然把希望寄托于知識(shí)和推理。他們都認(rèn)為ChatGPT是工程而不是關(guān)乎語(yǔ)言的科學(xué)。人類專屬的技能不多了,難道我們要等到機(jī)器證明了黎曼猜想才能被徹底折服嗎?
喬姆斯基與笛卡爾的不同之處在于,喬姆斯基并不是試圖在心身之間劃一條明確界限的二元論者。這么說(shuō),和晚年蒯因的“整體主義”也沒(méi)啥太大區(qū)別,都接近皮爾士的實(shí)用主義。相同的是,他們都認(rèn)為語(yǔ)言是人的獨(dú)有能力,但喬姆斯基用語(yǔ)言作為人和動(dòng)物的劃界,而笛卡爾用語(yǔ)言作為人和機(jī)器的劃界。笛卡爾認(rèn)為人類語(yǔ)言是任何自動(dòng)機(jī)也不能實(shí)現(xiàn)的,他大概不會(huì)認(rèn)可丘奇-圖靈論題。
喬姆斯基曾說(shuō)他自己的方法是“伽利略式”的,也就是從小數(shù)據(jù)里找尋基本定律,而不是用大數(shù)據(jù)構(gòu)建黑盒子。但如果人人都有低成本的黑盒子,誰(shuí)還要麻煩基本定律呢?雖然喬姆斯基在技術(shù)上對(duì)ChatGPT可能有所誤判,但他“思維即語(yǔ)言”的立場(chǎng)卻是大語(yǔ)言模型引發(fā)的這場(chǎng)革命的哲學(xué)基礎(chǔ)之一。