價(jià)值對齊是人類通往未來的“必經(jīng)之路”嗎？

閆宏秀（上海交通大學(xué)科學(xué)史與科學(xué)文化研究院）；李洋（上海交通大學(xué)科學(xué)史與科學(xué)文化研究院） 2024-05-26 來源：

近年來，以大模型為代表的AI技術(shù)發(fā)展迅猛，掀起一波席卷全球的AI發(fā)展熱潮。

【主持人語：劉永謀（中國人民大學(xué)吳玉章講席教授）】近年來，以大模型為代表的AI技術(shù)發(fā)展迅猛，掀起一波席卷全球的AI發(fā)展熱潮。關(guān)注AI發(fā)展?fàn)顩r的人不限于AI的研發(fā)者、推廣者和AI發(fā)展的評論者、人文社科研究者，更包括深感生活將被AI深刻影響的普通公眾。AI發(fā)展的問題不再是純粹技術(shù)問題，而是成為某種意義上的公共議題。在最近OpenAI發(fā)布Sora、馬斯克開源Grok等一系列相關(guān)事件中，這一點(diǎn)表現(xiàn)得非常清楚。在各種相關(guān)公共討論中，AI發(fā)展現(xiàn)狀尤其受到關(guān)注，其中的基本問題是：當(dāng)前AI發(fā)展的大方向是否有問題，未來應(yīng)該朝什么方向前進(jìn)。為此，組織計(jì)算機(jī)、經(jīng)濟(jì)學(xué)、馬克思主義理論和哲學(xué)等領(lǐng)域的八位學(xué)者，對AI發(fā)展現(xiàn)狀進(jìn)行跨學(xué)科反思以期拋磚引玉，求教于方家。

本系列文章共8篇，轉(zhuǎn)載自《科學(xué)·經(jīng)濟(jì)·社會》2024年第2期，本文《價(jià)值對齊是人類通往未來的“必經(jīng)之路”嗎？》為第4篇。在文中，閆宏秀和李洋認(rèn)為必須正視人類期望的價(jià)值對齊，對人之為人的守護(hù)必須是價(jià)值對齊的基準(zhǔn)生命線，也只有基于此的價(jià)值對齊才是人類通往未來必經(jīng)之路。

人工智能技術(shù)正在通過輸入海量數(shù)據(jù)和經(jīng)驗(yàn)，經(jīng)由機(jī)器學(xué)習(xí)不斷進(jìn)步。目前，人工智能技術(shù)已經(jīng)走到了邁入“通用”智能的關(guān)口。這意味著可能即將出現(xiàn)與人類思維近似的智能機(jī)器，其具有進(jìn)行學(xué)習(xí)、解決問題以及規(guī)劃未來的能力，并將分享“人”作為行動主體的地位。如何確保人工智能技術(shù)捕捉并符合人類的社會規(guī)范和價(jià)值觀、理解人的意圖以及以人類想要的方式行事，已成為計(jì)算機(jī)科學(xué)領(lǐng)域最核心、最緊迫的問題之一，稱為價(jià)值對齊（value alignment）。恰如《對齊問題》的作者布萊恩·克里斯?。˙rian Christian）所示，“機(jī)器學(xué)習(xí)表面是技術(shù)問題，但越來越多地涉及人類問題。”價(jià)值對齊是人機(jī)（技）融合必須解決的一個問題。從價(jià)值對齊作為一種人與機(jī)（技）聯(lián)盟的意義上來看，其一直是技術(shù)發(fā)展的目標(biāo)之一。事實(shí)上，在人類發(fā)展的漫長歷史中，人類不斷尋求將自己的身體和精神范圍擴(kuò)大到環(huán)境的局限之外，特別是通過開發(fā)技術(shù)來滿足自身的需求和欲望，企圖增強(qiáng)和超越“人”的能力。在此尋求的進(jìn)程中，作為技術(shù)發(fā)展的目標(biāo)之一的人機(jī)（技）融合即二者的聯(lián)盟恰恰就是人類對技術(shù)的一種期望。已經(jīng)走過了六十多年的人工智能技術(shù)則將這種期望推向了人類未來的關(guān)鍵期，此時，該如何看待這種期望呢？

一、正視人類期望的價(jià)值對齊

面對人工智能領(lǐng)域的巨大成就，當(dāng)代哲學(xué)家盧克·穆爾豪瑟（Luke Muehlhauser）和尼克·博斯特羅姆（Nick Bostrom）警惕人類應(yīng)對技術(shù)保持克制，他們曾指出：“一個超級智能的人工智能可能會很快變得優(yōu)于人類……我們可能無法與它或其后代進(jìn)行談判，就像黑猩猩無法與人類進(jìn)行談判一樣?！眱晌粚W(xué)者隱喻這樣一個事實(shí)：如果“通用”智能真的出現(xiàn)，它們可能對人類并不友好。在面臨潛在風(fēng)險(xiǎn)和挑戰(zhàn)的背景下，研究者們就如何確保智能系統(tǒng)的可靠性、穩(wěn)健性、安全性、可解釋性和公平性等問題進(jìn)行了一系列討論，結(jié)果指向人工智能的決策和行為可能與人類的價(jià)值觀和利益存在偏差，這種偏差可能源于系統(tǒng)在訓(xùn)練過程中使用到的數(shù)據(jù)、算法以及模型的局限性，因此，亟須正視作為人類期望的價(jià)值對齊是否依然有用與有效。

首先，高度重視價(jià)值對齊無用論。由于哲學(xué)和價(jià)值論學(xué)科中關(guān)于人類價(jià)值觀的性質(zhì)和內(nèi)容的分歧尚未解決，因此如何在監(jiān)管和設(shè)計(jì)人工智能時實(shí)現(xiàn)價(jià)值對齊也毫無意義。但在這種簡單的邏輯關(guān)系中，潛在地把技術(shù)置于中性地位，而正是這種技術(shù)中性思想正在威脅著真正的價(jià)值對齊。價(jià)值對齊中的價(jià)值不僅是指人的價(jià)值，也是指技術(shù)的價(jià)值。德國哲學(xué)家馬丁·海德格爾（Martin Heidegger）曾說：“正是這種人們至今仍舊深信不疑的關(guān)于技術(shù)的中性把握，使我們對技術(shù)的本質(zhì)仍然茫然無知。”如果未來的人工智能在人類福祉方面是中立的，被編程為它只想解決一些計(jì)算上極具挑戰(zhàn)性的技術(shù)問題，并且它只關(guān)心解決這個技術(shù)問題。這樣做的結(jié)果就會使人工智能形成了這樣一種信念，即解決這個問題的最有效且唯一方法是將整個世界變成一臺巨型計(jì)算機(jī)，進(jìn)而導(dǎo)致所有人類大腦的計(jì)算資源都被人工智能劫持并用于該技術(shù)目的。最終，人工智能將會造就一幅世界末日的未來場景。如此看來，這種人工智能盡管持有與人類福祉中立的態(tài)度，但是結(jié)果上卻對人類生存構(gòu)成了嚴(yán)重的威脅。換言之，即使人工智能不必事先對人類懷有敵意，人類對它的技術(shù)中立觀和價(jià)值對齊無用論就已經(jīng)是對自身的毀滅。

其次，積極探尋價(jià)值對齊的出發(fā)點(diǎn)。人類構(gòu)建智能技術(shù)的一個重要動機(jī)是希望它能夠與人合作，增強(qiáng)人類的能力，找到并解決人沒有和不能解決的問題。因此，如果將技術(shù)錨定在人類問題的解決方案概念上，人應(yīng)該向技術(shù)敞開歡迎的大門。但針對“技術(shù)工具論”，漢娜·阿倫特（Hannah Arendt）在《人的境況》一書中曾有過關(guān)于“工具制造者”的反思：“技藝人設(shè)計(jì)和發(fā)明器具是為了建立一個物的世界，而且器具的合用和精確程度都是由他想要創(chuàng)造的產(chǎn)品的‘客觀’目的決定的，而不是由他的主觀需求和要求決定的?！蓖瑫r，德國哲學(xué)家阿諾德·蓋倫（Arnold Gehlen）也說過：“技術(shù)在這種高度普遍的意義上，就是人類自身本質(zhì)的最重要的部分?！鄙钍晌粚W(xué)者的分析可以發(fā)現(xiàn)，如果只是把科學(xué)和技術(shù)當(dāng)作對自然采取行動的手段，把科學(xué)發(fā)明視為人類超越自然限制的工具，那么將會使“人”脫離人類自身的生存處境而作為勞動者被異化為動物物種。如果價(jià)值對齊的目的只是使人工智能成為更趁手的工具，那么勢必會招致人類夢想的破滅。因此，價(jià)值對齊的出發(fā)點(diǎn)至關(guān)重要。

最后，理性應(yīng)對價(jià)值對齊恐懼。與伴隨第二次技術(shù)革命的發(fā)展而出現(xiàn)的技術(shù)恐懼主義相似，對價(jià)值對齊的恐懼主要來自兩個方面，一是基于數(shù)智技術(shù)本身的不確定性與風(fēng)險(xiǎn)。如數(shù)智技術(shù)的生成性、涌現(xiàn)性、交互性等技術(shù)特性在價(jià)值對齊過程中已經(jīng)出現(xiàn)的諸如越獄、對齊幻覺、“欺騙性對齊”“偽對齊”等價(jià)值對齊失?，F(xiàn)象；由數(shù)智技術(shù)的技術(shù)性能局限性所導(dǎo)致的價(jià)值對齊過程中的技術(shù)邏輯與人的邏輯的不兼容、對立以及斷裂等；二是技術(shù)對人的威脅與異化在數(shù)智時代更為突出，且影響更為深層與更為普遍。因此，鑒于技術(shù)恐懼主義在人類社會中的已有影響，必須警惕由對價(jià)值對齊的恐懼而帶來的對技術(shù)的盲目抵制。

事實(shí)上，價(jià)值對齊之所以是人類對未來的期望，是因?yàn)槠淇梢跃徑饣虻窒夹g(shù)對“人”道德主體地位的威脅，幫助人類進(jìn)行自我的延續(xù)與重塑。但如果不能跨過上述理解價(jià)值對齊的障礙，很難說價(jià)值對齊能為人類帶來什么。很明顯，價(jià)值對齊并不應(yīng)是由于將技術(shù)道德化的實(shí)踐轉(zhuǎn)化，而是應(yīng)在超越技術(shù)工具論的基礎(chǔ)上，充分審視將技術(shù)道德化的前提條件。在人類道德技術(shù)化的進(jìn)程中，價(jià)值對齊并不是人機(jī)（技）融合的終點(diǎn)，而是根植于技術(shù)發(fā)展和人類進(jìn)化的歷程當(dāng)中，使“人”以現(xiàn)代人的姿態(tài)展示著人之為人的意義。

二、保障“人之為人”的價(jià)值對齊

在人類的歷史上，沒有任何一個領(lǐng)域像人工智能領(lǐng)域一般存在著如此嚴(yán)重的對人類尊嚴(yán)的潛在威脅。人類尊嚴(yán)從古至今都是一個嚴(yán)肅的話題，“早期儒家的倫理政治理論建構(gòu)，由于將倫理作為政治的起始點(diǎn)與歸宿點(diǎn)，使他們不能不對人的設(shè)計(jì)高度重視?！痹谖鞣轿幕校捎谑艿交浇虃鹘y(tǒng)的影響，“人”通常被視為按照神的形象創(chuàng)造的，擁有固有的尊嚴(yán)和價(jià)值，強(qiáng)調(diào)個人的權(quán)利、自由和個人主義，認(rèn)為每個人都應(yīng)該有追求幸福和自我實(shí)現(xiàn)的權(quán)利。許多非洲傳統(tǒng)強(qiáng)調(diào)社區(qū)和集體主義，人的身份和價(jià)值不僅僅在于個體，而是與其在家庭、部落和社區(qū)中的角色和關(guān)系緊密相關(guān)。另外，世界各地的原住民通常將人視為自然世界的一部分，強(qiáng)調(diào)人與自然的密切相關(guān)、和諧共處?，F(xiàn)代人在如何理解和評價(jià)人方面存在文化、歷史和哲學(xué)差異，不同的觀點(diǎn)展示了人類對“人”的多樣性理解，以及如何基于這些理解構(gòu)建倫理和社會價(jià)值體系。但毋庸置疑的是，“人”的概念是一個具有深刻倫理含義的多重概念?；谌烁竦囊暯?，可以說有關(guān)人工智能的問題可以被視為組織和整合我們迄今為止解決的許多問題的一種手段。在這期間，涌現(xiàn)了一些關(guān)于人類和機(jī)器之間的區(qū)別以及相似性的本質(zhì)性問題，人工智能的發(fā)展觸及許多倫理問題，如人工智能應(yīng)該得到什么道德待遇的問題，人工智能的使用如何以各種方式影響人的問題，以及關(guān)于人工智能是否能夠確實(shí)表現(xiàn)出人格或人格要素的問題（包括意識和能動性）。如果是這樣，人工智能到底會對“人”產(chǎn)生什么道德影響？

當(dāng)諾伯特·維納（Norbert Wiener）在《人有人的用處》一書中提出“我是相信人類社會遠(yuǎn)比螞蟻社會有用得多；要是把人判定并限制在永遠(yuǎn)重復(fù)執(zhí)行同一職能的話，我擔(dān)心，他甚至不是一只好螞蟻，更不用說是個好人了”之時，他已經(jīng)將“人之為人”這一哲學(xué)話題賦予了某種技術(shù)化的解讀。這也印證了我們今天所看到的那樣，維納直指的控制論系統(tǒng)作為嵌入在生物體中的數(shù)字化系統(tǒng)存在，隨著它們的不斷普及，人類將繼續(xù)獲得前所未有的多方面能力和健康益處。目前大多數(shù)交織控制論系統(tǒng)的平臺都由電極附著在人體上皮表面和大腦結(jié)構(gòu)上或與人體上皮表面和大腦結(jié)構(gòu)緊密接觸組成，這有助于更有效地將外部信號傳輸?shù)饺梭w系統(tǒng)，并提高人類身體處理日常事務(wù)或工作的速度。這也恰恰彰顯了人類的生物性缺陷使其需要憑借技術(shù)獲得生命得以維系的可能性，并使得技術(shù)的本質(zhì)進(jìn)入了人的本質(zhì)之中。在人的本質(zhì)問題上，馬克思曾說：“人以一種全面的方式，就是說，作為一個完整的人，占有自己的全面的本質(zhì)?！比绻f人類目前有什么立足之地，既可以面對人工智能時代席卷而來的技術(shù)風(fēng)暴，又可以保證“人之為人”的倫理特質(zhì)完整性，那一定是價(jià)值對齊。

回望技術(shù)的發(fā)展史，人類相信技術(shù)問題的解決方案是更多技術(shù)出現(xiàn)的技術(shù)解決主義或曰技術(shù)修復(fù)主義（techlogoical fix），這類思想一直占據(jù)著非常重要的地位。例如，許多復(fù)雜技術(shù)是集成了從先前版本所產(chǎn)生的問題的解決方案而被逐步迭代后創(chuàng)造出來的。在某種程度上，價(jià)值對齊可被視為機(jī)器學(xué)習(xí)在強(qiáng)化潛在的社會歧視時，一種補(bǔ)救由這種“歧視算法”所產(chǎn)生的問題的技術(shù)解決方案。從技術(shù)視角去解釋價(jià)值對齊，可以看到道德進(jìn)入到人工智能系統(tǒng)中的方法主要有自上而下和自下而上。在自上而下的方法中，以確定的道德立場設(shè)計(jì)機(jī)器，人工智能被明確告知什么是允許的，什么是不允許的。在自下而上的方法中，人工智能從用戶數(shù)據(jù)中學(xué)習(xí)道德價(jià)值觀和規(guī)范，將倫理學(xué)整合到機(jī)器中，反映人類獲得道德判斷和行為的成長途徑。目前的價(jià)值對齊方案傾向于自下而上的方法來設(shè)計(jì)友好的人工智能。自下而上的方法主要包括具身人工智能和人工生命。通過具身人工智能構(gòu)建的機(jī)器沒有預(yù)編程的行為集，相反它們配備了在與環(huán)境交互時實(shí)例化的基本行為。這種智能生命形式模仿了人類的智力水平是如何發(fā)展的，以及是如何不斷發(fā)展的。但只要一想到人類的發(fā)展史，情況就不值得樂觀了，因?yàn)槿祟惖臍v史是殘酷的！想要避免落入殘酷陷阱，需將價(jià)值對齊解釋為通過技術(shù)來對人類訴求進(jìn)行實(shí)現(xiàn)的過程，而人類社會的特質(zhì)恰恰在于人具有的價(jià)值屬性，而并非僅僅是在于人類擁有技術(shù)。因此，必須保障“人之為人”的價(jià)值對齊。

三、作為“必經(jīng)之路”的價(jià)值對齊

1950年，艾倫·圖靈（Alan Turing）做了著名的“圖靈測試”實(shí)驗(yàn)，第一次引起各界對于機(jī)器智能的關(guān)注。此后，機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的興起使得人工智能開始具備更強(qiáng)的自主學(xué)習(xí)和決策能力。這也引發(fā)了關(guān)于人工智能如何與人類價(jià)值觀和道德觀相協(xié)調(diào)的爭議，人類開始意識到人工智能的決策和行為可能與人類的價(jià)值觀和道德原則存在偏差。從早期的專家系統(tǒng)到現(xiàn)代的深度學(xué)習(xí)，如何讓計(jì)算機(jī)模擬人類的思考和決策過程，一直是計(jì)算機(jī)科學(xué)領(lǐng)域的熱點(diǎn)和難點(diǎn)。反觀今天的人類社會正在進(jìn)入一個智能代理時代，其中技術(shù)在很大程度上塑造和決定了權(quán)力的行使，影響了公共政策和人類決策等。人類需要找到有效的方法來確保技術(shù)的可靠性、可追溯性和可解釋性來應(yīng)對公眾對技術(shù)黑匣子的質(zhì)疑，并將私人權(quán)利與公共利益、技術(shù)權(quán)重與人類能力等進(jìn)行重新調(diào)整。

對于積極的價(jià)值觀調(diào)整方法提供了什么的追問，可能不在于它提供的任何答案，而在于它要求人類在這種情況下提出的哪些“問題”，以及它所提供的“問題”的重新概念化。也就是說，通往人類未來的價(jià)值對齊首先要回答自己要解決的問題可能是什么。通往人類未來的價(jià)值對齊要解決的問題包括：人類價(jià)值觀如何融入技術(shù)之中，且還應(yīng)確保人類價(jià)值觀的多樣性，避免價(jià)值觀的同質(zhì)化與一元性；在人機(jī)（技）融合的進(jìn)程中，人類智能與機(jī)器智能的對齊邏輯依據(jù)，特別是不同邏輯之間的統(tǒng)一性與融貫性問題；人機(jī)（技）價(jià)值對齊的基準(zhǔn)線、生命線與切人點(diǎn)問題，特別是伴隨數(shù)據(jù)智能技術(shù)的發(fā)展，人機(jī)（技）對齊的進(jìn)程中，人是否還在回路問題等。因此，隨著人工智能技術(shù)的不斷進(jìn)步和應(yīng)用場景的迅速拓展，價(jià)值對齊將繼續(xù)成為研究者關(guān)注的焦點(diǎn)。人類通往理想的智能未來還有一段很長的路要走，這條路上勢必要經(jīng)過使價(jià)值對齊得以實(shí)現(xiàn)的艱難歷程，以期保證先進(jìn)和高度自主的人工智能系統(tǒng)具有正確吸收人類價(jià)值觀和目標(biāo)的能力。以社會進(jìn)步主義觀點(diǎn)看待價(jià)值對齊，它其實(shí)是一個涉及多個領(lǐng)域研究和實(shí)踐的不斷發(fā)展和完善的過程，可以消減人類和技術(shù)的芥蒂?！叭恕比绻胍诩磳⒌絹淼某壢斯ぶ悄茚绕饡r代中得以生存，必須杜絕所有機(jī)器做出“不友好”行為的可能，確保這些未來機(jī)器分享并接受人類最珍視的價(jià)值觀和信仰。

從價(jià)值對齊作為一種人與機(jī)（技）聯(lián)盟的意義上來看，其一直是技術(shù)發(fā)展的目標(biāo)之一，因此，在這個意義上，是人類發(fā)展的“必經(jīng)之路”。也正因?yàn)槭潜亟?jīng)之路，所以更需慎重，盡量避免在通向人類未來進(jìn)程中數(shù)智時代的價(jià)值對齊變成一個作為教訓(xùn)而存在的階段。回顧關(guān)于技術(shù)的哲學(xué)思考，無論是“器官投影說”關(guān)于技術(shù)與人的相關(guān)性揭示，還是關(guān)于技術(shù)工具論的質(zhì)疑，都指向了人與技術(shù)之間融合邊界的問題，即探尋人與機(jī)（技）聯(lián)盟的基準(zhǔn)。這種探尋就是在力圖厘清價(jià)值對齊的最佳路徑與最優(yōu)結(jié)果。

事實(shí)上，數(shù)智技術(shù)將價(jià)值技術(shù)化與技術(shù)價(jià)值化雙向融合的理想樣態(tài)是技術(shù)邏輯與價(jià)值邏輯的完美契合，這也是價(jià)值對齊的應(yīng)有形態(tài)。但這種契合應(yīng)當(dāng)首先立足于人類的價(jià)值觀來校準(zhǔn)技術(shù)，而不能基于技術(shù)來規(guī)制人類價(jià)值。該要求恰如社會學(xué)家克里斯多夫·庫克里克（Christopli Kucklic）所說：“現(xiàn)代人的驕傲是我們能夠成為某個人并且能夠堅(jiān)持做這個人。微粒人的驕傲在于一直成為另外一個人，同時不會失去自我”，數(shù)智技術(shù)是關(guān)于人類心靈、思想、能動性和責(zé)任本質(zhì)等的更深層次哲學(xué)思考的催化劑，目前的形勢正在向人類呈現(xiàn)人與人工智能共同進(jìn)化出“人機(jī)（技）聯(lián)盟”的未來圖景。而只有通過以人之為人作為基準(zhǔn)生命線的價(jià)值對齊所建立起的“人機(jī)（技）聯(lián)盟”才是人類通往未來的“必經(jīng)之路”的正確打開模式。

0 好文

下一篇:訪談石碩：以“康藏史”的視角考察中國歷史進(jìn)程，我看到了“連接”

上一篇:寵信二張——武則天暮年的情感是非

價(jià)值對齊是人類通往未來的“必經(jīng)之路”嗎？

熱門文章排行

價(jià)值對齊是人類通往未來的“必經(jīng)之路”嗎？