基于信任視角的價值對齊探究

閆宏秀（上海交通大學科學史與科學文化研究院、數字化未來與價值研究中心教授） 2025-01-14 來源：澎湃新聞

從價值對齊的信任意涵與信任樣態(tài)來看，技術發(fā)展對人類提出了更高的要求。

從價值對齊的信任意涵與信任樣態(tài)來看，技術發(fā)展對人類提出了更高的要求。其要求作為類存在的人在價值對齊的進程中，必須厘清合作、信任與價值對齊這三者之間的邏輯關系與道德意涵，深刻反思人作為價值性存在的根基何在，充分審視技術信任的頂層邏輯及權重，高度重視信任的反面，警惕價值對齊的非道德現象與異化，積極守護技術語境中的人際信任，避免信任的單向度。因此，應以基于道德的信任校準價值對齊，將人類作為人機（技）信任鏈構建的出發(fā)點和落腳點，才能規(guī)避價值對齊的陷阱，走向有效的價值對齊，進而確保人工智能安全。

人類的生物性缺陷與技術日趨擬人化、智能化使得人機（技）融合成為了人類未來的一種新樣態(tài)。就人機（技）融合而言，技術所體現的價值觀與人類價值觀相一致即價值對齊，是其所必須面對的一個重要問題。當下關于價值對齊的內涵、標準、基準、效應等問題的爭議在凸顯人機（技）融合進程中的人類邏輯與技術邏輯之間，智能系統(tǒng)內部各個智能體之間融合的必要性、重要性與不確定性的同時，更是指向了價值對齊基準的模糊性與多元化。反觀上述問題，主要表現為兩個方面：一方面為若二者之間出現偏差甚或背離，將違背技術向善的宗旨，并誘發(fā)巨大的風險；另一方面為未經審視的價值對齊，特別是僅僅為了對齊的價值對齊甚或盲目的價值對齊不僅會帶來價值對齊的陷阱與異化，更會導致人類的異化乃至人類文明的脆斷。若人機（技）融合是人類未來的一個必選項，那么，價值對齊則可能是導引人機（技）融合走向的指南針。

目前，以非道德的方式所進行的欺騙性對齊、偽對齊等現象已經出現，這使得價值對齊本身面臨更多質疑。特別是因數智技術的生成性、涌現性、交互性、適應性、擬主體性等特性所帶來的價值對齊過程中的越獄、幻覺等問題，使得信任被視為了“安全的致命弱點”。（埃文·吉爾曼、道格·巴斯，2019，譯者序第1 頁）因此，基于信任視角解析價值對齊，既是對價值對齊邏輯的厘清，更是對人類未來這個宏大問題的哲學審視。

一、價值對齊的信任意涵

從廣義來看，價值對齊源自人類期冀自身價值觀被技術理解并被實現，進而契合技術為人類帶來福祉的訴求，是通向技術社會化與社會技術化雙向奔赴的一種嘗試。但與此同時，價值對齊所蘊含的巨大風險也備受關注，而信任則是應對風險的一種有效方式。從狹義來看，價值對齊包含技術和非技術兩個維度，涉及人與人之間、人與技術之間、技術系統(tǒng)內部的各個智能體之間三個層級的對齊。其中，前者聚焦技術自身的可信度，后者聚焦對價值對齊的必要性、可能性、可行性及其局限性等的哲學社會科學研究。恰如布萊恩·克里斯?。˙rian Christian）在關于對齊問題的研究中所言：“機器學習表面是技術問題，但越來越多地涉及人類問題。”（布萊恩·克里斯汀， 2023，導言第11 頁）因此，價值對齊最終的指向是人類，更精確地說是人類對自身能力的信任。

（一）價值對齊的兩個維度及其信任意涵

當人類期望技術能夠以自己意欲的方式行事時，人類價值觀的技術化成為了技術發(fā)展的一種必然態(tài)勢。特別是伴隨通用人工智能的發(fā)展，人類智能、人工智能與超級智能的多重交匯，人類價值觀逐漸以編碼的形式被技術化。近年來，信任被視為人機融合、人工智能技術研發(fā)的一個重要議題，諸如“可信任人工智能（Trustworthy AI） ”“受信任的智能（Trusted Intelligence） ”“信任設計（Trust by design）”等均在以將信任技術化的方式進行呈現。

在人工智能與人類價值對齊的進程中，其核心要義是對人類價值觀的正確理解與導引，人工智能系統(tǒng)能夠以合乎倫理的方式穩(wěn)健地將其有效執(zhí)行，并確保技術的可信、安全與可控。因此，價值對齊一方面是人類價值觀融入人工智能系統(tǒng)之中；另一方面是人工智能系統(tǒng)還應自主推導出與人類價值觀相符合的行動，即超級對齊。但無論上述哪個方面，都面臨著人工智能“系統(tǒng)如何在不夸大其能力范圍的情況下呈現有限的規(guī)范能力？具有規(guī)則識別能力的系統(tǒng)如何防止交互主體對規(guī)則性的操縱變成對其的信任”（Arnold T. & Scheutz M.，2023）等等人類該如何信任技術的諸多問題。

就目前的技術研發(fā)來看，通過對人的意識、人類社會運作模式等的模擬、推斷來提升技術可信度的方式是實現價值對齊的重要途徑。諸如，基于人類反饋的強化學習（Reinforcenment Learning from Human Feedback，RLHF），即通過模擬人類社會的社交活動與模仿人類獲得價值反饋的方式，來提升大語言模型與現有社會價值觀對齊精準性；（Ruibo L. et al.，2023）通過基于心智理論和反事實解釋的融合來提升人類對圖像識別系統(tǒng)模型信任的 CX-ToM （Counterfactual explanations with theory-of-mind）（Arjun R. Akula，2022）等方法偏重模擬；基于“與其煞費苦心地嘗試手工編碼我們關心的東西，不如開發(fā)直接觀察人類行為并從中推斷我們的價值觀和意圖的機器” （布萊恩· 克里斯汀， 2023，第 187 頁）所展開的逆強化學習（Inverse Reinforcement Learning，IRL），以及在此基礎上迪倫·哈德菲爾德－梅內埃爾（Dylan Hadfield-Menell）等所提出的合作逆強化學習（Cooperative Inverse Reinforcement Learning， CIRL）（Hadfield-Menell D.，2016）等方法則偏重推斷。然而，無論是上述哪種價值對齊的技術方法，都是在以基于人的視角而探尋技術與人之間的有效融通點，并以彼此可信的方式達到人機融合的最佳狀態(tài)。

在某種意義上，人類發(fā)展史就是一部技術演化史?；仡櫲祟悮v史，技術所產生的巨大影響使其成為了劃分時代的一種標尺。如舊石器時代、新石器時代、青銅器時代、蒸汽機時代、信息時代、智能時代等，由技術變革驅動所形成的文明形態(tài)已經成為人類文明界定的一個依據。如農業(yè)文明、工業(yè)文明、信息文明、數字文明等。從技術哲學的視角來看，伴隨技術對人類的深度影響，基于技術僅僅作為工具的理論框架所展開的關于技術的反思已經遭遇到了理論與現實的雙重質疑。與此同時，技術價值論則逐漸被認可，對技術本質的解析也逐漸走向了存在論、認識論與價值論三向融合的視角。易言之，價值對齊的技術維度即技術自身的可信度，并非僅僅在于其作為工具的魯棒性，且若僅僅局限于此，必將陷入技術工具論的誤區(qū)，出現人被技術邏輯支配或者人被技術規(guī)制的價值對齊，進而背離了價值對齊的初衷。恰如蘭登·溫納（Langdon Winner）在自主性技術與政治的關聯(lián)研究中所揭示的：“我們在多大程度上應用‘工具—使用’與‘目的—手段’的觀念，我們的經歷就將在多大程度上與我們的預想不一致。”（蘭登·溫納，2014，第 214 頁）因此，價值對齊中的技術可信度雖然是信任在技術層面的一種呈現，但這種呈現恰恰源自非技術的維度，即人類對信任的認知。

（二）價值對齊的三個層級及其信任意涵

依據以人為出發(fā)點的原則，價值對齊的三個層級依次為人自身、人與技術之間、技術系統(tǒng)內部之間。在價值對齊的進程中，技術對人類意圖的有效理解與推斷是其獲得人類信任的必要條件，而技術的可信度則是構建人類對其信任的重要判據。埃文·胡賓格（Evan Hubinger）將內部對齊（ Inner alignment）、外部對齊（Outer alignment）、欺騙性對齊（Deceptive alignment）等視為構建人類對機器學習系統(tǒng)的安全性充滿信心的有效方式。（ Hubinger E.，2021）從技術的視角來看，上述幾種對齊方式，可以簡化為內部對齊和外部對齊。其中，外部對齊指向設計者的意愿與用于構建人工智能系統(tǒng)的實際任務規(guī)范（例如目標和獎勵）之間的一致性，內部對齊則指向任務規(guī)范和人工智能系統(tǒng)行為所反映的規(guī)范之間的一致性。（Jiaming Ji et al.，2023）簡言之，內部對齊重在實現所給定的目標函數，外部對齊則重在完成人類價值觀或者預期目標的制定與轉化。

從表面上看，與這種分類直接相關的是兩個層級的價值對齊，即人與技術之間、技術系統(tǒng)內部之間。然而，更需要注意的是，就內部對齊和外部對齊而言，還存在一個更基礎性的問題，即該如何確定目標函數。因此，人自身的價值對齊是極為重要且更為根本的一個層級。就人自身的價值對齊而言，價值觀的多樣性、偏主觀性、情境性、時代性等使得價值對齊的基準線面臨強勁的質疑。若所需對齊的價值觀極其不確定，那么，對齊本身的前置條件就存在爭議。面臨這樣的情形，價值對齊該如何展開呢？

事實上， “正當行為規(guī)則衍生的正確且合適的基礎”（Luhmann N.，2017，p.5）在于信任。信任是應對復雜性、風險性或曰不確定性的一種策略，信任的缺席將帶來人類社會的失序。從技術發(fā)展的視角來看，技術在某種意義上就是一個不斷消除風險并力求確定性的過程；從人類社會得以存續(xù)與發(fā)展的視角來看，信任之所以變成了一種必需品并非是“因為一切都是完全可預測的，或者完全可保證的，恰恰相反，即使在沒有保證的情況下，人生也不得不繼續(xù)前進”。（昂諾娜·奧妮爾，2017，第27 頁）因此，基于技術在人類社會中的生存論意蘊，對人自身的價值對齊問題破解雖然需要信任的出場，但這種出場并不意味著信任是萬能的，更不能走向人對自身能力的盲目自信，而是對信任提出了更高的要求。這要求作為類存在的人在價值對齊的進程中，必須深刻反思人作為價值性存在的根基何在，充分審視技術信任的頂層邏輯及權重，并積極守護技術語境中的人與人之間的信任。

（三）價值對齊的兩個維度與三個層級的邏輯關系及信任表征

就價值對齊而言，從技術實現的路徑來看，如表1 所示，技術系統(tǒng)內部的對齊可被歸為內部對齊，技術自身的魯棒性是其獲取人類信任的關鍵因素；人與技術之間的對齊、人與人之間的對齊可被歸為外部對齊。在人與技術之間的對齊中，人類對技術的信任包含技術的魯棒性，但卻不囿于此。事實上，從更本源的意義上來看，價值對齊的技術與非技術維度最終都必將指向人自身；與此同時，雖然人與人之間的價值對齊可被歸為外部對齊，且會出現與技術的魯棒性無關的人際信任現象，但是基于技術價值論的視角，其應是技術維度的基礎，具有更深層的意義，并應被視為價值對齊的邏輯基礎。

表1 價值對齊的維度、層級、目標與信任表征

控制論創(chuàng)始人諾伯特·維納（Norbert Wiener）在對第一次工業(yè)革命和第二次工業(yè)革命所帶來的社會影響進行的探討中，將人類的目標確立為“要建立一個以人類價值觀而不是以買賣為基礎的社會”（諾伯特·維納，2022，第50 頁），此刻人類價值觀被視為既是導引技術發(fā)展的標尺，又是構成社會形態(tài)的核心。然而，隨后，維納面對新技術的發(fā)展便發(fā)出了“我在1947 年寫下這些話時，我不得不說，這是一個非常渺茫的希望”（諾伯特·維納，2022，第51 頁）的感嘆?？茖W技術專家關于新技術的擔憂因新技術力量之大與人類道德之惡的匯聚所表露出的這種無措令人不寒而栗，也正是這種無措恰恰提醒了人類應高度關注技術的風險。

同樣在20 世紀中葉，漢娜·阿倫特（Hannah Arendt）面對行動所呈現出的不可逆性和不可預見性時，明確指出“對于不可預見性，對于未來不確定性的拯救，則包含在作出承諾和信守承諾的能力中”。（漢娜·阿倫特，2017，第184 頁）因此，在人類的價值觀與預期目標被技術化的進程中，伴隨技術的日益智能化與日趨自主性的趨勢，關于信任的研究也更為迫切，并呈現出了多學科融合的趨勢。如IBM 所提出的“構筑對AI 的信任”、技術專家關于GPT 模型可信度評測等就匯集了技術、倫理學與社會學等的相關知識。

二、價值對齊的信任樣態(tài)

從當下的技術發(fā)展來看，無論是無監(jiān)督學習、監(jiān)督學習，還是強化學習、逆強化學習與合作逆強化學習等，都是在多個智能體之間的循環(huán)交互中尋求目標的最優(yōu)化，進而走向有效的價值對齊。也正是在智能體交互的過程中，由委托與授權而產生的信任問題也隨之而至。在價值對齊的過程中，從目標完成的意義來看，基于為了完成某件事情或者某個任務而建立的信任主要表現為策略性信任、合作性信任、功能性信任、期望性信任、必要性信任以及強迫性信任等。其中，策略性信任（Strategic Trust）反映的是我們對人們將怎樣行動所持的期望，合作性信任、功能性信任則從偏實操的維度呈現人與人、人與技術之間的融合模式，期望性信任與必要性信任則更凸顯了委托者與受托者之間的意愿，作為如果不信任就無法實現自己目標的強迫性信任則暗含了人類在技術面前的某種無力感。然而，更需要值得深思的是，若價值對齊是人機（技）融合的一條必經之路，那么，對上述信任樣態(tài)的解碼則是實現有效價值對齊所必須面對的問題。

（一）人機（技）融合的信任鏈與價值對齊的信任基準

依據“不能建立信任，特別是最終用戶的信任，惠及所有利益相關方的個人數據生態(tài)系統(tǒng)就將永遠不會存在”（托馬斯·哈喬諾等，2018，第139 頁）的邏輯，就現有的研究來看，基于貝葉斯網絡的信任模型、人機協(xié)同雙向價值對齊的計算框架（Luyao Yuan et al.，2022）等從技術視角的研究呈現了信任的技術化路徑，關于技術的透明性、可解釋性的多學科解析等則在以打開技術“黑箱”的方式力圖消解用戶對技術的陌生感、模糊性等，進而構筑人機（技）之間的信任鏈。

價值對齊作為人機（技）融合的一條技術路線，其可能形式有以人類為主機器為輔、機器為主人類為輔，以及以兩方較為對等形式進行的雙向合作。然而，無論以哪種形式，需要明晰的是，雖然價值對齊是通過技術所展開的人類訴求實現過程，但人類社會的特質恰恰在于人具有價值屬性，而并非僅僅是人擁有技術。就人機（技）融合的信任鏈而言，其“產生的前提是人要自信（這種自信心也是匹配訓練出來的），才能產生他信和信他機制”。（劉偉，2019，第213 頁）因此，雖然技術構成了人類生存的條件，但并不意味著人被技術框定，并且還要“避免誤解：人的條件不等于人的本性，與人的條件相應的所有人類活動和能力的總和，都不構成任何類似于人的本性的東西”。（漢娜·阿倫特，2017，第3 頁）

技術的活動并不能也不應成為人類本性的東西。當維納以“不論我們把我們的決策委托給金屬組成的機器抑是血肉組成的機器（機關、大型實驗室、軍隊和股份公司），除非我們問題提得正確，我們絕不會得到正確的答案”（諾伯特·維納，2017，第166 頁）來描述人類未來時，事實上就已經以警示的口吻給出了人在技術化進程中應當為何的答案。同樣地，面對價值對齊，關于技術霸權的憂懼與人類自我意欲實現的期冀二者之間的糾結將更為復雜。從技術路線來看，“可預測性和意圖清晰性幾乎是相對的：行為可預測是假定旁觀者知道你的目標是什么；行為意圖清晰則是假定他們不知道。”（布萊恩·克里斯汀，2023，第201 頁）那么，人類該如何面對在價值對齊的進程中，所生成或涌現出的那種被技術推測或者被技術創(chuàng)造的自我呢？克里斯多夫?庫克里克（Christoph Kucklick）關于數字化時代的微粒人解析極具啟發(fā)性，“現代人的驕傲是能夠成為某個人并且能夠堅持做這個人。微粒人的驕傲在于一直成為另外一個人，同時不會失去自我。這是一個極其苛刻的態(tài)度”，（克里斯多夫·庫克里克，2018，第196 頁）然而，這種極其苛刻的態(tài)度恰恰是人類所必須堅守的。若無此堅守，人類的生命將變成一場技術化的游戲。因此，雖然合作性信任與必要性信任可能是人機（技）融合的潤滑劑，但人機（技）融合的信任鏈構建不是旨在將人類交付于技術，更不能走向用技術對齊技術的技術驅動性信任閉環(huán)，而是將人類作為信任鏈構建的出發(fā)點和落腳點。基于此，價值對齊不應是將人類推向由技術構造的強迫性信任，而是應以人之為人作為其信任的基準。

（二）價值對齊的非道德現象與信任的道德性

為了完成人類規(guī)定的目標，技術以操作、欺騙等方式完成價值對齊的非道德現象已經出現。如，OpenAI 明確指出：“在某些領域，我們的系統(tǒng)可能會導致智能體采用欺騙評估者的策略。例如，一個本應抓取物品的機器人將其操縱器放置在相機和物體之間，使其看起來只是在抓取它?！保ˋmodei D. et al.，2017）顯而易見的是，這種現象一方面是人被機器的功能所欺騙，另一方面機器卻又恰恰從完成目標的意義上提升了其技術“可信度”，增強了人類對其的“信任”。這種現象可被視為僅僅以完成目標為目的而忽略完成目的之手段正當性的“策略性”信任。

在當下，減少以及避免模型的自我欺騙、操縱行為，確保系統(tǒng)的可信與可控等是價值對齊亟待解決的難題。特別是在強化學習系統(tǒng)中，面對智能體是“獎勵的奴隸；但是它們是擁有強大算力和不斷試錯的奴隸”（布萊恩·克里斯汀，2023，第119 頁）的情形，技術的倫理屬性成為了價值對齊不得不面對的一個重要問題。如，以價值對齊中的獎勵為例，由于獎勵系統(tǒng)設計的重結果輕過程缺陷，出現了獎勵破解（Reward Hacking）（Jiaming Ji et al.，2023）、獎勵繞圈（Cycle- Proofing Rewards）（布萊恩·克里斯汀，2023，第 119 頁）等價值對齊失?，F象。從表面上看，智能體確實完成了給定的目標并獲得了獎勵，但其完成任務的方式卻存在道德爭議，并違背了價值對齊的初衷。因此，基于知識和經驗為基礎的策略性信任雖然在價值對齊的過程中完成了階段性的目標，并以自身利益理性計算為核心建立起了工具意義上的信任，但這種信任因其存在的基礎是不確定性，因而是極其脆弱的。特別是這種信任對道德維度的忽略使得其蘊藏了較高的風險，因此，“對于解決多種集體行動問題，對于創(chuàng)造一種環(huán)境，使人們能夠在一起良好地運用自己的理性來說，道德主義信任才是關鍵。” （埃里克·尤斯拉納，2006，第57 頁）

然而，就信任的道德性而言，在羅素·哈丁（Russell Hardin）關于“信任作為道德”（Har‐ din R.，2002，p.74）的談論中，認為將信任本身視為一個道德問題是錯誤的，并且“如果我們普遍希望將信任概念道德化，那么，我們將不得不去掉那些基于信任來完成壞的目的的行為”，（Hardin R.，2002，p.75）但這并非意味著對信任道德性的完全否定，恰恰說明信任無論是從目的來看，還是從行為來看，都應當是善的。

（三）價值對齊的異化與信任的單向度

海德格爾關于“現代技術之本質是與現代形而上學之本質相同一的”（孫周興，1996，第885頁）的判斷，充分顯示出技術作為完成了的形而上學已經進入到了生命、語言、政治等的規(guī)定之中。技術力量帶來了沉思生活與積極生活等級秩序的倒轉，沉思本身的意義被消解，世界異化已經悄然而至?！肮I(yè)社會擁有種種把形而上學的東西改變?yōu)樾味碌臇|西、把內在的東西改變?yōu)橥庠诘臇|西、把思維的冒險改變?yōu)榧夹g的冒險的手段”，（赫伯特?馬爾庫塞，2008，第185 頁）那么，現代技術將一切工具化、齊一化、功能化、物化的特征在價值對齊的進程中是否存在呢？

事實上，當價值對齊意味著人類的價值觀與技術的價值觀在聯(lián)盟的過程中走向融合并趨于一致時，從最低的層級上來看，這暗含著人類價值觀可被技術化和技術具有了呈現人類價值觀的潛能；從更高的層級來看，這種潛能將因數據智能的自我生成、自我參照、自我修改等自主性的日趨增長所形成的由技術對齊技術的技術閉環(huán)，而導致人類在技術回路中的被單一化與工具化，進而出現人類脫軌或曰被抽離的狀態(tài)，并走向價值對齊的異化。這種異化并不是簡單地指向對價值對齊初衷的背離，而是人類本身被異化乃至人作為整體性存在的消解。

暫不論人工智能末世論，當下關于“辯論機制的收斂性”（Jiaming Ji. et al.，2023）最終導致趨于單一回答的擔憂就是在警示人類價值觀被技術驅動的單一化趨勢?！爱敼餐澜缰辉谝粋€立場上被觀看，只被允許從一個角度上顯示自身時，它的終結就來臨了?！保h娜· 阿倫特， 2017，第39 頁）基于此，當價值對齊變成了被技術理性邏輯所統(tǒng)治時，人類理性的終結和價值觀的終結也將隨之而至。這種特征是否會將信任推向以技術為基礎的單向度模式呢？若“技藝人的典型態(tài)度：他對世界的工具化，他對工具的信任，對人工制品制造者的生產力的信任” （漢娜·阿倫特，2017，第240 頁）等成為現代社會的主導觀念，那么，技術或技術思維將成為信任形成與評判的重要元素，此時的信任也將逐漸走向由技術驅動的單向度。

三、合作、信任與價值對齊

價值對齊需要基于多方合作而展開，從功能方面來看，信任并非合作的前提條件，但其可以更有效地“簡化復雜性”。（Luhmann N.，2017，p.9）然而，雖然“合作常常需要信任，特別是相互信任。如果是完全不信任，那么，在自由行動者之間的合作則將失敗。進一步說，如果信任僅僅是在單方面，那么，合作可能也是無效的；如果信任是盲目的，則將誘發(fā)欺騙”。（ Gambetta D.，1988， p.219）同樣地，基于信任的合作將提升價值對齊的速度，但加速的目的不應是技術對人的操縱，若信任是單向的，則價值對齊是虛幻的；若信任是盲目的，則價值對齊是危險的。因此，需要充分審視合作、信任與價值對齊的關系。

（一）合作、信任與價值對齊的邊界

若信任僅僅基于暗合利益（encapsulated interest），那么，道德并非是必選項，甚至可被忽略。然而，僅以利益驅動但以非道德的方式所形成的信任因其所帶來的負面影響而一直備受詬病。就人工智能的發(fā)展而言，無論是負責任的人工智能、可信的人工智能，還是人工智能向善等，都已經將倫理道德作為一種規(guī)范性的要求納入技術之中。在關于人機（技）融合的信任工程研究中，倫理道德被視為 “構建人類與人工智能之間建立適當的雙向信任”（Ezer N. et al.， 2019）的一個重要的參數。那么，該如何看待在這種合作中所形成的信任呢？

蘇珊娜· 托爾梅杰（Suzanne Tolmeijer）、亞伯拉罕· 伯恩斯坦（Abraham Bernstein）等發(fā)現：在人工智能和人類專家合作所進行的倫理決策中，人類雖然在道德上具有較高的可信度，但其能力卻不如人工智能。雖然人工智能的建議和決策比人類專家的建議和決策更容易被接受，但人類專家被賦予了更高的道德信任和責任。（Tolmeijer S. et al.，2022）因此，在人工智能與人類價值觀對齊的進程中，雖然完成給定的目標是走向價值對齊的必要環(huán)節(jié)，但關于欺騙性、偽對齊等現象的出現恰恰指向了合作中的能力與道德問題。毫無疑問，當價值對齊以人與技術形成聯(lián)盟的方式來為人類謀求美好生活時，技術是助推人類走向美好生活的強勁動力，人類對技術能力的信任和對自身能力的信任則是形成上述聯(lián)盟的理論基礎，但基于這種信任的合作更需要人類確立上述聯(lián)盟的邊界。在人類與人工智能合作的過程中，出現了將人工智能視為合作伙伴而非僅僅是工具的趨勢，并主張將人類和人工智能視為一個團隊（Human-AI Teams）的理念。

就價值對齊而言，從人類和人工智能作為一個團隊的視角來看，當人類期望價值對齊時，若是讓機器（技術）熟悉人類的價值觀，則意味著價值觀本身是明確的；若是讓機器（技術）推斷人類的價值觀，則意味著機器（技術）的預測需要人類符合機器的意圖。那么，上述兩項的多次交互循環(huán)是否會出現人類價值觀在技術化的進程中涌現諸如數字化身之類的技術化生命、比人類自身更懂人類的機器意志等現象呢？易言之，在人類為技術賦予人類價值觀的進程中，是否會出現技術導引與規(guī)訓人類價值觀形成的情形呢？

類似 “在我們這個時代，每一種事物好像都包含有自己的反面。我們看到，機器具有減少人類勞動和使勞動更有成效的神奇力量，然而卻引起了饑餓和過度的疲勞”（《馬克思恩格斯全集》第12 卷，1962，第4 頁）一樣，伴隨技術發(fā)展所帶來的神秘力量增強，機器與人類之間的微妙關系迫使人類審視技術的本質并尋求這種神奇性的破解，而人類與技術的邊界厘清就是解開這種微妙關系的關鍵點。因此，為了避免神奇力量的反面，以人機（技）融合為出發(fā)點的價值對齊，既需要合乎道德的合作與信任，更需要有邊界的合作與信任。

（二）信任與信任的反面：價值對齊的有效性

信任作為委托者與受托者之間的一種合作性關系，其“處在全知與無知之間；全知意味著確定性，它不再需要信任。無知則無法建立信任。全知與無知之間的狀態(tài)是產生信任的條件，信任則啟動了生存所需要的行動和合作”。（鄭也夫，2015，第225 頁）因此，當信息的不充分與模糊性成為了信任產生的源頭時，對信任的解構、關于反信任和不信任等信任反面的研究更值得關注，對信任反面的充分認知恰恰是建立信任的必要條件。

就技術研發(fā)而言，弗雷斯特（Forrester）前首席分析師約翰·金德維格（John Kindervag）于 2010 年提出零信任（Zero Trust），信任以驗證為基礎，不驗證不信任。（ Moscaritolo A.，2011）以不信任為前提所展開的系統(tǒng)構建是提升系統(tǒng)安全性的一條重要途徑。事實上，不信任是“信任的反面鏡像”，（彼得·什托姆普卡，2005，第34 頁）懷疑（mistrust）是“一個暫時的信任建立或者信任喪失動態(tài)的中間階段。懷疑既可能是信任破壞的前奏，也可能是不信任結束的預兆”。（彼得·什托姆普卡，2005，第34 頁）在價值對齊的研發(fā)中，對智能體的信任以及智能體之間的信任并非是默認的，恰恰是需要信任或者信任產生之處的治理來構建信任。

為了確保人工智能安全，對通過欺騙而獲得獎勵的行為監(jiān)測與治理就是對合作性信任破壞的修復，紅隊測試則通過對危害的發(fā)現和識別來探尋并規(guī)避價值對齊的危險，進而提升系統(tǒng)的可信度。近年來所展開的“給AI 的100 瓶毒藥”就是以安全和負責任為基準，以投毒與解毒兩條路徑進行大語言模型的價值觀調整，進而提升大模型與人類價值觀的對齊能力。（Guohai Xu et al.， 2023）類似未經破壞性測試的技術是不可靠的，未考慮信任反面測試的信任也是脆弱的。因此，價值對齊的有效性提升必須要將信任反面的消除予以充分考慮。

四、結語

關于價值對齊的探討，說明人類有價值對齊的訴求但目前尚未實現，甚或人類尚未明晰價值對齊的基準與意義。之所以如此，主要原因有二：

一是源自人類一直有技術為人類服務且技術必須處在人類可控之中的夢想。這樣一種夢想植根于人類中心主義。然而，技術的日趨自主性與智能化對人類中心主義所構成的挑戰(zhàn)使得上述夢想備受質疑。如，當下關于數字生命、智能機器意識、數字資本主義等的一系列追問直接指向了人類作為類的本質何在；近年來所出現的將技術道德化，與其說是對人類道德未來發(fā)展路徑的一種描繪，倒不如說是對技術反噬人類道德的一種沉思。因此，這一切促使人類既需要重新反思人之為人這一經典問題，更需要對技術的發(fā)展進行前瞻性的預判，確立價值對齊的基準，厘清價值對齊的邊界。

二是價值對齊的意義究竟是什么？很明顯，價值對齊的意義不應是技術政治學所揭示的“引入技術手段所產生的一系列轉化最終導致了目的轉化” （蘭登·溫納，2014，第203 頁）的反向適應。當價值對齊力圖尋求人類價值觀與技術所體現的價值觀一致之時，人的技術化與技術的人化將更加深入。僅僅作為工具意義上的技術已經不再可能，人類與人工智能聯(lián)盟所形成的團隊合作推進著人的本質與技術的本質在更為深層的意義上的交互，但這種交互不應是在合作式對齊進程中變成人類對技術的反向適應，走向技術系統(tǒng)對人類的操縱。

可以肯定的是，價值對齊的意義應是技術為人類帶來福祉。因此，價值對齊雖然是在多方的合作中展開將人類價值觀的技術化，但其并非僅僅是將技術道德化，也不僅僅是目標的技術化轉換，更不能以非道德的方式進行“對齊”，并且應在技術可信可控的情境中展開，因為脫離此情境的交互必將會給人類帶來毀滅性的災難。基于此，必須以基于道德的信任校準價值對齊，將人類作為信任鏈構建的出發(fā)點和落腳點，才能規(guī)避價值對齊的陷阱，確保人工智能的安全。

【本文首發(fā)于《浙江社會科學》2024年第6期】

0 好文

下一篇:《軌道》：從另一種高度看地球

上一篇:女性文學好書榜：凡持微火者，手中皆有光

基于信任視角的價值對齊探究

熱門文章排行