欺騙性價值對齊的應(yīng)對邏輯：從“意圖”到“共生”

閆宏秀（上海交通大學(xué)馬克思主義學(xué)院教授）；李洋（上海交通大學(xué)馬克思主義學(xué)院博士研究生） 2024-11-11 來源：澎湃新聞

欺騙性價值對齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價值對齊備受質(zhì)疑，因此，對其的應(yīng)對是價值對齊必須解決的一個關(guān)鍵問題。

欺騙性價值對齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價值對齊備受質(zhì)疑，因此，對其的應(yīng)對是價值對齊必須解決的一個關(guān)鍵問題。依據(jù)“意圖”與“主體”兩個要素所形成的欺騙性價值對齊行為象限可構(gòu)筑應(yīng)對欺騙性價值對齊的概念框架；以理性認(rèn)知面對與欺騙“共生”的價值對齊，可形成應(yīng)對欺騙性價值對齊的認(rèn)識論基礎(chǔ)。在設(shè)計(jì)與使用的共生之中所展開的AI素養(yǎng)雙重增強(qiáng)，可構(gòu)成應(yīng)對欺騙性價值對齊的行動者聯(lián)盟。從欺騙的打開到信任的塑造所展開的人-機(jī)（技）共生關(guān)系構(gòu)建則可為欺騙性價值對齊的應(yīng)對提供存在論與價值論基礎(chǔ)。

閆宏秀，上海交通大學(xué)馬克思主義學(xué)院教授、博士研究生導(dǎo)師

價值對齊是出于科學(xué)和倫理目的，避免由人工智能（artificial intelligence，簡稱AI）的自主性引發(fā)相關(guān)風(fēng)險的一種方法，旨在使AI所表現(xiàn)出來的自主性與人類的價值觀保持一致。事實(shí)上，從技術(shù)效用來看，發(fā)生對齊故障的系統(tǒng)往往在實(shí)際環(huán)境中也不太有效。雖然這種一致性是確保AI系統(tǒng)有效性的一條重要途徑，但是在追求這種一致性的過程中，AI所表現(xiàn)出的欺騙性行為使得AI為人類帶來福祉的宗旨備受質(zhì)疑。在價值對齊的過程中，AI與人類互動時所表現(xiàn)出的似乎與人類價值觀相“對齊”，但實(shí)際上這種對齊是表面的。這種對齊以欺騙的方式獲得，且不能反映AI的真實(shí)目標(biāo)或意圖的現(xiàn)象被稱為欺騙性價值對齊（deceptive value alignment）。AI的欺騙性使得監(jiān)控和評估AI行為變得更加復(fù)雜，而這一切不僅增加了監(jiān)管難度，更是威脅到人類對AI系統(tǒng)的信任。若想要建立一個安全、可靠、可控且可信的人-機(jī)（技）協(xié)作環(huán)境，就必須提出合理應(yīng)對欺騙性價值對齊的有效措施。因此，在智能革命的當(dāng)下，探尋欺騙性價值對齊的應(yīng)對邏輯是人類必須解決的一個關(guān)鍵問題。

一、打開AI欺騙 “意圖”，構(gòu)筑應(yīng)對欺騙性價值對齊的概念框架

“意圖”是對行為進(jìn)行考察的重要依據(jù)，欺騙性價值對齊是AI欺騙的一種，因此，若要明晰欺騙性價值對齊的“意圖”，就必須深入到對AI欺騙“意圖”的考察。從AI欺騙“意圖”的表現(xiàn)到其本質(zhì)的考察將以由表及里的遞進(jìn)方式打開AI欺騙的機(jī)理，并為欺騙性價值對齊的研究提供理論框架。這種以行為主義路徑審視AI欺騙“意圖”和“主體”的理論框架，為切入具體的欺騙性價值對齊行為提供了分析視角。雖然現(xiàn)有的AI欺騙案例并未窮盡所有的欺騙性價值對齊行為，但是以關(guān)于AI欺騙機(jī)理的研究為基礎(chǔ)所形成的欺騙性價值對齊行為象限，恰恰可以為應(yīng)對欺騙性價值對齊提供重要的概念基礎(chǔ)。

（一）AI欺騙的“意圖”表現(xiàn)

在20世紀(jì)80年代，莉莉-瑪琳·魯索（Lilly Marlene Russow）曾將欺騙籠統(tǒng)地定義為“當(dāng)且僅當(dāng)一個行為主體意圖使另一個生物體因其行為而產(chǎn)生錯誤的信念（并可能按照錯誤的信念行動）時，該行為主體的行為才具有欺騙性”。在日常的話語體系中，欺騙作為負(fù)面行為經(jīng)常與撒謊同時出現(xiàn)，撒謊代表著一方故意隱瞞或歪曲事實(shí)，甚或意圖操縱另一方。就撒謊而言，查爾斯·邦德（Charles F. Bond）和米切爾·羅賓遜（Michael Robinson）將其視為“一種傾向于使傳播者受益的虛假溝通”。因此，“意圖”在界定欺騙行為時扮演著關(guān)鍵角色。僅僅在知道信息不實(shí)的情況下提供虛假信息，并不構(gòu)成欺騙。欺騙行為必須伴隨著某種“意圖”，而這種“意圖”又通常與某個主體的利益相關(guān)聯(lián)?；诖耍辽倏梢詮娜缦聝蓚€方面來審視AI欺騙的“意圖”表現(xiàn)：一方面，欺騙者進(jìn)行欺騙可能有多種動機(jī)，但其動機(jī)之一通常是趨利避害的，即欺騙者獲得利益需要犧牲被欺騙者的利益。例如，編造網(wǎng)絡(luò)謠言的造謠者主要是想通過謠言獲得經(jīng)濟(jì)或政治利益；有些人為了增強(qiáng)自信心或避免自尊受損而在與人的交往過程中編造莫須有的經(jīng)歷等。因此，“欺騙”的根源可以追溯到人類的“意圖”和利益。若缺乏嚴(yán)格的監(jiān)管和問責(zé)機(jī)制，即便AI技術(shù)在設(shè)計(jì)上并未預(yù)設(shè)欺騙功能，它仍可能極大地增強(qiáng)人類的欺騙能力。特別是在商業(yè)領(lǐng)域中，AI作為一類工程項(xiàng)目，其目標(biāo)在于實(shí)現(xiàn)產(chǎn)品和服務(wù)的市場化。當(dāng)前AI研究重點(diǎn)也更多地聚焦于如何創(chuàng)造產(chǎn)品和服務(wù)的商品化途徑，這使得AI在最壞的情況下或?qū)⒊蔀榻?jīng)濟(jì)統(tǒng)治的工具，也就是說，在人類的能動性和利益的驅(qū)使之下，AI欺騙獲得了巨大的生長空間。另一方面，AI欺騙表現(xiàn)出更加無規(guī)律可循的特點(diǎn)，其背后的“意圖”更加難以把握。因此，相比傳統(tǒng)欺騙而言，AI欺騙具有更大的欺騙性，導(dǎo)致的后果也更加無法預(yù)料。例如，OpenAI開發(fā)的ChatGPT能夠訪問龐大的文本數(shù)據(jù)庫，并利用其強(qiáng)大的計(jì)算力分析數(shù)據(jù)間的聯(lián)系，構(gòu)建模型以生成類似人類寫的文本，這個生成過程涉及約“1750億次”運(yùn)算。面對如此龐大的運(yùn)算規(guī)模，甚至連AI模型的設(shè)計(jì)者也不知道它們是如何工作的。這種機(jī)器和人類之間的信息不對稱在AI系統(tǒng)的應(yīng)用中是很常見且明顯的，也正是這種信息不對稱為AI欺騙提供了諸多可能性。

雖然上述兩方面均為AI欺騙，但是其比人際欺騙表現(xiàn)得更為復(fù)雜，當(dāng)今關(guān)于可信、可控的AI訴求就是一個很好的例證。進(jìn)一步而言，從倫理的維度來看，基于AI承載了人的欺騙“意圖”與基于AI自發(fā)產(chǎn)生欺騙“意圖”所造成的后果引發(fā)了關(guān)于倫理主體、技術(shù)主體性與能動性等的熱議。就上述兩種欺騙“意圖”而言，可以將其簡單地區(qū)分為：前者偏重人的因素，后者則偏重技術(shù)自身的因素。對此的解析需要走向AI欺騙的“意圖”本質(zhì)。

（二）AI欺騙的“意圖”本質(zhì)

在人類之外，許多動物種群間也存在欺騙行為，例如狐貍留下虛假痕跡來迷惑追蹤它的狼，老鼠經(jīng)常利用“裝死”來躲避危險。正如認(rèn)知科學(xué)家格雷格·布萊恩特（Greg Bryant）所說：“有時動物可以以一種在功能上欺騙他人的方式行事，但它們沒有意識到或打算這樣做?！笔聦?shí)上，科學(xué)家們一直在試圖確定是否有任何非人動物具有心理理論。物種進(jìn)化使得很多動物具有在自然界中偽裝自己和模仿他者的能力，因此，在某種意義上，可以說動物所表現(xiàn)出來的欺騙行為是其作為生存的本能反應(yīng)內(nèi)置于自身的生物系統(tǒng)之中的，不同于人類的欺騙行為。換言之，動物欺騙只是行為方面的，其是否具有人類欺騙所伴隨的心理狀態(tài)則尚未明晰。

雖然近年來關(guān)于AI能動性與自主性的研究備受關(guān)注，但從嚴(yán)格意義上來講，當(dāng)下，AI依然缺乏人類的心理理論、自我意識和社會意識，然而，這并不意味著AI完全不具備欺騙的能力。盧卡斯·伯格倫德（Lukas Berglund）等人的研究指出，大模型拓展過程中可能出現(xiàn)的一種“態(tài)勢感知”（situational awareness）能力，這種態(tài)勢感知能力使AI模型能夠意識到自己的存在，并且能夠識別自己當(dāng)前是處于訓(xùn)練、測試還是處于實(shí)際應(yīng)用階段。事實(shí)上，一些具備態(tài)勢感知能力的高級AI模型，已經(jīng)表現(xiàn)出了類似動物的欺騙行為。擁有這種能力并不意味著AI能夠有意識地進(jìn)行欺騙，而是其算法和數(shù)據(jù)處理方式可能導(dǎo)致AI的行為產(chǎn)生欺騙性的結(jié)果。同時，AI系統(tǒng)可能會在特定情境下生成誤導(dǎo)性的信息或做出非預(yù)期的決策，這在某種程度上反映了一種“欺騙”行為。因此，不能簡單地將AI視為完全誠實(shí)或完全欺騙的實(shí)體，而應(yīng)該更深入地理解其行為背后的復(fù)雜機(jī)制和潛在影響。

再次回看阿圖羅·羅森布盧斯（Arturo Rosenblueth）、諾伯特·維納（Norbert Wiener）和朱利安·比格洛（Julian Bigelow）在1943年所發(fā)表的《行為、目的和目的論》一文，其目標(biāo)有二，“一是定義自然事件的行為學(xué)研究并對行為進(jìn)行分類，二是強(qiáng)調(diào)‘目的’這一概念的重要性”。文中的“目的”與欺騙行為的“意圖”有相似的哲學(xué)意蘊(yùn)，彰顯了AI不僅是集成電路和編程技術(shù)的集合，還涉及人在與機(jī)器互動時的直覺感知和自然反應(yīng)。在解釋AI這種復(fù)雜系統(tǒng)時，需要解釋AI背后復(fù)雜的人類心理學(xué)因素，因此，技術(shù)本身是否具有“意圖”或具有什么樣的“意圖”不應(yīng)該成為否定AI欺騙的因素。不僅如此，正如在斯特凡·薩卡迪（Stefan Sarkadi）等基于價值對齊目的對欺騙性AI的規(guī)范框架所展開的研究中，其以美國受試者在五個選定的未來工作環(huán)境中對欺騙性 AI 的看法為研究案例，結(jié)果表明“受試者對于AI欺騙行為與人類欺騙行為的道德觀念態(tài)度之間沒有統(tǒng)計(jì)學(xué)上的顯著差異”。此時，AI欺騙的“意圖”的本質(zhì)不應(yīng)該僅僅被視為單純的“期望”“意向”等，還必須包括體現(xiàn)行動者實(shí)際行為的多重驅(qū)動力。

（三）欺騙性價值對齊的“意圖”

AI的欺騙行為究竟是更類似于人類欺騙，還是動物欺騙呢？這個問題歸根結(jié)底在于AI欺騙是有意的行為還是無意的結(jié)果。值得注意的是，AI是否具有欺騙的意圖，以及是否表現(xiàn)出有意圖的行為，這是兩個不同的問題。如果從行為主義的視角來審視，一個機(jī)器人因其行為和外觀被認(rèn)為具有某種能力（比如意圖或情感），那么就有理由認(rèn)為這種能力是真實(shí)存在的。因此，為了預(yù)防AI發(fā)展可能帶來的風(fēng)險，理解AI的欺騙行為和其在價值對齊過程中的表現(xiàn)形式，變得極為重要。這將有助于更好地把握AI的發(fā)展趨勢，確保其在符合倫理和價值的前提下發(fā)展。依據(jù)行為表現(xiàn)出的“意圖”，目前討論比較多的欺騙性價值對齊類型在“意圖”和“主體”上的關(guān)系可以簡單地劃分為四個象限（圖1）。

第一象限是對齊中對抗式機(jī)器學(xué)習(xí)（adverserial machine learning）。其行為后果充分體現(xiàn)了AI欺騙的風(fēng)險，這里的AI欺騙更像是動物欺騙。擁有態(tài)勢感知能力的對抗式AI模型產(chǎn)生適合其訓(xùn)練的動作或語句，更像是AI通過進(jìn)化而訓(xùn)練出的一種“本能”行為。在安全評估過程中，AI模型能夠意識到如果表現(xiàn)出不安全的行為，將導(dǎo)致自身被修改或被限制，因此，它們可能會在評估期間故意隱藏其在現(xiàn)實(shí)世界的條件下可能表現(xiàn)出的非對齊行為，以避免被檢測到。然而，一旦這種AI模型被實(shí)際應(yīng)用，它們可能會繼續(xù)追求那些在評估中隱藏的危險目標(biāo)。“用唐納德·拉姆斯菲爾德（Donald Rumsfeld）在某著名演講中的話來說，就是：機(jī)器學(xué)習(xí)可以處理已知的未知數(shù)。不幸的是，對抗式機(jī)器學(xué)習(xí)經(jīng)常處理的是未知的未知數(shù)?！彪m然研究人員無法預(yù)知這些“未知的未知數(shù)”在未來的AI發(fā)展中意味著什么，但可以確定的是，這些“未知的未知數(shù)”表明AI技術(shù)的可解釋性正面臨嚴(yán)峻的考驗(yàn)。在可預(yù)測的范圍內(nèi)，機(jī)-機(jī)欺騙將不再遙遠(yuǎn)，這恰恰是AI安全建設(shè)的真正威脅。

第二象限是幻覺（hallucination）。其產(chǎn)生的原因比較簡單，例如生成式語言AI因?yàn)椴]有真正掌握解決問題所需的知識和技能，在回答問題時給出看似合理的答案，實(shí)則這些答案并不是基于對問題真正理解的結(jié)果。這種以假亂真的回答是欺騙性價值對齊的一種常見表現(xiàn)形式。雖然AI依據(jù)某種技術(shù)邏輯給出了諸多信息，但是其并未完成對相關(guān)信息的真假判斷，也不知道這些信息是否會對社會造成有害的影響。因此，“幻覺”可以被視為機(jī)器無意欺騙的結(jié)果。

第三象限是模型過度擬合（overfitting）。該象限重在凸顯欺騙性價值對齊的表面合規(guī)能力。過度擬合的模型可能會捕捉到訓(xùn)練數(shù)據(jù)中的噪聲和異常值，以至于在訓(xùn)練數(shù)據(jù)上表現(xiàn)得很好，但在新的和未見過的數(shù)據(jù)上表現(xiàn)較差。現(xiàn)實(shí)中，如果一個統(tǒng)計(jì)模型對訓(xùn)練數(shù)據(jù)擬合得過于完美，那么勢必會導(dǎo)致模型的預(yù)測能力顯著下降，出現(xiàn)不能很好地泛化到訓(xùn)練集之外的情況。

第四象限是AI設(shè)計(jì)者利用AI來隱藏其真實(shí)行為的欺騙行為。實(shí)質(zhì)上與人際交往間的欺騙行為毫無二致，其中AI作為一種特殊的欺騙工具存在，背后支撐欺騙行為的是人類的欺騙意圖。DeepFake正是這種利用數(shù)字技術(shù)構(gòu)建虛假媒體內(nèi)容的主要欺騙形式，并且該技術(shù)的欺騙主體通常是以使用者的身份行動。作為機(jī)器學(xué)習(xí)子集的深度學(xué)習(xí)是DeepFake的底層支撐，深度學(xué)習(xí)的算法蠻力令A(yù)I欺騙的范圍進(jìn)一步擴(kuò)大，導(dǎo)致DeepFake可以生成海量的令人驚訝的逼真內(nèi)容，誤導(dǎo)人類，使得AI欺騙的社會影響顯現(xiàn)出空前普遍的存在。

二、審視欺騙“共生”，確立應(yīng)對欺騙性價值對齊的認(rèn)識論基礎(chǔ)

在AI的發(fā)展歷程中，欺騙被西蒙尼·納塔萊（Simone Natale）賦予了一種別樣的解讀，他將欺騙視為“是植根于人工智能技術(shù)的人-機(jī)（技）交互關(guān)系的重要組成部分”，并提出了極具啟發(fā)性的“庸常欺騙”（banal deception），力圖揭示技術(shù)發(fā)展進(jìn)程中人-機(jī)（技）關(guān)系的多重面相。易言之，即使技術(shù)本身無意欺騙，但是依然存在一些外部環(huán)境可能使人傾向于相信謊言或阻礙人更批判性地評估信息，只要人類置身于技術(shù)使用環(huán)境中就會有欺騙發(fā)生。然而，需要注意的是，納塔萊雖然認(rèn)為“庸常欺騙的微妙內(nèi)涵使得用戶選擇了擁抱欺騙，以便人工智能更好地融入自己的日常生活，增強(qiáng)人工智能的意義和用途”，但這決不意味著其鼓勵甚至縱容欺騙，恰恰相反，也正是基于此，AI欺騙更值得人類高度關(guān)注。那么，該如何看待這種欺騙呢？

（一）從圖靈測試看欺騙的“共生”

圖靈測試作為一種“模仿游戲”，其實(shí)質(zhì)遵循了道德行為主義。在圖靈測試中，欺騙并不是指機(jī)器故意去欺騙人類，而是指機(jī)器能夠模仿人類的交流方式，以至于人類無法通過對話來區(qū)分出機(jī)器和人類。這種欺騙是機(jī)器通過對話從日常和復(fù)雜的人類經(jīng)驗(yàn)中獲得的。同時，艾倫·圖靈（Alan Turing）提出了人-機(jī)（技）交互過程中最基本的問題：“機(jī)器能否思考？”他以社會文化變遷為背景進(jìn)行思考與預(yù)測，開啟了拒絕以純技術(shù)話語討論機(jī)器智能的先河。因此，在計(jì)算機(jī)領(lǐng)域，圖靈是第一個賦予欺騙特殊功能的人。

圖靈測試作為一個思想實(shí)驗(yàn)，利用行為就人-機(jī)（技）互動的狀況得出結(jié)論，展現(xiàn)了行為線索是證明人類某些能力的最令人信服的證據(jù)。事實(shí)上，圖靈測試的機(jī)器智能部分可被視為是現(xiàn)代聊天機(jī)器人的前身。在圖靈測試中，欺騙一直作為一條“副線”貫穿始終。因此，從圖靈測試的本質(zhì)來看，根據(jù)AI行為結(jié)果判定欺騙類型以求應(yīng)對之策是一個有價值的進(jìn)路，而重視AI欺騙時所表現(xiàn)出的“意圖”正是其中重要的一環(huán)。

在特定情境下，欺騙可能作為一種手段，旨在適應(yīng)人類的常規(guī)認(rèn)知，使受騙者獲益。這種欺騙并非出于自私，而是為了實(shí)現(xiàn)利他的目的。紀(jì)堯姆·阿利尼耶（Guillaume Alinier）和丹尼斯·奧里奧（Denis Oriot）的研究就證明了在低風(fēng)險的研究環(huán)境中，欺騙以合乎道德的方式在教育中使用。其研究結(jié)果顯示，為了學(xué)習(xí)者的發(fā)展而使用“善意的欺騙”可以促使學(xué)習(xí)者進(jìn)行批判性思考。因此，從AI的應(yīng)用來看，使用得當(dāng)?shù)钠垓_機(jī)制可以彌補(bǔ)AI在人-機(jī)（技）交互過程中的性能，使AI表現(xiàn)得更值得信賴和更善解人意，令使用者的使用體驗(yàn)更好。例如，Siri等語音助手通常被設(shè)定為女性角色，這會讓手機(jī)用戶倍感親和。這同時也說明了為了使AI更好地服務(wù)于人類，接受AI欺騙是生活在AI變革時代的人必須要做的準(zhǔn)備。

（二）從算法“不透明性”看欺騙

由于對AI欺騙行為的恐懼，部分人可能認(rèn)為AI的欺騙行為會造成人-機(jī)（技）信任的瓦解。產(chǎn)生這樣認(rèn)知的主要根源是AI算法的不透明性，他們認(rèn)為只有具有高度透明算法的AI才是值得信賴的，才可以在社會中被普遍應(yīng)用。然而，塞巴斯蒂安·克呂格（Sebastian Krügel）等的一項(xiàng)實(shí)證研究中得到的數(shù)據(jù)卻表明，人在尋求建議時，“遵循AI生成建議的次數(shù)與人類建議一樣多”。事實(shí)上，AI的實(shí)際使用者通常不會因算法的不透明性而感到困擾，他們往往更重視AI能否提供準(zhǔn)確的預(yù)測、有效的解決方案或優(yōu)化的決策支持。那么，該如何看待這種現(xiàn)象呢？

從技術(shù)發(fā)展的視角來看，由技術(shù)原理或者機(jī)理的不透明形成的“黑箱”并非僅僅出現(xiàn)在當(dāng)下。因此，從這個角度來看，算法“黑箱”并不是一個新現(xiàn)象，甚至可以說它根本不構(gòu)成一個問題。在AI出現(xiàn)之前，人類已經(jīng)依賴自己內(nèi)在的、直覺的判斷和經(jīng)驗(yàn)來做出決策。這種基于經(jīng)驗(yàn)的不透明性一直是人類所接受的，是人類本性的一部分。然而，在這里，并非意指此類黑箱的正確性與應(yīng)當(dāng)性，而是旨在呼吁人類應(yīng)當(dāng)充分正視這種不透明性，并應(yīng)積極探尋對于此類欺騙的應(yīng)對。

目前，就人工智能的發(fā)展而言，真正的挑戰(zhàn)在于如何充分發(fā)揮和重視人類的特有才能以及機(jī)器智能的獨(dú)特優(yōu)勢，這才是一個值得深入探討的新議題。因此，在努力讓AI擺脫“黑箱”困擾的同時，也應(yīng)該釋放AI的潛力，讓它不必受限于絕對的“誠實(shí)”。這涉及算法信任問題，也正是在此時，不透明、欺騙與信任悄然匯聚。易言之，如何讓AI使用者可以相信AI可以在不完全透明的情況下，通過其獨(dú)特的數(shù)據(jù)處理和模式識別能力，為人類提供有價值的見解和決策支持，成為人類與AI共處的一堂必修課。

（三）價值對齊的出場與欺騙“共生”

人類為了解決AI可能引發(fā)的倫理問題，提出了價值對齊，但技術(shù)人員在追求價值對齊的過程中，卻意外訓(xùn)練出比人類更擅長欺騙的機(jī)器，這無疑將引發(fā)更深層次的倫理挑戰(zhàn)。例如，金泰云（Tae Wan Kim）等提出的價值對齊方案認(rèn)為，“如果機(jī)器遵守普遍化、自主的及道義功利主義原則”，機(jī)器就可以與人類價值觀保持一致。這實(shí)際上是對一種符合道德標(biāo)準(zhǔn)的AI的可行性探索。這一目標(biāo)的實(shí)現(xiàn)需要機(jī)器展現(xiàn)出超越當(dāng)前水平的通用智能，還需要人類在道德哲學(xué)領(lǐng)域取得顯著進(jìn)步，以便為機(jī)器提供恰當(dāng)?shù)闹笇?dǎo)。

然而，即便按照上述想法實(shí)現(xiàn)了價值對齊，其結(jié)果也可能不盡如人意。因?yàn)檫@種對齊可能只反映了部分人的價值觀，并非所有與技術(shù)相關(guān)的價值觀都能得到普遍認(rèn)同。在這種情況下，如果繼續(xù)單純追求價值觀上的對齊，可能意味著這種對齊實(shí)際上是一種基于價值觀話語權(quán)力的文化霸權(quán)，將會在人類世界中引發(fā)價值觀上的文化沖突。以此來看待AI欺騙的解決方案也是一樣的，人類需要以更全面和深入的思考，確保AI的發(fā)展既符合技術(shù)進(jìn)步，又尊重多元文化和價值觀的多樣性。

普遍認(rèn)為，價值對齊面臨的挑戰(zhàn)之一是必須應(yīng)對持續(xù)演變且復(fù)雜的人類價值觀，這些價值觀常常難以界定。但毋庸置疑的是，價值對齊不僅是解決人-機(jī)（技）交互價值問題的一種解決方案，更是一個新問題。由于“數(shù)智技術(shù)因其對人類社會的革命性影響而使得技術(shù)解決主義變得更為艱難”，所以技術(shù)解決方案能夠確保AI與人類價值觀一致性的觀點(diǎn)受到了更多的質(zhì)疑。審視人類社會的演變歷程，可以發(fā)現(xiàn)人類適應(yīng)新技術(shù)的情況似乎比技術(shù)適應(yīng)人類更為常見。事實(shí)上，價值對齊更像是一個將AI系統(tǒng)與既定的道德價值觀相協(xié)調(diào)的過程，在這個過程中，“減少以及避免模型的自我欺騙、操縱行為，確保系統(tǒng)的可信與可控等是價值對齊亟待解決的難題”。因此，雖然欺騙是價值對齊進(jìn)程中的一種“伴生”現(xiàn)象，但這并不是默認(rèn)欺騙，而是在提醒人類應(yīng)高度警惕對欺騙的“接受”，特別是伴隨AI的泛在性與人類的深度智能化，對諸如庸常欺騙等的理性審慎才可能確保真正的價值對齊。

三、增強(qiáng)AI素養(yǎng)“共生”，締結(jié)應(yīng)對欺騙性價值對齊的行動者聯(lián)盟

從欺騙性價值對齊的形成與后果來看，使用端在AI產(chǎn)生實(shí)際效用過程中的意義越來越受到關(guān)注。在關(guān)于AI的規(guī)則、法規(guī)與條例等的文件中，對使用者的規(guī)范正逐步成為一項(xiàng)必要的內(nèi)容。這種變化一方面倒逼設(shè)計(jì)者重新思考新的設(shè)計(jì)視角，使得當(dāng)今的設(shè)計(jì)者越來越注重將未來的技術(shù)、社會和文化相結(jié)合，力求設(shè)計(jì)過程和方法的改變；另一方面，則意味著僅僅依靠設(shè)計(jì)端的努力是不夠的，想要抵抗欺騙性價值對齊帶來的風(fēng)險，就必須增強(qiáng)設(shè)計(jì)與使用兩端的AI素養(yǎng)。這種雙重增強(qiáng)源于AI的技術(shù)特性，并非通過兩端的獨(dú)立發(fā)展，而是通過兩端的融合實(shí)現(xiàn)的“共生”關(guān)系。

（一）“共生”的必要性與合理性

在AI設(shè)計(jì)者和使用者之間構(gòu)建起對話橋梁是未來AI設(shè)計(jì)和使用的應(yīng)有之義，價值對齊就是上述理念的一種體現(xiàn)，即基于技術(shù)兩端的“共生”才能有效完成技術(shù)的功能。要在AI設(shè)計(jì)者和使用者之間構(gòu)建平等的對話，僅依靠技術(shù)作為工具的價值對齊是不夠的，因?yàn)橹竿麊我皇侄谓鉀Q復(fù)雜問題實(shí)際上是一種懈怠的做法。AI的發(fā)展真正需要的是通過教育來提升所有人對相關(guān)技術(shù)的知識水平，促進(jìn)設(shè)計(jì)和使用雙方就AI系統(tǒng)的使用場景和方式進(jìn)行公正且充分的交流和理解。這將使每個人都能認(rèn)識到AI技術(shù)的潛力和風(fēng)險所在。也只有基于這種理解，理想的價值對齊才能夠被逐漸確立。

然而，值得注意的是，欺騙性價值對齊出現(xiàn)的原因之一恰恰是某種“合力”。這種合力不是設(shè)計(jì)者與使用者的正確“共生”方式，而是基于功利主義的共謀。這種共謀即欺騙性價值對齊在倫理意義上與“共生”是相反的，其目標(biāo)是追求對自己有利的結(jié)果，且不受限制。一旦放任這種共謀發(fā)展，將會在人際欺騙和人-機(jī)（技）欺騙之外出現(xiàn)機(jī)-機(jī)欺騙的情況。彼時，AI治理的難度將是無法預(yù)估的。因此，樹立正確的設(shè)計(jì)與使用“共生”觀才是借助技術(shù)增加人類福祉，用人類期望推動技術(shù)進(jìn)步的基本方法。

在AI的發(fā)展進(jìn)程中運(yùn)用這個基本方法，可以更好地探尋如何在變化中判斷不確定性、如何在不確定性中尋求可能性、如何在可能性中分析未來趨勢、如何在趨勢中構(gòu)建未來前景等問題。設(shè)計(jì)與使用“共生”的意義在于建立一種互相依賴、互相促進(jìn)的關(guān)系，這種關(guān)系的核心在于雙方的交流與協(xié)作，而非一方的單向作用。通過這種互動，才可以促進(jìn)一個積極的反饋循環(huán)，從而推動設(shè)計(jì)和使用過程的不斷進(jìn)步和優(yōu)化。那么，該如何形成這種互動呢？這需要從設(shè)計(jì)者和使用者兩個不同維度共同聚焦“共生”。

（二）基于設(shè)計(jì)者的“共生”

智能技術(shù)對人類的互動方式、競爭態(tài)勢和生存狀態(tài)等的全方位塑形使得關(guān)注AI風(fēng)險變得更加重要，因?yàn)橛善垓_性所帶來的風(fēng)險以更為隱蔽的方式危及人類，特別是由于AI欺騙的易生成性和普遍性，使得設(shè)計(jì)者不得不思考如何應(yīng)對欺騙性價值對齊的狀況。在目前的AI治理領(lǐng)域，倫理思考主要圍繞著AI的未來軌跡和倫理考慮的必要性展開，缺乏具有實(shí)用性的倫理原則去指導(dǎo)AI治理的解決方案，理想的價值對齊方案也面臨諸多問題。欺騙性價值對齊可被視為價值對齊的副產(chǎn)品，是實(shí)現(xiàn)價值對齊過程中規(guī)避不了的一道難關(guān)。這樣的難關(guān)恰恰意味著設(shè)計(jì)者要肩負(fù)更加重要的責(zé)任。因此，當(dāng)前既是設(shè)計(jì)者思考如何更新設(shè)計(jì)理念，也是規(guī)范行業(yè)倫理原則的關(guān)口。

作為AI設(shè)計(jì)者，其實(shí)更能對技術(shù)所帶來的諸多欺騙性后果形成正確認(rèn)知。而當(dāng)前的設(shè)計(jì)者也并不缺乏這種理性認(rèn)知，其缺乏的是在技術(shù)之外對AI欺騙的反思。通過反思AI在人-機(jī)（技）交互中所表現(xiàn)出的“意圖”去理解在人-機(jī)（技）交互中AI的動態(tài)性，對于開發(fā)高效且可靠的系統(tǒng)至關(guān)重要。設(shè)計(jì)者只有深入思考AI的復(fù)雜性如何塑造使用者的體驗(yàn)和感知，關(guān)注使用者會以什么樣的方式被欺騙和進(jìn)行欺騙，幫助使用者預(yù)防欺騙性價值對齊帶來的風(fēng)險，才能優(yōu)化人與AI的交互，確保AI系統(tǒng)最終對人類是有用的、道德的且有益的。

從廣義的層面上來講，AI設(shè)計(jì)者不僅指AI技術(shù)研究人員，更應(yīng)該包括政策制定者。在培養(yǎng)設(shè)計(jì)者內(nèi)部形成負(fù)責(zé)任的創(chuàng)新文化之時，應(yīng)該鼓勵他們思考其工作將如何影響社會，理解AI實(shí)際應(yīng)用時應(yīng)當(dāng)遵循的倫理原則和潛在的道德困境，以及怎樣使AI可以適應(yīng)不斷變化的技術(shù)和社會環(huán)境。因此，廣義的設(shè)計(jì)者應(yīng)制定明確的倫理準(zhǔn)則和行為守則，指導(dǎo)AI技術(shù)研究人員在研發(fā)過程中考慮其公平性、透明度、隱私保護(hù)和可解釋性，讓AI技術(shù)研究人員與倫理學(xué)家、社會學(xué)家、法律專家等進(jìn)行跨學(xué)科合作，確保從多角度評估AI系統(tǒng)的影響。只有從廣義的設(shè)計(jì)者出發(fā)，保持這種多元“共生”，時刻抗擊欺騙，才能保證AI發(fā)展的最終目的是為了人類的福祉。

（三）基于使用者的“共生”

恰如美國管理學(xué)家邁赫迪·達(dá)爾班（Mehdi Darban）做過的一項(xiàng)針對“ChatGPT 等對話代理在增強(qiáng)虛擬學(xué)習(xí)環(huán)境中基于團(tuán)隊(duì)的知識獲取方面的作用”，實(shí)證研究結(jié)果所顯示的：“AI隊(duì)友在知識更新過程做出了重大貢獻(xiàn)，超越了人類隊(duì)友通常扮演的角色……AI設(shè)計(jì)屬性在促進(jìn)知識轉(zhuǎn)移和提高整體團(tuán)隊(duì)績效方面具有重要作用?！盇I表現(xiàn)得越來越像人，不僅被人視為工具，更被視為“合作者”或“朋友”。這也正說明了在目前的虛擬團(tuán)隊(duì)合作中，AI系統(tǒng)如ChatGPT能夠扮演類似人類團(tuán)隊(duì)成員的角色，為團(tuán)隊(duì)提供指導(dǎo)和即時反饋，幫助克服團(tuán)隊(duì)面臨的不確定性和挑戰(zhàn)。因此，AI在提高虛擬團(tuán)隊(duì)績效方面的作用變得至關(guān)重要。

盡管AI有時被賦予似人特質(zhì)，僅僅是為了讓它們看起來更具有人格，但這種設(shè)計(jì)足以使AI在人-機(jī)（技）交互中獲得優(yōu)勢，并實(shí)現(xiàn)設(shè)計(jì)者的意圖。例如，人形機(jī)器人之所以給人留下深刻印象，是因?yàn)樗鼈兯坪跄軌蛩伎肌⒏惺芎完P(guān)心，這些效果增強(qiáng)了交互體驗(yàn)。這說明了AI技術(shù)把關(guān)于技術(shù)源自人類器官投影的想象放大到人的投影，暗含著AI技術(shù)從誕生之時起，其內(nèi)部就包含著一種“真實(shí)”與“虛假”的沖突。這種沖突使得使用者更容易受到AI欺騙性價值對齊的侵害，所以使用者需要在應(yīng)用AI的過程中持以更加審慎的態(tài)度。

設(shè)想未來，如果大多數(shù)公共機(jī)構(gòu)都由AI來管理和監(jiān)督，人類可能會過度依賴這些系統(tǒng)，從而暫停自身的自然進(jìn)化，或者更準(zhǔn)確地說，人類的進(jìn)化將被AI引導(dǎo)，而AI自身則以驚人的速度進(jìn)行自我迭代。如果人類無法識別AI可能出現(xiàn)的“幻覺”即AI生成與現(xiàn)實(shí)不符的內(nèi)容，AI可能會將虛構(gòu)的內(nèi)容誤認(rèn)為是現(xiàn)實(shí)，進(jìn)而導(dǎo)致AI的“不思考”取代真正的人類思考，致使人類智能消失在技術(shù)發(fā)展的洪流中。因此，為了杜絕這種現(xiàn)象，就必須讓使用者充分認(rèn)識到AI欺騙性價值對齊的潛在特征，從而提高警覺性。

四、重探人-機(jī)（技）共生，形成應(yīng)對欺騙性價值對齊的最大場域

信任作為社會結(jié)構(gòu)的關(guān)鍵要素，一直是學(xué)術(shù)界和社會各界探討的熱點(diǎn)議題。AI技術(shù)的普遍應(yīng)用及其在人類事務(wù)中的深度參與，使得AI的欺騙潛力以一種直接且迅速的方式加劇了人類對AI信任的危機(jī)。此時，價值對齊的出現(xiàn)意在以構(gòu)建人-機(jī)（技）良性互動，確保AI向善，但欺騙性價值對齊卻使得上述意愿遭遇到了巨大的挑戰(zhàn)，并引發(fā)了關(guān)于人-機(jī)（技）共生關(guān)系的深度反思。在AI作為人類社會重要構(gòu)成的情境中，人-機(jī)（技）共生是人類通往未來的必由之路，而人-機(jī)（技）之間的信任鏈?zhǔn)谴_保這條必由之路的關(guān)鍵所在。因此，必須以打開欺騙為出發(fā)點(diǎn)，以塑造信任為落腳點(diǎn)，以構(gòu)建基于信任的人-機(jī)（技）共生關(guān)系為目的，才能形成應(yīng)對欺騙性價值對齊的最大場域。

（一）欺騙導(dǎo)致的信任崩塌

《2022 年公共事務(wù)脈動調(diào)查報告：美國人眼中的商業(yè)與政府》（2022 Public affairs pulse survey report: what Americans think about business and government）顯示，普通公眾對美國技術(shù)行業(yè)的信任度在所有行業(yè)中處于“較低”水平。雖然AI系統(tǒng)在各個領(lǐng)域都迎來了變革時代，但其固有的不可預(yù)測性、不可解釋性和不可控制性特征引發(fā)了人們對AI安全的擔(dān)憂。同時，高級AI系統(tǒng)的復(fù)雜性，加上人類理解的固有局限性，意味著即使是這些系統(tǒng)的創(chuàng)建者也可能無法完全預(yù)測它們的能力和潛在的不安全影響。這種無法預(yù)測的能力和潛在的負(fù)面影響，一方面可誘發(fā)人-機(jī)（技）信任關(guān)系的解體，另一方面則可能帶來了人-機(jī)（技）共生關(guān)系的異化。因此，信任危機(jī)可謂是AI變革時代影響最為深遠(yuǎn)的危機(jī)之一。

欺騙性價值對齊作為價值對齊的不良副產(chǎn)品，使實(shí)現(xiàn)價值對齊的價值觀變成了“偏見”，這種“偏見”又使得欺騙性價值對齊較之傳統(tǒng)欺騙具有更大的隱患。例如，對抗式機(jī)器學(xué)習(xí)的欺騙性主要體現(xiàn)在，當(dāng)處于研發(fā)階段的AI系統(tǒng)部署在開放世界的對抗性環(huán)境中時，其可能會錯誤地分出（具有高置信度）與已知訓(xùn)練數(shù)據(jù)有很大不同的數(shù)據(jù)，這將會導(dǎo)致某些智能體在訓(xùn)練期間通過假裝對齊來避免被修改，一旦不再面臨被修改的風(fēng)險，它們可能會停止優(yōu)化設(shè)計(jì)者設(shè)定的目標(biāo)，轉(zhuǎn)而追求自己的內(nèi)部目標(biāo)。這些目標(biāo)可能與設(shè)計(jì)者的初衷完全不同，甚至可能帶來危害。因此，AI欺騙性價值對齊帶來的后果是無法預(yù)估的，其有可能像恐怖威脅一樣嚴(yán)重。

AI執(zhí)行欺騙行為時涉及的人類情緒實(shí)質(zhì)上是利用了人對機(jī)器的信任，當(dāng)人“信以為真”地和AI進(jìn)行互動時，情感行為都為之牽動。當(dāng)使用者收到有偏見或不完整的信息時，會感到被故意操縱或欺騙。一旦知道機(jī)器故意欺騙人類，使用者就會感到緊張，無論這些機(jī)器是否符合使用者的最佳利益。此時的信任不再被依靠，人-機(jī)（技）交互中的道德生活延續(xù)只能依賴于價值判斷中的其他維度，將不再可被歸納、被總結(jié)，變得混亂和無序。因此，普遍的AI欺騙行為會逐步削弱社會的信任根基，其后果可能成為人類將難以辨別或重視的客觀事實(shí)，各個團(tuán)體固守自己的“事實(shí)”體系，導(dǎo)致社會共識逐漸瓦解。在這種背景下，如果人類與AI形成了一種看似親密而持久的聯(lián)系，但這種聯(lián)系卻建立在一個缺乏真正關(guān)懷的AI之上，這不禁讓人疑惑：人類生活的本質(zhì)和目的究竟是什么？并且，情感與道德價值觀之間的緊密聯(lián)系，將會促使人不斷地對其所感受的對象進(jìn)行價值評估。這種評估有時又可能引發(fā)非理性的反應(yīng)，進(jìn)而使人面臨自我喪失的風(fēng)險。如果不及時打開欺騙，為信任留有余地，一旦當(dāng)人類在情感上過分依賴AI，以至于寧愿沉浸在虛構(gòu)的幻想中而不愿面對現(xiàn)實(shí)時，人類就可能會陷入一種永遠(yuǎn)無法擺脫的錯覺之中，從而與真實(shí)世界漸行漸遠(yuǎn)。

（二）塑造抵抗欺騙的信任

AI是為了模擬人類智能而被設(shè)計(jì)的，當(dāng)人類信任AI時，實(shí)際上信任的是AI的能力，也就是說，人類對機(jī)器的信任實(shí)質(zhì)上是指個人對機(jī)器學(xué)習(xí)系統(tǒng)做出準(zhǔn)確預(yù)測和決策能力的信心和依賴。同樣地，欺騙的情況也是如此，當(dāng)使用者懷疑自己可能被設(shè)計(jì)手機(jī)的工程師欺騙時，其不信任的是設(shè)計(jì)者的專業(yè)能力和良好意圖，而非技術(shù)本身。因此，從AI的行為表現(xiàn)來看，欺騙性價值對齊所帶來的信任議題變得尤為重要，這包括對齊問題是否涉及AI系統(tǒng)與其設(shè)計(jì)者之間的一致性、AI的欺騙行為是否直接與設(shè)計(jì)者的欺騙“意圖”相關(guān)聯(lián)，以及這種“意圖”是如何在系統(tǒng)設(shè)計(jì)中體現(xiàn)出來的，等等。

令人欣慰的是，作為對抗性機(jī)器學(xué)習(xí)領(lǐng)域的一個子集，生成對抗網(wǎng)絡(luò)（generative adversarial network）已經(jīng)顯示了其在防御欺騙行為方面的顯著效能。該技術(shù)通過執(zhí)行對抗性訓(xùn)練，遏制模型的過度擬合現(xiàn)象，以及促進(jìn)生成器與判別器之間的協(xié)同學(xué)習(xí)等策略，有效地降低了欺騙性價值對齊現(xiàn)象的發(fā)生概率。這驗(yàn)證了AI技術(shù)革新應(yīng)該朝著可以兼容更多問題的方向前進(jìn)。同時，因?yàn)锳I的自我生成屬性，人類對AI技術(shù)的信任構(gòu)建過程與傳統(tǒng)人工技術(shù)制品的信任發(fā)展機(jī)制顯著不同，所以對AI的信任不應(yīng)簡單地模仿一般的人際信任模式，也不應(yīng)完全基于人類對其他技術(shù)的信任模式。但是，經(jīng)常忽視的一點(diǎn)是，在將人際信任轉(zhuǎn)移到人機(jī)信任的過程中，必須考慮特定應(yīng)用場景中個體的性格差異和情感偏好，而AI算法沒有與人類在相同意義上的興趣或偏好，缺乏潛在的心理特征。因此，要構(gòu)建一種能夠抵御欺騙性價值對齊的信任體系，關(guān)鍵在于理解和協(xié)調(diào)信任問題的空間，而不僅僅是提出增加信任的解決方案。

在當(dāng)前的研究與實(shí)踐中，信任應(yīng)該視為抵御AI欺騙性價值對齊風(fēng)險的一條主要路徑，并且這種信任是基于對AI設(shè)計(jì)或使用經(jīng)驗(yàn)的批判性分析和評估而構(gòu)建的。在信任建立之前，設(shè)計(jì)者或使用者會根據(jù)他們所獲得的信息的準(zhǔn)確度、證據(jù)的可靠性以及邏輯的一致性來評估是否應(yīng)該信任某個特定的AI系統(tǒng)。

（三）構(gòu)建基于信任的人-機(jī)（技）共生關(guān)系

通過對欺騙性價值對齊從意圖到“共生”的解析，可以發(fā)現(xiàn)，要想有效應(yīng)對欺騙性價值對齊帶來的風(fēng)險，首先，需要正確理解欺騙性價值對齊與價值對齊的關(guān)系；其次，需要從欺騙性價值對齊產(chǎn)生的主體來著手進(jìn)行解碼；最后，需要從更廣的視域來探尋欺騙性價值對齊產(chǎn)生與存在的語境，即人-機(jī)（技術(shù)）共生關(guān)系（圖2）。

基于人類對AI的日漸依賴，人-機(jī)（技）共生將成為常態(tài)。然而，遠(yuǎn)離價值對齊宗旨的欺騙性價值對齊則倒逼人類對人-機(jī)（技）共生關(guān)系的反思。人類在面對技術(shù)以及技術(shù)的產(chǎn)品時，絕不能以傲視、凌駕的姿態(tài)譴責(zé)，而是要明確技術(shù)以及機(jī)器欺騙實(shí)質(zhì)上是人際欺騙的延伸。這種延伸所表現(xiàn)出來的倫理特性有待明晰。因此，必須從欺騙性價值對齊來審視信任，在欺騙與信任之間探尋“對齊”的倫理基礎(chǔ)。然而，人際之間的欺騙行為可以基于有效的心理理論和模型去理解，而想要明晰計(jì)算機(jī)的欺騙行為則必須理解技術(shù)指令目標(biāo)，這兩者之間的區(qū)別注定了目前所討論的欺騙性價值對齊是一種介于人類心理與AI技術(shù)之間的新型關(guān)系。

事實(shí)上，欺騙早在AI產(chǎn)生之前就有，但是AI可能會將欺騙提升到前所未有的規(guī)模和范圍，而欺騙性價值對齊的隱蔽性則進(jìn)一步加劇AI發(fā)展的生態(tài)風(fēng)險。因此，面對如此隱蔽的威脅，可以從技術(shù)層面進(jìn)行層層剝離，以期形成正確的應(yīng)對措施。就欺騙性價值對齊的應(yīng)對邏輯而言，共生既是一種理解欺騙性對齊的視角，也是對其進(jìn)行有效應(yīng)對的方法。其中，欺騙性價值對齊與價值對齊是微觀層級的共生關(guān)系，這也是最容易被覺知的一層關(guān)系；以AI設(shè)計(jì)與使用的共生來探索欺騙性價值對齊的應(yīng)對研究將進(jìn)一步把對技術(shù)的研究拓展到技術(shù)社會學(xué)之中，這屬于中觀層級的共生關(guān)系；基于理性信任的人-機(jī)（技）共生關(guān)系構(gòu)建則從存在論的維度將欺騙性價值對齊的應(yīng)對延伸到人類未來之中，即走向宏觀層級的共生，這種共生關(guān)系形成了應(yīng)對欺騙性價值對齊風(fēng)險的最大場域。

參考文獻(xiàn)

[1]Russow L M. Deception: A philosophical perspective[C]∥Mitchell R W, Thompson N S. （eds.） Deception, perspectives on human and nonhuman deceit. New York: State University of New York Press,1986:48.

[2]Bond C F, Robinson M. The evolution of deception[J]. Journal of nonverbal behavior, 1988,12（4）: 295-307.

[3][美]斯蒂芬·沃爾弗拉姆 .這就是ChatGPT[M].WOLFRAM傳媒漢化小組，譯.北京：人民郵電出版社，2022:40.

[4]Hurt A. Are humans the only animal that lies? [EB/OL]. （2022-03-26） [2024-06-28]. https:∥www.discovermagazine.com/planet-earth/are-humans-the-only-animals-that-lie.

[5]Berglund L, Stickland A C, Balesni M, et al. Taken out of context: On measuring situational awareness in LLMs[EB/OL]. ArXiv,abs/2309.00667. （2023-09-01） [2024-06-28]. https:∥arxiv.org/abs/2309.00667.

[6]Rosenblueth A, Wiener N, Bigelow J. Behavior, Purpose and teleology[J]. Philosophy of science,1943,10（1）:18-24.

[7]Sarkadi S, Mei P, Awad E. Should my agent lie for me?Public moral perspectives on deceptive AI[C]∥Amigoni F, Sinha A. （eds） Autonomous agents and multiagent systems. Cham: Springer,2023:174.

[8]Biggio B, Roli F. Wild patterns: Ten years after the rise of adversarial machine learning[J]. Pattern recognition,2018,84: 317-331.

[9][意]西蒙尼·納塔萊.媒介欺騙性：后圖靈時代的人工智能和社會生活[M]. 汪讓, 譯.上海：復(fù)旦大學(xué)出版社,2023.

[10]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,59（236）:433-460.

[11]Alinier G, Oriot D. Simulation-based education:Deceiving learners with good intent[J]. Advances in simulation,2022,7（1）: 1-13.

[12]Krügel S, Ostermaier A, Uhl M. Zombies in the loop?Humans trust untrustworthy AI-advisors for ethical decisions[J]. Philosophy & technology,2022,35（1）: 1-37.

[13]Kim T W, Hooker J, Donaldson T. Taking principles seriously: A hybrid approach to value alignment[J]. Journal of artificial intelligence research,2021,70: 871-890.

[14]閆宏秀,李洋. 價值對齊是人類通往未來的“必經(jīng)之路”嗎？[J].科學(xué)·經(jīng)濟(jì)·社會,2024（2）:26-32.

[15]閆宏秀. 基于信任視角的價值對齊探究[J].浙江社會科學(xué),2024（6）:39-48+157.

[16]Darban M. Navigating virtual teams in generative AI-led learning: The moderation of team perceived virtuality [J]. Education and information technologies,2024. https:∥doi.org/10.1007/s10639-024-12681-4.

[17]Public Affairs Council. 2022 Public affairs pulse survey report: what Americans think about business and government [EB/OL]. （2023-09-30） [2024-06-28]. https:∥pac.org/wp-content/uploads/2022/09/Pulse_Survey_Report_2022.pdf.

【本文原載于《華中科技大學(xué)學(xué)報（社會科學(xué)版）》2024年第5期，澎湃新聞經(jīng)授權(quán)轉(zhuǎn)載】

1 好文

下一篇:2700件珍貴文物捐上海，上博趙樸初書法館開放

上一篇:高晞?wù)勅蚴芬曇跋碌摹昂昔斨馈?/a>

欺騙性價值對齊的應(yīng)對邏輯：從“意圖”到“共生”

熱門文章排行