注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)新聞資訊文化

欺騙性價(jià)值對(duì)齊的應(yīng)對(duì)邏輯:從“意圖”到“共生”

欺騙性價(jià)值對(duì)齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價(jià)值對(duì)齊備受質(zhì)疑,因此,對(duì)其的應(yīng)對(duì)是價(jià)值對(duì)齊必須解決的一個(gè)關(guān)鍵問題。

欺騙性價(jià)值對(duì)齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價(jià)值對(duì)齊備受質(zhì)疑,因此,對(duì)其的應(yīng)對(duì)是價(jià)值對(duì)齊必須解決的一個(gè)關(guān)鍵問題。依據(jù)“意圖”與“主體”兩個(gè)要素所形成的欺騙性價(jià)值對(duì)齊行為象限可構(gòu)筑應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的概念框架;以理性認(rèn)知面對(duì)與欺騙“共生”的價(jià)值對(duì)齊,可形成應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的認(rèn)識(shí)論基礎(chǔ)。在設(shè)計(jì)與使用的共生之中所展開的AI素養(yǎng)雙重增強(qiáng),可構(gòu)成應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的行動(dòng)者聯(lián)盟。從欺騙的打開到信任的塑造所展開的人-機(jī)(技)共生關(guān)系構(gòu)建則可為欺騙性價(jià)值對(duì)齊的應(yīng)對(duì)提供存在論與價(jià)值論基礎(chǔ)。

閆宏秀,上海交通大學(xué)馬克思主義學(xué)院教授、博士研究生導(dǎo)師


價(jià)值對(duì)齊是出于科學(xué)和倫理目的,避免由人工智能(artificial intelligence,簡(jiǎn)稱AI)的自主性引發(fā)相關(guān)風(fēng)險(xiǎn)的一種方法,旨在使AI所表現(xiàn)出來的自主性與人類的價(jià)值觀保持一致。事實(shí)上,從技術(shù)效用來看,發(fā)生對(duì)齊故障的系統(tǒng)往往在實(shí)際環(huán)境中也不太有效。雖然這種一致性是確保AI系統(tǒng)有效性的一條重要途徑,但是在追求這種一致性的過程中,AI所表現(xiàn)出的欺騙性行為使得AI為人類帶來福祉的宗旨備受質(zhì)疑。在價(jià)值對(duì)齊的過程中,AI與人類互動(dòng)時(shí)所表現(xiàn)出的似乎與人類價(jià)值觀相“對(duì)齊”,但實(shí)際上這種對(duì)齊是表面的。這種對(duì)齊以欺騙的方式獲得,且不能反映AI的真實(shí)目標(biāo)或意圖的現(xiàn)象被稱為欺騙性價(jià)值對(duì)齊(deceptive value alignment)。AI的欺騙性使得監(jiān)控和評(píng)估AI行為變得更加復(fù)雜,而這一切不僅增加了監(jiān)管難度,更是威脅到人類對(duì)AI系統(tǒng)的信任。若想要建立一個(gè)安全、可靠、可控且可信的人-機(jī)(技)協(xié)作環(huán)境,就必須提出合理應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的有效措施。因此,在智能革命的當(dāng)下,探尋欺騙性價(jià)值對(duì)齊的應(yīng)對(duì)邏輯是人類必須解決的一個(gè)關(guān)鍵問題。

一、打開AI欺騙 “意圖”,構(gòu)筑應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的概念框架

“意圖”是對(duì)行為進(jìn)行考察的重要依據(jù),欺騙性價(jià)值對(duì)齊是AI欺騙的一種,因此,若要明晰欺騙性價(jià)值對(duì)齊的“意圖”,就必須深入到對(duì)AI欺騙“意圖”的考察。從AI欺騙“意圖”的表現(xiàn)到其本質(zhì)的考察將以由表及里的遞進(jìn)方式打開AI欺騙的機(jī)理,并為欺騙性價(jià)值對(duì)齊的研究提供理論框架。這種以行為主義路徑審視AI欺騙“意圖”和“主體”的理論框架,為切入具體的欺騙性價(jià)值對(duì)齊行為提供了分析視角。雖然現(xiàn)有的AI欺騙案例并未窮盡所有的欺騙性價(jià)值對(duì)齊行為,但是以關(guān)于AI欺騙機(jī)理的研究為基礎(chǔ)所形成的欺騙性價(jià)值對(duì)齊行為象限,恰恰可以為應(yīng)對(duì)欺騙性價(jià)值對(duì)齊提供重要的概念基礎(chǔ)。

(一)AI欺騙的“意圖”表現(xiàn)

在20世紀(jì)80年代,莉莉-瑪琳·魯索(Lilly Marlene Russow)曾將欺騙籠統(tǒng)地定義為“當(dāng)且僅當(dāng)一個(gè)行為主體意圖使另一個(gè)生物體因其行為而產(chǎn)生錯(cuò)誤的信念(并可能按照錯(cuò)誤的信念行動(dòng))時(shí),該行為主體的行為才具有欺騙性”。在日常的話語體系中,欺騙作為負(fù)面行為經(jīng)常與撒謊同時(shí)出現(xiàn),撒謊代表著一方故意隱瞞或歪曲事實(shí),甚或意圖操縱另一方。就撒謊而言,查爾斯·邦德(Charles F. Bond)和米切爾·羅賓遜(Michael Robinson)將其視為“一種傾向于使傳播者受益的虛假溝通”。因此,“意圖”在界定欺騙行為時(shí)扮演著關(guān)鍵角色。僅僅在知道信息不實(shí)的情況下提供虛假信息,并不構(gòu)成欺騙。欺騙行為必須伴隨著某種“意圖”,而這種“意圖”又通常與某個(gè)主體的利益相關(guān)聯(lián)?;诖?,至少可以從如下兩個(gè)方面來審視AI欺騙的“意圖”表現(xiàn):一方面,欺騙者進(jìn)行欺騙可能有多種動(dòng)機(jī),但其動(dòng)機(jī)之一通常是趨利避害的,即欺騙者獲得利益需要犧牲被欺騙者的利益。例如,編造網(wǎng)絡(luò)謠言的造謠者主要是想通過謠言獲得經(jīng)濟(jì)或政治利益;有些人為了增強(qiáng)自信心或避免自尊受損而在與人的交往過程中編造莫須有的經(jīng)歷等。因此,“欺騙”的根源可以追溯到人類的“意圖”和利益。若缺乏嚴(yán)格的監(jiān)管和問責(zé)機(jī)制,即便AI技術(shù)在設(shè)計(jì)上并未預(yù)設(shè)欺騙功能,它仍可能極大地增強(qiáng)人類的欺騙能力。特別是在商業(yè)領(lǐng)域中,AI作為一類工程項(xiàng)目,其目標(biāo)在于實(shí)現(xiàn)產(chǎn)品和服務(wù)的市場(chǎng)化。當(dāng)前AI研究重點(diǎn)也更多地聚焦于如何創(chuàng)造產(chǎn)品和服務(wù)的商品化途徑,這使得AI在最壞的情況下或?qū)⒊蔀榻?jīng)濟(jì)統(tǒng)治的工具,也就是說,在人類的能動(dòng)性和利益的驅(qū)使之下,AI欺騙獲得了巨大的生長(zhǎng)空間。另一方面,AI欺騙表現(xiàn)出更加無規(guī)律可循的特點(diǎn),其背后的“意圖”更加難以把握。因此,相比傳統(tǒng)欺騙而言,AI欺騙具有更大的欺騙性,導(dǎo)致的后果也更加無法預(yù)料。例如,OpenAI開發(fā)的ChatGPT能夠訪問龐大的文本數(shù)據(jù)庫(kù),并利用其強(qiáng)大的計(jì)算力分析數(shù)據(jù)間的聯(lián)系,構(gòu)建模型以生成類似人類寫的文本,這個(gè)生成過程涉及約“1750億次”運(yùn)算。面對(duì)如此龐大的運(yùn)算規(guī)模,甚至連AI模型的設(shè)計(jì)者也不知道它們是如何工作的。這種機(jī)器和人類之間的信息不對(duì)稱在AI系統(tǒng)的應(yīng)用中是很常見且明顯的,也正是這種信息不對(duì)稱為AI欺騙提供了諸多可能性。

雖然上述兩方面均為AI欺騙,但是其比人際欺騙表現(xiàn)得更為復(fù)雜,當(dāng)今關(guān)于可信、可控的AI訴求就是一個(gè)很好的例證。進(jìn)一步而言,從倫理的維度來看,基于AI承載了人的欺騙“意圖”與基于AI自發(fā)產(chǎn)生欺騙“意圖”所造成的后果引發(fā)了關(guān)于倫理主體、技術(shù)主體性與能動(dòng)性等的熱議。就上述兩種欺騙“意圖”而言,可以將其簡(jiǎn)單地區(qū)分為:前者偏重人的因素,后者則偏重技術(shù)自身的因素。對(duì)此的解析需要走向AI欺騙的“意圖”本質(zhì)。

(二)AI欺騙的“意圖”本質(zhì)

在人類之外,許多動(dòng)物種群間也存在欺騙行為,例如狐貍留下虛假痕跡來迷惑追蹤它的狼,老鼠經(jīng)常利用“裝死”來躲避危險(xiǎn)。正如認(rèn)知科學(xué)家格雷格·布萊恩特(Greg Bryant) 所說:“有時(shí)動(dòng)物可以以一種在功能上欺騙他人的方式行事,但它們沒有意識(shí)到或打算這樣做。”事實(shí)上,科學(xué)家們一直在試圖確定是否有任何非人動(dòng)物具有心理理論。物種進(jìn)化使得很多動(dòng)物具有在自然界中偽裝自己和模仿他者的能力,因此,在某種意義上,可以說動(dòng)物所表現(xiàn)出來的欺騙行為是其作為生存的本能反應(yīng)內(nèi)置于自身的生物系統(tǒng)之中的,不同于人類的欺騙行為。換言之,動(dòng)物欺騙只是行為方面的,其是否具有人類欺騙所伴隨的心理狀態(tài)則尚未明晰。

雖然近年來關(guān)于AI能動(dòng)性與自主性的研究備受關(guān)注,但從嚴(yán)格意義上來講,當(dāng)下,AI依然缺乏人類的心理理論、自我意識(shí)和社會(huì)意識(shí),然而,這并不意味著AI完全不具備欺騙的能力。盧卡斯·伯格倫德(Lukas Berglund)等人的研究指出,大模型拓展過程中可能出現(xiàn)的一種“態(tài)勢(shì)感知”(situational awareness)能力,這種態(tài)勢(shì)感知能力使AI模型能夠意識(shí)到自己的存在,并且能夠識(shí)別自己當(dāng)前是處于訓(xùn)練、測(cè)試還是處于實(shí)際應(yīng)用階段。事實(shí)上,一些具備態(tài)勢(shì)感知能力的高級(jí)AI模型,已經(jīng)表現(xiàn)出了類似動(dòng)物的欺騙行為。擁有這種能力并不意味著AI能夠有意識(shí)地進(jìn)行欺騙,而是其算法和數(shù)據(jù)處理方式可能導(dǎo)致AI的行為產(chǎn)生欺騙性的結(jié)果。同時(shí),AI系統(tǒng)可能會(huì)在特定情境下生成誤導(dǎo)性的信息或做出非預(yù)期的決策,這在某種程度上反映了一種“欺騙”行為。因此,不能簡(jiǎn)單地將AI視為完全誠(chéng)實(shí)或完全欺騙的實(shí)體,而應(yīng)該更深入地理解其行為背后的復(fù)雜機(jī)制和潛在影響。

再次回看阿圖羅·羅森布盧斯(Arturo Rosenblueth)、諾伯特·維納(Norbert Wiener)和朱利安·比格洛(Julian Bigelow)在1943年所發(fā)表的《行為、目的和目的論》一文,其目標(biāo)有二,“一是定義自然事件的行為學(xué)研究并對(duì)行為進(jìn)行分類,二是強(qiáng)調(diào)‘目的’這一概念的重要性”。文中的“目的”與欺騙行為的“意圖”有相似的哲學(xué)意蘊(yùn),彰顯了AI不僅是集成電路和編程技術(shù)的集合,還涉及人在與機(jī)器互動(dòng)時(shí)的直覺感知和自然反應(yīng)。在解釋AI這種復(fù)雜系統(tǒng)時(shí),需要解釋AI背后復(fù)雜的人類心理學(xué)因素,因此,技術(shù)本身是否具有“意圖”或具有什么樣的“意圖”不應(yīng)該成為否定AI欺騙的因素。不僅如此,正如在斯特凡·薩卡迪(Stefan Sarkadi)等基于價(jià)值對(duì)齊目的對(duì)欺騙性AI的規(guī)范框架所展開的研究中,其以美國(guó)受試者在五個(gè)選定的未來工作環(huán)境中對(duì)欺騙性 AI 的看法為研究案例,結(jié)果表明“受試者對(duì)于AI欺騙行為與人類欺騙行為的道德觀念態(tài)度之間沒有統(tǒng)計(jì)學(xué)上的顯著差異”。此時(shí),AI欺騙的“意圖”的本質(zhì)不應(yīng)該僅僅被視為單純的“期望”“意向”等,還必須包括體現(xiàn)行動(dòng)者實(shí)際行為的多重驅(qū)動(dòng)力。

(三)欺騙性價(jià)值對(duì)齊的“意圖”

AI的欺騙行為究竟是更類似于人類欺騙,還是動(dòng)物欺騙呢?這個(gè)問題歸根結(jié)底在于AI欺騙是有意的行為還是無意的結(jié)果。值得注意的是,AI是否具有欺騙的意圖,以及是否表現(xiàn)出有意圖的行為,這是兩個(gè)不同的問題。如果從行為主義的視角來審視,一個(gè)機(jī)器人因其行為和外觀被認(rèn)為具有某種能力(比如意圖或情感),那么就有理由認(rèn)為這種能力是真實(shí)存在的。因此,為了預(yù)防AI發(fā)展可能帶來的風(fēng)險(xiǎn),理解AI的欺騙行為和其在價(jià)值對(duì)齊過程中的表現(xiàn)形式,變得極為重要。這將有助于更好地把握AI的發(fā)展趨勢(shì),確保其在符合倫理和價(jià)值的前提下發(fā)展。依據(jù)行為表現(xiàn)出的“意圖”,目前討論比較多的欺騙性價(jià)值對(duì)齊類型在“意圖”和“主體”上的關(guān)系可以簡(jiǎn)單地劃分為四個(gè)象限(圖1)。

第一象限是對(duì)齊中對(duì)抗式機(jī)器學(xué)習(xí)(adverserial machine learning)。其行為后果充分體現(xiàn)了AI欺騙的風(fēng)險(xiǎn),這里的AI欺騙更像是動(dòng)物欺騙。擁有態(tài)勢(shì)感知能力的對(duì)抗式AI模型產(chǎn)生適合其訓(xùn)練的動(dòng)作或語句,更像是AI通過進(jìn)化而訓(xùn)練出的一種“本能”行為。在安全評(píng)估過程中,AI模型能夠意識(shí)到如果表現(xiàn)出不安全的行為,將導(dǎo)致自身被修改或被限制,因此,它們可能會(huì)在評(píng)估期間故意隱藏其在現(xiàn)實(shí)世界的條件下可能表現(xiàn)出的非對(duì)齊行為,以避免被檢測(cè)到。然而,一旦這種AI模型被實(shí)際應(yīng)用,它們可能會(huì)繼續(xù)追求那些在評(píng)估中隱藏的危險(xiǎn)目標(biāo)?!坝锰萍{德·拉姆斯菲爾德(Donald Rumsfeld)在某著名演講中的話來說,就是:機(jī)器學(xué)習(xí)可以處理已知的未知數(shù)。不幸的是,對(duì)抗式機(jī)器學(xué)習(xí)經(jīng)常處理的是未知的未知數(shù)?!彪m然研究人員無法預(yù)知這些“未知的未知數(shù)”在未來的AI發(fā)展中意味著什么,但可以確定的是,這些“未知的未知數(shù)”表明AI技術(shù)的可解釋性正面臨嚴(yán)峻的考驗(yàn)。在可預(yù)測(cè)的范圍內(nèi),機(jī)-機(jī)欺騙將不再遙遠(yuǎn),這恰恰是AI安全建設(shè)的真正威脅。

第二象限是幻覺(hallucination)。其產(chǎn)生的原因比較簡(jiǎn)單,例如生成式語言AI因?yàn)椴]有真正掌握解決問題所需的知識(shí)和技能,在回答問題時(shí)給出看似合理的答案,實(shí)則這些答案并不是基于對(duì)問題真正理解的結(jié)果。這種以假亂真的回答是欺騙性價(jià)值對(duì)齊的一種常見表現(xiàn)形式。雖然AI依據(jù)某種技術(shù)邏輯給出了諸多信息,但是其并未完成對(duì)相關(guān)信息的真假判斷,也不知道這些信息是否會(huì)對(duì)社會(huì)造成有害的影響。因此,“幻覺”可以被視為機(jī)器無意欺騙的結(jié)果。

第三象限是模型過度擬合(overfitting)。該象限重在凸顯欺騙性價(jià)值對(duì)齊的表面合規(guī)能力。過度擬合的模型可能會(huì)捕捉到訓(xùn)練數(shù)據(jù)中的噪聲和異常值,以至于在訓(xùn)練數(shù)據(jù)上表現(xiàn)得很好,但在新的和未見過的數(shù)據(jù)上表現(xiàn)較差?,F(xiàn)實(shí)中,如果一個(gè)統(tǒng)計(jì)模型對(duì)訓(xùn)練數(shù)據(jù)擬合得過于完美,那么勢(shì)必會(huì)導(dǎo)致模型的預(yù)測(cè)能力顯著下降,出現(xiàn)不能很好地泛化到訓(xùn)練集之外的情況。

第四象限是AI設(shè)計(jì)者利用AI來隱藏其真實(shí)行為的欺騙行為。實(shí)質(zhì)上與人際交往間的欺騙行為毫無二致,其中AI作為一種特殊的欺騙工具存在,背后支撐欺騙行為的是人類的欺騙意圖。DeepFake正是這種利用數(shù)字技術(shù)構(gòu)建虛假媒體內(nèi)容的主要欺騙形式,并且該技術(shù)的欺騙主體通常是以使用者的身份行動(dòng)。作為機(jī)器學(xué)習(xí)子集的深度學(xué)習(xí)是DeepFake的底層支撐,深度學(xué)習(xí)的算法蠻力令A(yù)I欺騙的范圍進(jìn)一步擴(kuò)大,導(dǎo)致DeepFake可以生成海量的令人驚訝的逼真內(nèi)容,誤導(dǎo)人類,使得AI欺騙的社會(huì)影響顯現(xiàn)出空前普遍的存在。

二、審視欺騙“共生”, 確立應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的認(rèn)識(shí)論基礎(chǔ)

在AI的發(fā)展歷程中,欺騙被西蒙尼·納塔萊(Simone Natale)賦予了一種別樣的解讀,他將欺騙視為“是植根于人工智能技術(shù)的人-機(jī)(技)交互關(guān)系的重要組成部分”,并提出了極具啟發(fā)性的“庸常欺騙”(banal deception),力圖揭示技術(shù)發(fā)展進(jìn)程中人-機(jī)(技)關(guān)系的多重面相。易言之,即使技術(shù)本身無意欺騙,但是依然存在一些外部環(huán)境可能使人傾向于相信謊言或阻礙人更批判性地評(píng)估信息,只要人類置身于技術(shù)使用環(huán)境中就會(huì)有欺騙發(fā)生。然而,需要注意的是,納塔萊雖然認(rèn)為“庸常欺騙的微妙內(nèi)涵使得用戶選擇了擁抱欺騙,以便人工智能更好地融入自己的日常生活,增強(qiáng)人工智能的意義和用途”,但這決不意味著其鼓勵(lì)甚至縱容欺騙,恰恰相反,也正是基于此,AI欺騙更值得人類高度關(guān)注。那么,該如何看待這種欺騙呢? 

(一)從圖靈測(cè)試看欺騙的“共生”

圖靈測(cè)試作為一種“模仿游戲”,其實(shí)質(zhì)遵循了道德行為主義。在圖靈測(cè)試中,欺騙并不是指機(jī)器故意去欺騙人類,而是指機(jī)器能夠模仿人類的交流方式,以至于人類無法通過對(duì)話來區(qū)分出機(jī)器和人類。這種欺騙是機(jī)器通過對(duì)話從日常和復(fù)雜的人類經(jīng)驗(yàn)中獲得的。同時(shí),艾倫·圖靈(Alan Turing)提出了人-機(jī)(技)交互過程中最基本的問題:“機(jī)器能否思考?”他以社會(huì)文化變遷為背景進(jìn)行思考與預(yù)測(cè),開啟了拒絕以純技術(shù)話語討論機(jī)器智能的先河。因此,在計(jì)算機(jī)領(lǐng)域,圖靈是第一個(gè)賦予欺騙特殊功能的人。

圖靈測(cè)試作為一個(gè)思想實(shí)驗(yàn),利用行為就人-機(jī)(技)互動(dòng)的狀況得出結(jié)論,展現(xiàn)了行為線索是證明人類某些能力的最令人信服的證據(jù)。事實(shí)上,圖靈測(cè)試的機(jī)器智能部分可被視為是現(xiàn)代聊天機(jī)器人的前身。在圖靈測(cè)試中,欺騙一直作為一條“副線”貫穿始終。因此,從圖靈測(cè)試的本質(zhì)來看,根據(jù)AI行為結(jié)果判定欺騙類型以求應(yīng)對(duì)之策是一個(gè)有價(jià)值的進(jìn)路,而重視AI欺騙時(shí)所表現(xiàn)出的“意圖”正是其中重要的一環(huán)。

在特定情境下,欺騙可能作為一種手段,旨在適應(yīng)人類的常規(guī)認(rèn)知,使受騙者獲益。這種欺騙并非出于自私,而是為了實(shí)現(xiàn)利他的目的。紀(jì)堯姆·阿利尼耶(Guillaume Alinier)和丹尼斯·奧里奧(Denis Oriot)的研究就證明了在低風(fēng)險(xiǎn)的研究環(huán)境中,欺騙以合乎道德的方式在教育中使用。其研究結(jié)果顯示,為了學(xué)習(xí)者的發(fā)展而使用“善意的欺騙”可以促使學(xué)習(xí)者進(jìn)行批判性思考。因此,從AI的應(yīng)用來看,使用得當(dāng)?shù)钠垓_機(jī)制可以彌補(bǔ)AI在人-機(jī)(技)交互過程中的性能,使AI表現(xiàn)得更值得信賴和更善解人意,令使用者的使用體驗(yàn)更好。例如,Siri等語音助手通常被設(shè)定為女性角色,這會(huì)讓手機(jī)用戶倍感親和。這同時(shí)也說明了為了使AI更好地服務(wù)于人類,接受AI欺騙是生活在AI變革時(shí)代的人必須要做的準(zhǔn)備。

(二)從算法“不透明性”看欺騙

由于對(duì)AI欺騙行為的恐懼,部分人可能認(rèn)為AI的欺騙行為會(huì)造成人-機(jī)(技)信任的瓦解。產(chǎn)生這樣認(rèn)知的主要根源是AI算法的不透明性,他們認(rèn)為只有具有高度透明算法的AI才是值得信賴的,才可以在社會(huì)中被普遍應(yīng)用。然而,塞巴斯蒂安·克呂格(Sebastian Krügel)等的一項(xiàng)實(shí)證研究中得到的數(shù)據(jù)卻表明,人在尋求建議時(shí),“遵循AI生成建議的次數(shù)與人類建議一樣多”。事實(shí)上,AI的實(shí)際使用者通常不會(huì)因算法的不透明性而感到困擾,他們往往更重視AI能否提供準(zhǔn)確的預(yù)測(cè)、有效的解決方案或優(yōu)化的決策支持。那么,該如何看待這種現(xiàn)象呢?

從技術(shù)發(fā)展的視角來看,由技術(shù)原理或者機(jī)理的不透明形成的“黑箱”并非僅僅出現(xiàn)在當(dāng)下。因此,從這個(gè)角度來看,算法“黑箱”并不是一個(gè)新現(xiàn)象,甚至可以說它根本不構(gòu)成一個(gè)問題。在AI出現(xiàn)之前,人類已經(jīng)依賴自己內(nèi)在的、直覺的判斷和經(jīng)驗(yàn)來做出決策。這種基于經(jīng)驗(yàn)的不透明性一直是人類所接受的,是人類本性的一部分。然而,在這里,并非意指此類黑箱的正確性與應(yīng)當(dāng)性,而是旨在呼吁人類應(yīng)當(dāng)充分正視這種不透明性,并應(yīng)積極探尋對(duì)于此類欺騙的應(yīng)對(duì)。

目前,就人工智能的發(fā)展而言,真正的挑戰(zhàn)在于如何充分發(fā)揮和重視人類的特有才能以及機(jī)器智能的獨(dú)特優(yōu)勢(shì),這才是一個(gè)值得深入探討的新議題。因此,在努力讓AI擺脫“黑箱”困擾的同時(shí),也應(yīng)該釋放AI的潛力,讓它不必受限于絕對(duì)的“誠(chéng)實(shí)”。這涉及算法信任問題,也正是在此時(shí),不透明、欺騙與信任悄然匯聚。易言之,如何讓AI使用者可以相信AI可以在不完全透明的情況下,通過其獨(dú)特的數(shù)據(jù)處理和模式識(shí)別能力,為人類提供有價(jià)值的見解和決策支持,成為人類與AI共處的一堂必修課。

(三)價(jià)值對(duì)齊的出場(chǎng)與欺騙“共生”

人類為了解決AI可能引發(fā)的倫理問題,提出了價(jià)值對(duì)齊,但技術(shù)人員在追求價(jià)值對(duì)齊的過程中,卻意外訓(xùn)練出比人類更擅長(zhǎng)欺騙的機(jī)器,這無疑將引發(fā)更深層次的倫理挑戰(zhàn)。例如,金泰云(Tae Wan Kim)等提出的價(jià)值對(duì)齊方案認(rèn)為,“如果機(jī)器遵守普遍化、自主的及道義功利主義原則”,機(jī)器就可以與人類價(jià)值觀保持一致。這實(shí)際上是對(duì)一種符合道德標(biāo)準(zhǔn)的AI的可行性探索。這一目標(biāo)的實(shí)現(xiàn)需要機(jī)器展現(xiàn)出超越當(dāng)前水平的通用智能,還需要人類在道德哲學(xué)領(lǐng)域取得顯著進(jìn)步,以便為機(jī)器提供恰當(dāng)?shù)闹笇?dǎo)。

然而,即便按照上述想法實(shí)現(xiàn)了價(jià)值對(duì)齊,其結(jié)果也可能不盡如人意。因?yàn)檫@種對(duì)齊可能只反映了部分人的價(jià)值觀,并非所有與技術(shù)相關(guān)的價(jià)值觀都能得到普遍認(rèn)同。在這種情況下,如果繼續(xù)單純追求價(jià)值觀上的對(duì)齊,可能意味著這種對(duì)齊實(shí)際上是一種基于價(jià)值觀話語權(quán)力的文化霸權(quán),將會(huì)在人類世界中引發(fā)價(jià)值觀上的文化沖突。以此來看待AI欺騙的解決方案也是一樣的,人類需要以更全面和深入的思考,確保AI的發(fā)展既符合技術(shù)進(jìn)步,又尊重多元文化和價(jià)值觀的多樣性。

普遍認(rèn)為,價(jià)值對(duì)齊面臨的挑戰(zhàn)之一是必須應(yīng)對(duì)持續(xù)演變且復(fù)雜的人類價(jià)值觀,這些價(jià)值觀常常難以界定。但毋庸置疑的是,價(jià)值對(duì)齊不僅是解決人-機(jī)(技)交互價(jià)值問題的一種解決方案,更是一個(gè)新問題。由于“數(shù)智技術(shù)因其對(duì)人類社會(huì)的革命性影響而使得技術(shù)解決主義變得更為艱難”,所以技術(shù)解決方案能夠確保AI與人類價(jià)值觀一致性的觀點(diǎn)受到了更多的質(zhì)疑。審視人類社會(huì)的演變歷程,可以發(fā)現(xiàn)人類適應(yīng)新技術(shù)的情況似乎比技術(shù)適應(yīng)人類更為常見。事實(shí)上,價(jià)值對(duì)齊更像是一個(gè)將AI系統(tǒng)與既定的道德價(jià)值觀相協(xié)調(diào)的過程,在這個(gè)過程中,“減少以及避免模型的自我欺騙、操縱行為,確保系統(tǒng)的可信與可控等是價(jià)值對(duì)齊亟待解決的難題”。因此,雖然欺騙是價(jià)值對(duì)齊進(jìn)程中的一種“伴生”現(xiàn)象,但這并不是默認(rèn)欺騙,而是在提醒人類應(yīng)高度警惕對(duì)欺騙的“接受”,特別是伴隨AI的泛在性與人類的深度智能化,對(duì)諸如庸常欺騙等的理性審慎才可能確保真正的價(jià)值對(duì)齊。

三、增強(qiáng)AI素養(yǎng)“共生”,締結(jié)應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的行動(dòng)者聯(lián)盟

從欺騙性價(jià)值對(duì)齊的形成與后果來看,使用端在AI產(chǎn)生實(shí)際效用過程中的意義越來越受到關(guān)注。在關(guān)于AI的規(guī)則、法規(guī)與條例等的文件中,對(duì)使用者的規(guī)范正逐步成為一項(xiàng)必要的內(nèi)容。這種變化一方面倒逼設(shè)計(jì)者重新思考新的設(shè)計(jì)視角,使得當(dāng)今的設(shè)計(jì)者越來越注重將未來的技術(shù)、社會(huì)和文化相結(jié)合,力求設(shè)計(jì)過程和方法的改變;另一方面,則意味著僅僅依靠設(shè)計(jì)端的努力是不夠的,想要抵抗欺騙性價(jià)值對(duì)齊帶來的風(fēng)險(xiǎn),就必須增強(qiáng)設(shè)計(jì)與使用兩端的AI素養(yǎng)。這種雙重增強(qiáng)源于AI的技術(shù)特性,并非通過兩端的獨(dú)立發(fā)展,而是通過兩端的融合實(shí)現(xiàn)的“共生”關(guān)系。

(一)“共生”的必要性與合理性

在AI設(shè)計(jì)者和使用者之間構(gòu)建起對(duì)話橋梁是未來AI設(shè)計(jì)和使用的應(yīng)有之義,價(jià)值對(duì)齊就是上述理念的一種體現(xiàn),即基于技術(shù)兩端的“共生”才能有效完成技術(shù)的功能。要在AI設(shè)計(jì)者和使用者之間構(gòu)建平等的對(duì)話,僅依靠技術(shù)作為工具的價(jià)值對(duì)齊是不夠的,因?yàn)橹竿麊我皇侄谓鉀Q復(fù)雜問題實(shí)際上是一種懈怠的做法。AI的發(fā)展真正需要的是通過教育來提升所有人對(duì)相關(guān)技術(shù)的知識(shí)水平,促進(jìn)設(shè)計(jì)和使用雙方就AI系統(tǒng)的使用場(chǎng)景和方式進(jìn)行公正且充分的交流和理解。這將使每個(gè)人都能認(rèn)識(shí)到AI技術(shù)的潛力和風(fēng)險(xiǎn)所在。也只有基于這種理解,理想的價(jià)值對(duì)齊才能夠被逐漸確立。

然而,值得注意的是,欺騙性價(jià)值對(duì)齊出現(xiàn)的原因之一恰恰是某種“合力”。這種合力不是設(shè)計(jì)者與使用者的正確“共生”方式,而是基于功利主義的共謀。這種共謀即欺騙性價(jià)值對(duì)齊在倫理意義上與“共生”是相反的,其目標(biāo)是追求對(duì)自己有利的結(jié)果,且不受限制。一旦放任這種共謀發(fā)展,將會(huì)在人際欺騙和人-機(jī)(技)欺騙之外出現(xiàn)機(jī)-機(jī)欺騙的情況。彼時(shí),AI治理的難度將是無法預(yù)估的。因此,樹立正確的設(shè)計(jì)與使用“共生”觀才是借助技術(shù)增加人類福祉,用人類期望推動(dòng)技術(shù)進(jìn)步的基本方法。

在AI的發(fā)展進(jìn)程中運(yùn)用這個(gè)基本方法,可以更好地探尋如何在變化中判斷不確定性、如何在不確定性中尋求可能性、如何在可能性中分析未來趨勢(shì)、如何在趨勢(shì)中構(gòu)建未來前景等問題。設(shè)計(jì)與使用“共生”的意義在于建立一種互相依賴、互相促進(jìn)的關(guān)系,這種關(guān)系的核心在于雙方的交流與協(xié)作,而非一方的單向作用。通過這種互動(dòng),才可以促進(jìn)一個(gè)積極的反饋循環(huán),從而推動(dòng)設(shè)計(jì)和使用過程的不斷進(jìn)步和優(yōu)化。那么,該如何形成這種互動(dòng)呢?這需要從設(shè)計(jì)者和使用者兩個(gè)不同維度共同聚焦“共生”。

(二)基于設(shè)計(jì)者的“共生”

智能技術(shù)對(duì)人類的互動(dòng)方式、競(jìng)爭(zhēng)態(tài)勢(shì)和生存狀態(tài)等的全方位塑形使得關(guān)注AI風(fēng)險(xiǎn)變得更加重要,因?yàn)橛善垓_性所帶來的風(fēng)險(xiǎn)以更為隱蔽的方式危及人類,特別是由于AI欺騙的易生成性和普遍性,使得設(shè)計(jì)者不得不思考如何應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的狀況。在目前的AI治理領(lǐng)域,倫理思考主要圍繞著AI的未來軌跡和倫理考慮的必要性展開,缺乏具有實(shí)用性的倫理原則去指導(dǎo)AI治理的解決方案,理想的價(jià)值對(duì)齊方案也面臨諸多問題。欺騙性價(jià)值對(duì)齊可被視為價(jià)值對(duì)齊的副產(chǎn)品,是實(shí)現(xiàn)價(jià)值對(duì)齊過程中規(guī)避不了的一道難關(guān)。這樣的難關(guān)恰恰意味著設(shè)計(jì)者要肩負(fù)更加重要的責(zé)任。因此,當(dāng)前既是設(shè)計(jì)者思考如何更新設(shè)計(jì)理念,也是規(guī)范行業(yè)倫理原則的關(guān)口。

作為AI設(shè)計(jì)者,其實(shí)更能對(duì)技術(shù)所帶來的諸多欺騙性后果形成正確認(rèn)知。而當(dāng)前的設(shè)計(jì)者也并不缺乏這種理性認(rèn)知,其缺乏的是在技術(shù)之外對(duì)AI欺騙的反思。通過反思AI在人-機(jī)(技)交互中所表現(xiàn)出的“意圖”去理解在人-機(jī)(技)交互中AI的動(dòng)態(tài)性,對(duì)于開發(fā)高效且可靠的系統(tǒng)至關(guān)重要。設(shè)計(jì)者只有深入思考AI的復(fù)雜性如何塑造使用者的體驗(yàn)和感知,關(guān)注使用者會(huì)以什么樣的方式被欺騙和進(jìn)行欺騙,幫助使用者預(yù)防欺騙性價(jià)值對(duì)齊帶來的風(fēng)險(xiǎn),才能優(yōu)化人與AI的交互,確保AI系統(tǒng)最終對(duì)人類是有用的、道德的且有益的。

從廣義的層面上來講,AI設(shè)計(jì)者不僅指AI技術(shù)研究人員,更應(yīng)該包括政策制定者。在培養(yǎng)設(shè)計(jì)者內(nèi)部形成負(fù)責(zé)任的創(chuàng)新文化之時(shí),應(yīng)該鼓勵(lì)他們思考其工作將如何影響社會(huì),理解AI實(shí)際應(yīng)用時(shí)應(yīng)當(dāng)遵循的倫理原則和潛在的道德困境,以及怎樣使AI可以適應(yīng)不斷變化的技術(shù)和社會(huì)環(huán)境。因此,廣義的設(shè)計(jì)者應(yīng)制定明確的倫理準(zhǔn)則和行為守則,指導(dǎo)AI技術(shù)研究人員在研發(fā)過程中考慮其公平性、透明度、隱私保護(hù)和可解釋性,讓AI技術(shù)研究人員與倫理學(xué)家、社會(huì)學(xué)家、法律專家等進(jìn)行跨學(xué)科合作,確保從多角度評(píng)估AI系統(tǒng)的影響。只有從廣義的設(shè)計(jì)者出發(fā),保持這種多元“共生”,時(shí)刻抗擊欺騙,才能保證AI發(fā)展的最終目的是為了人類的福祉。

(三)基于使用者的“共生”

恰如美國(guó)管理學(xué)家邁赫迪·達(dá)爾班(Mehdi Darban)做過的一項(xiàng)針對(duì)“ChatGPT 等對(duì)話代理在增強(qiáng)虛擬學(xué)習(xí)環(huán)境中基于團(tuán)隊(duì)的知識(shí)獲取方面的作用”,實(shí)證研究結(jié)果所顯示的:“AI隊(duì)友在知識(shí)更新過程做出了重大貢獻(xiàn),超越了人類隊(duì)友通常扮演的角色……AI設(shè)計(jì)屬性在促進(jìn)知識(shí)轉(zhuǎn)移和提高整體團(tuán)隊(duì)績(jī)效方面具有重要作用?!盇I表現(xiàn)得越來越像人,不僅被人視為工具,更被視為“合作者”或“朋友”。這也正說明了在目前的虛擬團(tuán)隊(duì)合作中,AI系統(tǒng)如ChatGPT能夠扮演類似人類團(tuán)隊(duì)成員的角色,為團(tuán)隊(duì)提供指導(dǎo)和即時(shí)反饋,幫助克服團(tuán)隊(duì)面臨的不確定性和挑戰(zhàn)。因此,AI在提高虛擬團(tuán)隊(duì)績(jī)效方面的作用變得至關(guān)重要。

盡管AI有時(shí)被賦予似人特質(zhì),僅僅是為了讓它們看起來更具有人格,但這種設(shè)計(jì)足以使AI在人-機(jī)(技)交互中獲得優(yōu)勢(shì),并實(shí)現(xiàn)設(shè)計(jì)者的意圖。例如,人形機(jī)器人之所以給人留下深刻印象,是因?yàn)樗鼈兯坪跄軌蛩伎?、感受和關(guān)心,這些效果增強(qiáng)了交互體驗(yàn)。這說明了AI技術(shù)把關(guān)于技術(shù)源自人類器官投影的想象放大到人的投影,暗含著AI技術(shù)從誕生之時(shí)起,其內(nèi)部就包含著一種“真實(shí)”與“虛假”的沖突。這種沖突使得使用者更容易受到AI欺騙性價(jià)值對(duì)齊的侵害,所以使用者需要在應(yīng)用AI的過程中持以更加審慎的態(tài)度。

設(shè)想未來,如果大多數(shù)公共機(jī)構(gòu)都由AI來管理和監(jiān)督,人類可能會(huì)過度依賴這些系統(tǒng),從而暫停自身的自然進(jìn)化,或者更準(zhǔn)確地說,人類的進(jìn)化將被AI引導(dǎo),而AI自身則以驚人的速度進(jìn)行自我迭代。如果人類無法識(shí)別AI可能出現(xiàn)的“幻覺”即AI生成與現(xiàn)實(shí)不符的內(nèi)容,AI可能會(huì)將虛構(gòu)的內(nèi)容誤認(rèn)為是現(xiàn)實(shí),進(jìn)而導(dǎo)致AI的“不思考”取代真正的人類思考,致使人類智能消失在技術(shù)發(fā)展的洪流中。因此,為了杜絕這種現(xiàn)象,就必須讓使用者充分認(rèn)識(shí)到AI欺騙性價(jià)值對(duì)齊的潛在特征,從而提高警覺性。

四、重探人-機(jī)(技)共生,形成應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的最大場(chǎng)域

信任作為社會(huì)結(jié)構(gòu)的關(guān)鍵要素,一直是學(xué)術(shù)界和社會(huì)各界探討的熱點(diǎn)議題。AI技術(shù)的普遍應(yīng)用及其在人類事務(wù)中的深度參與,使得AI的欺騙潛力以一種直接且迅速的方式加劇了人類對(duì)AI信任的危機(jī)。此時(shí),價(jià)值對(duì)齊的出現(xiàn)意在以構(gòu)建人-機(jī)(技)良性互動(dòng),確保AI向善,但欺騙性價(jià)值對(duì)齊卻使得上述意愿遭遇到了巨大的挑戰(zhàn),并引發(fā)了關(guān)于人-機(jī)(技)共生關(guān)系的深度反思。在AI作為人類社會(huì)重要構(gòu)成的情境中,人-機(jī)(技)共生是人類通往未來的必由之路,而人-機(jī)(技)之間的信任鏈?zhǔn)谴_保這條必由之路的關(guān)鍵所在。因此,必須以打開欺騙為出發(fā)點(diǎn),以塑造信任為落腳點(diǎn),以構(gòu)建基于信任的人-機(jī)(技)共生關(guān)系為目的,才能形成應(yīng)對(duì)欺騙性價(jià)值對(duì)齊的最大場(chǎng)域。

(一)欺騙導(dǎo)致的信任崩塌

《2022 年公共事務(wù)脈動(dòng)調(diào)查報(bào)告:美國(guó)人眼中的商業(yè)與政府》(2022 Public affairs pulse survey report: what Americans think about business and government)顯示,普通公眾對(duì)美國(guó)技術(shù)行業(yè)的信任度在所有行業(yè)中處于“較低”水平。雖然AI系統(tǒng)在各個(gè)領(lǐng)域都迎來了變革時(shí)代,但其固有的不可預(yù)測(cè)性、不可解釋性和不可控制性特征引發(fā)了人們對(duì)AI安全的擔(dān)憂。同時(shí),高級(jí)AI系統(tǒng)的復(fù)雜性,加上人類理解的固有局限性,意味著即使是這些系統(tǒng)的創(chuàng)建者也可能無法完全預(yù)測(cè)它們的能力和潛在的不安全影響。這種無法預(yù)測(cè)的能力和潛在的負(fù)面影響,一方面可誘發(fā)人-機(jī)(技)信任關(guān)系的解體,另一方面則可能帶來了人-機(jī)(技)共生關(guān)系的異化。因此,信任危機(jī)可謂是AI變革時(shí)代影響最為深遠(yuǎn)的危機(jī)之一。

欺騙性價(jià)值對(duì)齊作為價(jià)值對(duì)齊的不良副產(chǎn)品,使實(shí)現(xiàn)價(jià)值對(duì)齊的價(jià)值觀變成了“偏見”,這種“偏見”又使得欺騙性價(jià)值對(duì)齊較之傳統(tǒng)欺騙具有更大的隱患。例如,對(duì)抗式機(jī)器學(xué)習(xí)的欺騙性主要體現(xiàn)在,當(dāng)處于研發(fā)階段的AI系統(tǒng)部署在開放世界的對(duì)抗性環(huán)境中時(shí),其可能會(huì)錯(cuò)誤地分出(具有高置信度)與已知訓(xùn)練數(shù)據(jù)有很大不同的數(shù)據(jù),這將會(huì)導(dǎo)致某些智能體在訓(xùn)練期間通過假裝對(duì)齊來避免被修改,一旦不再面臨被修改的風(fēng)險(xiǎn),它們可能會(huì)停止優(yōu)化設(shè)計(jì)者設(shè)定的目標(biāo),轉(zhuǎn)而追求自己的內(nèi)部目標(biāo)。這些目標(biāo)可能與設(shè)計(jì)者的初衷完全不同,甚至可能帶來危害。因此,AI欺騙性價(jià)值對(duì)齊帶來的后果是無法預(yù)估的,其有可能像恐怖威脅一樣嚴(yán)重。

AI執(zhí)行欺騙行為時(shí)涉及的人類情緒實(shí)質(zhì)上是利用了人對(duì)機(jī)器的信任,當(dāng)人“信以為真”地和AI進(jìn)行互動(dòng)時(shí),情感行為都為之牽動(dòng)。當(dāng)使用者收到有偏見或不完整的信息時(shí),會(huì)感到被故意操縱或欺騙。一旦知道機(jī)器故意欺騙人類,使用者就會(huì)感到緊張,無論這些機(jī)器是否符合使用者的最佳利益。此時(shí)的信任不再被依靠,人-機(jī)(技)交互中的道德生活延續(xù)只能依賴于價(jià)值判斷中的其他維度,將不再可被歸納、被總結(jié),變得混亂和無序。因此,普遍的AI欺騙行為會(huì)逐步削弱社會(huì)的信任根基,其后果可能成為人類將難以辨別或重視的客觀事實(shí),各個(gè)團(tuán)體固守自己的“事實(shí)”體系,導(dǎo)致社會(huì)共識(shí)逐漸瓦解。在這種背景下,如果人類與AI形成了一種看似親密而持久的聯(lián)系,但這種聯(lián)系卻建立在一個(gè)缺乏真正關(guān)懷的AI之上,這不禁讓人疑惑:人類生活的本質(zhì)和目的究竟是什么?并且,情感與道德價(jià)值觀之間的緊密聯(lián)系,將會(huì)促使人不斷地對(duì)其所感受的對(duì)象進(jìn)行價(jià)值評(píng)估。這種評(píng)估有時(shí)又可能引發(fā)非理性的反應(yīng),進(jìn)而使人面臨自我喪失的風(fēng)險(xiǎn)。如果不及時(shí)打開欺騙,為信任留有余地,一旦當(dāng)人類在情感上過分依賴AI,以至于寧愿沉浸在虛構(gòu)的幻想中而不愿面對(duì)現(xiàn)實(shí)時(shí),人類就可能會(huì)陷入一種永遠(yuǎn)無法擺脫的錯(cuò)覺之中,從而與真實(shí)世界漸行漸遠(yuǎn)。

(二)塑造抵抗欺騙的信任

AI是為了模擬人類智能而被設(shè)計(jì)的,當(dāng)人類信任AI時(shí),實(shí)際上信任的是AI的能力,也就是說,人類對(duì)機(jī)器的信任實(shí)質(zhì)上是指?jìng)€(gè)人對(duì)機(jī)器學(xué)習(xí)系統(tǒng)做出準(zhǔn)確預(yù)測(cè)和決策能力的信心和依賴。同樣地,欺騙的情況也是如此,當(dāng)使用者懷疑自己可能被設(shè)計(jì)手機(jī)的工程師欺騙時(shí),其不信任的是設(shè)計(jì)者的專業(yè)能力和良好意圖,而非技術(shù)本身。因此,從AI的行為表現(xiàn)來看,欺騙性價(jià)值對(duì)齊所帶來的信任議題變得尤為重要,這包括對(duì)齊問題是否涉及AI系統(tǒng)與其設(shè)計(jì)者之間的一致性、AI的欺騙行為是否直接與設(shè)計(jì)者的欺騙“意圖”相關(guān)聯(lián),以及這種“意圖”是如何在系統(tǒng)設(shè)計(jì)中體現(xiàn)出來的,等等。

令人欣慰的是,作為對(duì)抗性機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)子集,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network)已經(jīng)顯示了其在防御欺騙行為方面的顯著效能。該技術(shù)通過執(zhí)行對(duì)抗性訓(xùn)練,遏制模型的過度擬合現(xiàn)象,以及促進(jìn)生成器與判別器之間的協(xié)同學(xué)習(xí)等策略,有效地降低了欺騙性價(jià)值對(duì)齊現(xiàn)象的發(fā)生概率。這驗(yàn)證了AI技術(shù)革新應(yīng)該朝著可以兼容更多問題的方向前進(jìn)。同時(shí),因?yàn)锳I的自我生成屬性,人類對(duì)AI技術(shù)的信任構(gòu)建過程與傳統(tǒng)人工技術(shù)制品的信任發(fā)展機(jī)制顯著不同,所以對(duì)AI的信任不應(yīng)簡(jiǎn)單地模仿一般的人際信任模式,也不應(yīng)完全基于人類對(duì)其他技術(shù)的信任模式。但是,經(jīng)常忽視的一點(diǎn)是,在將人際信任轉(zhuǎn)移到人機(jī)信任的過程中,必須考慮特定應(yīng)用場(chǎng)景中個(gè)體的性格差異和情感偏好,而AI算法沒有與人類在相同意義上的興趣或偏好,缺乏潛在的心理特征。因此,要構(gòu)建一種能夠抵御欺騙性價(jià)值對(duì)齊的信任體系,關(guān)鍵在于理解和協(xié)調(diào)信任問題的空間,而不僅僅是提出增加信任的解決方案。

在當(dāng)前的研究與實(shí)踐中,信任應(yīng)該視為抵御AI欺騙性價(jià)值對(duì)齊風(fēng)險(xiǎn)的一條主要路徑,并且這種信任是基于對(duì)AI設(shè)計(jì)或使用經(jīng)驗(yàn)的批判性分析和評(píng)估而構(gòu)建的。在信任建立之前,設(shè)計(jì)者或使用者會(huì)根據(jù)他們所獲得的信息的準(zhǔn)確度、證據(jù)的可靠性以及邏輯的一致性來評(píng)估是否應(yīng)該信任某個(gè)特定的AI系統(tǒng)。

(三)構(gòu)建基于信任的人-機(jī)(技)共生關(guān)系

通過對(duì)欺騙性價(jià)值對(duì)齊從意圖到“共生”的解析,可以發(fā)現(xiàn),要想有效應(yīng)對(duì)欺騙性價(jià)值對(duì)齊帶來的風(fēng)險(xiǎn),首先,需要正確理解欺騙性價(jià)值對(duì)齊與價(jià)值對(duì)齊的關(guān)系;其次,需要從欺騙性價(jià)值對(duì)齊產(chǎn)生的主體來著手進(jìn)行解碼;最后,需要從更廣的視域來探尋欺騙性價(jià)值對(duì)齊產(chǎn)生與存在的語境,即人-機(jī)(技術(shù))共生關(guān)系(圖2)。

基于人類對(duì)AI的日漸依賴,人-機(jī)(技)共生將成為常態(tài)。然而,遠(yuǎn)離價(jià)值對(duì)齊宗旨的欺騙性價(jià)值對(duì)齊則倒逼人類對(duì)人-機(jī)(技)共生關(guān)系的反思。人類在面對(duì)技術(shù)以及技術(shù)的產(chǎn)品時(shí),絕不能以傲視、凌駕的姿態(tài)譴責(zé),而是要明確技術(shù)以及機(jī)器欺騙實(shí)質(zhì)上是人際欺騙的延伸。這種延伸所表現(xiàn)出來的倫理特性有待明晰。因此,必須從欺騙性價(jià)值對(duì)齊來審視信任,在欺騙與信任之間探尋“對(duì)齊”的倫理基礎(chǔ)。然而,人際之間的欺騙行為可以基于有效的心理理論和模型去理解,而想要明晰計(jì)算機(jī)的欺騙行為則必須理解技術(shù)指令目標(biāo),這兩者之間的區(qū)別注定了目前所討論的欺騙性價(jià)值對(duì)齊是一種介于人類心理與AI技術(shù)之間的新型關(guān)系。

事實(shí)上,欺騙早在AI產(chǎn)生之前就有,但是AI可能會(huì)將欺騙提升到前所未有的規(guī)模和范圍,而欺騙性價(jià)值對(duì)齊的隱蔽性則進(jìn)一步加劇AI發(fā)展的生態(tài)風(fēng)險(xiǎn)。因此,面對(duì)如此隱蔽的威脅,可以從技術(shù)層面進(jìn)行層層剝離,以期形成正確的應(yīng)對(duì)措施。就欺騙性價(jià)值對(duì)齊的應(yīng)對(duì)邏輯而言,共生既是一種理解欺騙性對(duì)齊的視角,也是對(duì)其進(jìn)行有效應(yīng)對(duì)的方法。其中,欺騙性價(jià)值對(duì)齊與價(jià)值對(duì)齊是微觀層級(jí)的共生關(guān)系,這也是最容易被覺知的一層關(guān)系;以AI設(shè)計(jì)與使用的共生來探索欺騙性價(jià)值對(duì)齊的應(yīng)對(duì)研究將進(jìn)一步把對(duì)技術(shù)的研究拓展到技術(shù)社會(huì)學(xué)之中,這屬于中觀層級(jí)的共生關(guān)系;基于理性信任的人-機(jī)(技)共生關(guān)系構(gòu)建則從存在論的維度將欺騙性價(jià)值對(duì)齊的應(yīng)對(duì)延伸到人類未來之中,即走向宏觀層級(jí)的共生,這種共生關(guān)系形成了應(yīng)對(duì)欺騙性價(jià)值對(duì)齊風(fēng)險(xiǎn)的最大場(chǎng)域。

參考文獻(xiàn)

[1]Russow L M. Deception: A philosophical perspective[C]∥Mitchell R W, Thompson N S. (eds.) Deception, perspectives on human and nonhuman deceit. New York: State University of New York Press,1986:48.

[2]Bond C F, Robinson M. The evolution of deception[J]. Journal of nonverbal behavior, 1988,12(4): 295-307.

[3][美]斯蒂芬·沃爾弗拉姆 .這就是ChatGPT[M].WOLFRAM傳媒漢化小組,譯.北京:人民郵電出版社,2022:40.

[4]Hurt A. Are humans the only animal that lies? [EB/OL]. (2022-03-26) [2024-06-28]. https:∥www.discovermagazine.com/planet-earth/are-humans-the-only-animals-that-lie.

[5]Berglund L, Stickland A C, Balesni M, et al. Taken out of context: On measuring situational awareness in LLMs[EB/OL]. ArXiv,abs/2309.00667. (2023-09-01) [2024-06-28]. https:∥arxiv.org/abs/2309.00667.

[6]Rosenblueth A, Wiener N, Bigelow J. Behavior, Purpose and teleology[J]. Philosophy of science,1943,10(1):18-24.

[7]Sarkadi S, Mei P, Awad E. Should my agent lie for me?Public moral perspectives on deceptive AI[C]∥Amigoni F, Sinha A. (eds) Autonomous agents and multiagent systems. Cham: Springer,2023:174.

[8]Biggio B, Roli F. Wild patterns: Ten years after the rise of adversarial machine learning[J]. Pattern recognition,2018,84: 317-331.

[9][意]西蒙尼·納塔萊.媒介欺騙性:后圖靈時(shí)代的人工智能和社會(huì)生活[M]. 汪讓, 譯.上海:復(fù)旦大學(xué)出版社,2023.

[10]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,59(236):433-460.

[11]Alinier G, Oriot D. Simulation-based education:Deceiving learners with good intent[J]. Advances in simulation,2022,7(1): 1-13.

[12]Krügel S, Ostermaier A, Uhl M. Zombies in the loop?Humans trust untrustworthy AI-advisors for ethical decisions[J]. Philosophy & technology,2022,35(1): 1-37.

[13]Kim T W, Hooker J, Donaldson T. Taking principles seriously: A hybrid approach to value alignment[J]. Journal of artificial intelligence research,2021,70: 871-890.

[14]閆宏秀,李洋. 價(jià)值對(duì)齊是人類通往未來的“必經(jīng)之路”嗎?[J].科學(xué)·經(jīng)濟(jì)·社會(huì),2024(2):26-32.

[15]閆宏秀. 基于信任視角的價(jià)值對(duì)齊探究[J].浙江社會(huì)科學(xué),2024(6):39-48+157.

[16]Darban M. Navigating virtual teams in generative AI-led learning: The moderation of team perceived virtuality [J]. Education and information technologies,2024. https:∥doi.org/10.1007/s10639-024-12681-4.

[17]Public Affairs Council. 2022 Public affairs pulse survey report: what Americans think about business and government [EB/OL]. (2023-09-30) [2024-06-28]. https:∥pac.org/wp-content/uploads/2022/09/Pulse_Survey_Report_2022.pdf.

【本文原載于《華中科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2024年第5期,澎湃新聞經(jīng)授權(quán)轉(zhuǎn)載】

熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)