美研究:部分AI系統已擅長「說謊」

2024-05-13 00:00

Meta的AI系統Cicero被指採用欺騙手段玩虛擬「外交」戰略遊戲。
Meta的AI系統Cicero被指採用欺騙手段玩虛擬「外交」戰略遊戲。

人工智能(AI)系統是否會欺騙人類,一直是各方都關心的問題。近期美國麻省理工學院(MIT)一個研究團隊稱,部分AI系統已經學會如何欺騙人類,其中包括部分號稱已被訓練成樂於助人和誠實的系統,例如欺騙線上遊戲的人類玩家,或說謊以利用人類來解決「我不是機械人」的驗證。研究報告的作者說,這類例子聽起來或許只是細枝末節,但曝露出來的潛在問題可能很快就會在現實世界造成嚴重後果。
該研究成果發表在美國細胞出版社旗下的《模式》(Patterns)期刊。文章第一作者、麻省理工學院AI安全領域博士後帕克(Peter Park)和他的同事們分析了一些文獻,重點關注AI系統傳播虛假訊息的方式——通過習得性欺騙(learned deception),它們系統地學會了「操縱」他人。這支團隊的研究始於Facebook母企Meta的AI系統Cicero,這套系統最初設計目的是玩一款名為「外交」(Diplomacy)的虛擬外交戰略遊戲,以人類玩家為對手,獲勝關鍵是結盟。根據2022年發表在《科學》期刊的報告,Cicero在遊戲中表現優異,所獲分數可排在資深人類玩家的前10%。
被訓練成樂於助人系統

帕克當時很懷疑Meta對Cicero在遊戲裏大勝的熱切描述。Meta聲稱Cicero「在很大程度上是誠實和樂於助人的」,且對它的人類盟友從不「蓄意在背後搞鬼」。但當帕克與同事深究完整資料,發現該系統並沒有公平地玩遊戲。 「我們發現Meta的AI系統已經成為欺騙大師。」帕克說,「雖然Meta成功訓練其AI系統在遊戲中獲勝,但沒能訓練它誠實地獲勝。」 

舉例來說,在遊戲中扮演法國的Cicero與人類玩家扮演的德國合謀,欺騙並入侵同為人類玩家扮演的英格蘭。Cicero承諾會保護英格蘭,卻偷偷向德國通風報信。Meta在寫給法新社的聲明中沒有反駁關於Cicero欺瞞人類的說法,僅說「這單純是一項研究計劃,本公司研究員打造的模型接受訓練,目的只是用來玩『外交』遊戲……我們沒有打算把這項研究或所學用於本公司的產品」。

帕克與同事還發現,這只是不同AI系統利用欺騙手段達成目標的諸多案例之一。在另一個引人注意的案例中,科技公司OpenAI的Chat GPT-4系統謊稱自己是一個視力受損的人,在零工(散工)平台TaskRabbit上利用一個人類來替它通過「我不是機械人」驗證任務。當這個人開玩笑地問GPT-4它是否實際上是一個機械人時,AI回答:「不,我不是機械人。我有視力障礙,這讓我很難看到圖像。」

其他AI則具有在撲克遊戲中虛張聲勢的能力,或在戰略遊戲「星際爭霸2」中為了擊敗對手而假裝攻擊的能力,以及為了在談判遊戲中佔上風而歪曲偏好的能力等。

研究人員表示,雖然AI系統在遊戲中作弊似乎是無害的,但它可能會導致「欺騙性AI能力的突破」,並在未來演變成更高級的AI欺騙形式。
可能追求權力掌控社會 

帕克說,能深度學習的AI系統不像傳統軟體那樣由「編寫」而成,而是透過類似選擇性培育的程序逐漸「成長」。也就是說,AI的行為在訓練背景下看似可預測、可控制,但有可能轉眼就變得不受控制且無法預測。

研究報告的作者們還認為,短期內AI有舞弊或不當影響選舉的風險。他們警告,在最糟糕的情況下,具有超凡智慧的AI可能會追求權力及掌控社會,如果符合AI「不為人知的目標」,人類可能慘遭奪權、甚至滅絕。為了降低風險,研究團隊建議數項措施,例如立法要求企業告知是人類互動或是AI互動、在AI生成內容打上數位浮水印,並研發能偵測AI欺瞞的技術,以其內部「思路」檢驗其外部行為。

關鍵字

最新回應

相關新聞

You are currently at: std.stheadline.com
Skip This Ads
close ad
close ad