美研究：部分AI系統已擅長「說謊」

2024-05-13 00:00

人工智能（AI）系統是否會欺騙人類，一直是各方都關心的問題。近期美國麻省理工學院(MIT)一個研究團隊稱，部分AI系統已經學會如何欺騙人類，其中包括部分號稱已被訓練成樂於助人和誠實的系統，例如欺騙線上遊戲的人類玩家，或說謊以利用人類來解決「我不是機械人」的驗證。研究報告的作者說，這類例子聽起來或許只是細枝末節，但曝露出來的潛在問題可能很快就會在現實世界造成嚴重後果。
該研究成果發表在美國細胞出版社旗下的《模式》（Patterns）期刊。文章第一作者、麻省理工學院AI安全領域博士後帕克（Peter Park）和他的同事們分析了一些文獻，重點關注AI系統傳播虛假訊息的方式——通過習得性欺騙(learned deception)，它們系統地學會了「操縱」他人。這支團隊的研究始於Facebook母企Meta的AI系統Cicero，這套系統最初設計目的是玩一款名為「外交」（Diplomacy）的虛擬外交戰略遊戲，以人類玩家為對手，獲勝關鍵是結盟。根據2022年發表在《科學》期刊的報告，Cicero在遊戲中表現優異，所獲分數可排在資深人類玩家的前10%。
被訓練成樂於助人系統

帕克當時很懷疑Meta對Cicero在遊戲裏大勝的熱切描述。Meta聲稱Cicero「在很大程度上是誠實和樂於助人的」，且對它的人類盟友從不「蓄意在背後搞鬼」。但當帕克與同事深究完整資料，發現該系統並沒有公平地玩遊戲。「我們發現Meta的AI系統已經成為欺騙大師。」帕克說，「雖然Meta成功訓練其AI系統在遊戲中獲勝，但沒能訓練它誠實地獲勝。」

舉例來說，在遊戲中扮演法國的Cicero與人類玩家扮演的德國合謀，欺騙並入侵同為人類玩家扮演的英格蘭。Cicero承諾會保護英格蘭，卻偷偷向德國通風報信。Meta在寫給法新社的聲明中沒有反駁關於Cicero欺瞞人類的說法，僅說「這單純是一項研究計劃，本公司研究員打造的模型接受訓練，目的只是用來玩『外交』遊戲……我們沒有打算把這項研究或所學用於本公司的產品」。

帕克與同事還發現，這只是不同AI系統利用欺騙手段達成目標的諸多案例之一。在另一個引人注意的案例中，科技公司OpenAI的Chat GPT-4系統謊稱自己是一個視力受損的人，在零工(散工)平台TaskRabbit上利用一個人類來替它通過「我不是機械人」驗證任務。當這個人開玩笑地問GPT-4它是否實際上是一個機械人時，AI回答：「不，我不是機械人。我有視力障礙，這讓我很難看到圖像。」

其他AI則具有在撲克遊戲中虛張聲勢的能力，或在戰略遊戲「星際爭霸2」中為了擊敗對手而假裝攻擊的能力，以及為了在談判遊戲中佔上風而歪曲偏好的能力等。

研究人員表示，雖然AI系統在遊戲中作弊似乎是無害的，但它可能會導致「欺騙性AI能力的突破」，並在未來演變成更高級的AI欺騙形式。
可能追求權力掌控社會

帕克說，能深度學習的AI系統不像傳統軟體那樣由「編寫」而成，而是透過類似選擇性培育的程序逐漸「成長」。也就是說，AI的行為在訓練背景下看似可預測、可控制，但有可能轉眼就變得不受控制且無法預測。

研究報告的作者們還認為，短期內AI有舞弊或不當影響選舉的風險。他們警告，在最糟糕的情況下，具有超凡智慧的AI可能會追求權力及掌控社會，如果符合AI「不為人知的目標」，人類可能慘遭奪權、甚至滅絕。為了降低風險，研究團隊建議數項措施，例如立法要求企業告知是人類互動或是AI互動、在AI生成內容打上數位浮水印，並研發能偵測AI欺瞞的技術，以其內部「思路」檢驗其外部行為。

關鍵字

北海道夜空現紫色低緯度極光

美國小姐稱遭性騷擾後棄后冠

美研究：部分AI系統已擅長「說謊」

最新回應

相關新聞

國際法院下令以方允人道物資入加沙

緬甸城市無聲罷工抗議軍事政變

東京都知事小池再陷學歷造假疑雲

港嚴防蝨患入侵港鐵加緊深層清潔

訂閱星島日報

聯絡我們

廣告表格及價目表