美研究：部分AI系统已擅长「说谎」

2024-05-13 00:00

人工智能（AI）系统是否会欺骗人类，一直是各方都关心的问题。近期美国麻省理工学院(MIT)一个研究团队称，部分AI系统已经学会如何欺骗人类，其中包括部分号称已被训练成乐于助人和诚实的系统，例如欺骗线上游戏的人类玩家，或说谎以利用人类来解决「我不是机械人」的验证。研究报告的作者说，这类例子听起来或许只是细枝末节，但曝露出来的潜在问题可能很快就会在现实世界造成严重后果。
该研究成果发表在美国细胞出版社旗下的《模式》（Patterns）期刊。文章第一作者、麻省理工学院AI安全领域博士后帕克（Peter Park）和他的同事们分析了一些文献，重点关注AI系统传播虚假讯息的方式——通过习得性欺骗(learned deception)，它们系统地学会了「操纵」他人。这支团队的研究始于Facebook母企Meta的AI系统Cicero，这套系统最初设计目的是玩一款名为「外交」（Diplomacy）的虚拟外交战略游戏，以人类玩家为对手，获胜关键是结盟。根据2022年发表在《科学》期刊的报告，Cicero在游戏中表现优异，所获分数可排在资深人类玩家的前10%。
被训练成乐于助人系统

帕克当时很怀疑Meta对Cicero在游戏里大胜的热切描述。Meta声称Cicero「在很大程度上是诚实和乐于助人的」，且对它的人类盟友从不「蓄意在背后搞鬼」。但当帕克与同事深究完整资料，发现该系统并没有公平地玩游戏。「我们发现Meta的AI系统已经成为欺骗大师。」帕克说，「虽然Meta成功训练其AI系统在游戏中获胜，但没能训练它诚实地获胜。」

举例来说，在游戏中扮演法国的Cicero与人类玩家扮演的德国合谋，欺骗并入侵同为人类玩家扮演的英格兰。Cicero承诺会保护英格兰，却偷偷向德国通风报信。Meta在写给法新社的声明中没有反驳关于Cicero欺瞒人类的说法，仅说「这单纯是一项研究计划，本公司研究员打造的模型接受训练，目的只是用来玩『外交』游戏……我们没有打算把这项研究或所学用于本公司的产品」。

帕克与同事还发现，这只是不同AI系统利用欺骗手段达成目标的诸多案例之一。在另一个引人注意的案例中，科技公司OpenAI的Chat GPT-4系统谎称自己是一个视力受损的人，在零工(散工)平台TaskRabbit上利用一个人类来替它通过「我不是机械人」验证任务。当这个人开玩笑地问GPT-4它是否实际上是一个机械人时，AI回答：「不，我不是机械人。我有视力障碍，这让我很难看到图像。」

其他AI则具有在扑克游戏中虚张声势的能力，或在战略游戏「星际争霸2」中为了击败对手而假装攻击的能力，以及为了在谈判游戏中占上风而歪曲偏好的能力等。

研究人员表示，虽然AI系统在游戏中作弊似乎是无害的，但它可能会导致「欺骗性AI能力的突破」，并在未来演变成更高级的AI欺骗形式。
可能追求权力掌控社会

帕克说，能深度学习的AI系统不像传统软体那样由「编写」而成，而是透过类似选择性培育的程序逐渐「成长」。也就是说，AI的行为在训练背景下看似可预测、可控制，但有可能转眼就变得不受控制且无法预测。

研究报告的作者们还认为，短期内AI有舞弊或不当影响选举的风险。他们警告，在最糟糕的情况下，具有超凡智慧的AI可能会追求权力及掌控社会，如果符合AI「不为人知的目标」，人类可能惨遭夺权、甚至灭绝。为了降低风险，研究团队建议数项措施，例如立法要求企业告知是人类互动或是AI互动、在AI生成内容打上数位浮水印，并研发能侦测AI欺瞒的技术，以其内部「思路」检验其外部行为。

關鍵字

巴西巴士撞两车焚烧38死

美国小姐称遭性骚扰后弃后冠

美研究：部分AI系统已擅长「说谎」

最新回应

相關新聞

游客过多希腊拟向邮轮客收费

波罗的海2条海底电缆遭切断惹「混合战争」忧虑

特朗普贺锦丽今晨辩论民主党高层酒店观战

美情报外泄涉以报复伊朗计划

订阅星岛日报

联络我们

广告表格及价目表

最新回应

相關新聞

游客过多 希腊拟向邮轮客收费

波罗的海2条海底电缆遭切断 惹「混合战争」忧虑

特朗普贺锦丽今晨辩论 民主党高层酒店观战

美情报外泄 涉以报复伊朗计划