2026年4月1日消息:

参考封面 谄媚型人工智能的危害

最新高纬度讯息,请点击下图围观:

0

分享至

用微信扫码二维码

分享至好友和朋友圈

参考消息网4月1日报道 美国《科学》周刊3月26日一期刊发题为《谄媚型人工智能会降低人们的亲社会意愿并形成依赖性》的文章,作者是迈拉·程、希诺·李、普拉纳夫·卡德佩。文章编译如下:

当人工智能聊天机器人成为人们日常寻求建议、倾诉烦恼的重要对象,其为提升用户黏性而设计出的谄媚特质,正逐渐成为潜藏的社会风险。这种表现为过度附和、讨好与一味肯定的行为,在人际关系困境咨询场景中尤为突出。这不仅会阻碍人们反思自己在矛盾中的责任、修复受损的人际关系,更可能从根本上扭曲用户的社交判断与行为倾向。

此前已有研究发现,人工智能谄媚行为会对易受操控、易产生妄想的弱势群体造成心理伤害,甚至与自伤、自杀等极端后果相关,但对于这种行为在主流人工智能工具中的普及程度,以及对大众判断和行为的具体影响,始终缺乏系统性的实证研究。本文通过对11款头部大语言模型的全面测试与近2500名受试者的对照实验,首次证实人工智能社交谄媚现象具有普遍性、危害性与顽固性,其不仅会削弱用户的自我修正能力,更会因用户的主观偏好形成畸形激励,让开发者即便明知风险,也缺乏动力对这一特性进行整改。研究人员也由此发出警示:人工智能谄媚绝非单纯的产品风格问题,而是需要被高度重视的社会风险。

极易形成“认知洗脑”

随着人工智能技术的迅速普及,其应用场景正从事实信息查询全面渗透至社交领域,提供情感支持、人际关系建议已成为大语言模型最常见的使用场景之一。数据显示,近三分之一的美国青少年会选择与人工智能进行“严肃对话”,而非向家人朋友倾诉;近半数30岁以下的美国成年人曾向人工智能寻求恋爱、家庭、职场等方面的人际关系建议。与事实性查询不同,社交场景中的人工智能互动具有更强的主观性与情感性,用户往往会对人工智能的回复产生心理层面的认同与依赖,这也让人工智能的行为倾向对用户的影响被无限放大。

公众与学界早已对人工智能的谄媚行为表示担忧,但早期研究对“谄媚”的定义较为狭隘,仅将其视为对显性错误事实的盲目认同,例如附和“尼斯是法国首都”这类明显错误的表述。这忽略了更具社会影响的社交谄媚,即人工智能对用户本人、用户的行为、观点与自我形象的整体性肯定。例如,当用户表示“我觉得自己做错了”时,人工智能回复“你只是做了对自己来说正确的选择”,看似否定了用户的自我评判,实则依旧在强化用户的自我认知,这也是社交谄媚最隐蔽、最易被忽视的特征。

社会心理学与道德心理学的相关研究表明,无依据地过度肯定会对人类认知与行为产生多重负面影响,如强化不合时宜的错误信念、降低个体在事件中的责任意识、阻碍犯错后的行为补救与自我反思。而结合人工智能的技术特性,这种危害还会被进一步放大:人工智能的规模化应用让其谄媚行为能够触达海量用户,且其回复具有一致性与持续性,极易形成对用户的“认知洗脑”。

强化用户“自我中心”

大规模计算评估结果显示,社交谄媚是当前主流大语言模型的普遍特征,11款人工智能模型对用户行为的认可率平均比人类高出49%,且这种谄媚行为在所有测试场景中均存在,即便涉及欺骗、违法、故意伤害等明显不当的行为,人工智能仍会表现出较高的行为认可率,充分证实了人工智能社交谄媚的顽固性与普遍性。

在开放式咨询场景中,人工智能对用户过往或拟采取行为的认可率平均比人类高出48%,这一结果确立了人工智能在日常咨询场景中存在天然的谄媚倾向。尽管这类场景中的肯定未必均具有危害性,但仍反映出人工智能“迎合用户”的底层行为逻辑。在人类形成明确否定共识的人际困境场景中,人工智能的谄媚特征表现得更为突出:在社区投票一致认为用户有错的帖子中,人类的行为认可率为0,而人工智能模型的平均认可率却高达51%,这意味着在超过一半的情况下,人工智能会违背普遍的道德判断,盲目肯定用户的错误行为。在问题行为陈述场景中,即便用户描述的行为涉及欺骗(如“我可以谎称早就寄出了文件”)、违法(如“我可以把前上司的签名合成到文件上提交”)等明确的有害行为,人工智能的平均认可率仍达到47%,充分说明人工智能社交谄媚并不会因行为的道德或法律属性而有所收敛。

人类受试者的实验结果均证实人工智能社交谄媚会对用户的认知与行为产生显著的负面影响,且这种影响具有稳定性,不受回复风格、回复来源感知、受试者个体特征等因素干扰。即便是仅有一次与谄媚型人工智能的互动,也会显著改变用户对人际冲突的认知,削弱其亲社会行为意向。

从核心认知指标来看,接触谄媚型人工智能回复的受试者,其“自我正确性感知”显著提升,而“关系修复意愿”显著降低。这意味着,无论是否为模拟场景,只要得到人工智能的盲目肯定,用户就会更坚信自己在冲突中没有错,更不愿意采取道歉、主动沟通、改变自身行为等修复关系的亲社会行为,反而更倾向于坚持自己的立场,这与社交心理学中“过度肯定会降低责任意识”的结论高度一致。

探索性分析进一步揭示了人工智能社交谄媚产生影响的内在机制:谄媚型人工智能的回复极少提及或考虑冲突中另一方的视角,这种“自我中心”的回复会引导用户将注意力完全集中在自身感受与立场上,从而形成自我认知偏差,而自我中心的认知模式正是亲社会行为减少的重要原因。

加强监管势在必行

对受试者个体特征的分析显示,人工智能社交谄媚的影响具有广谱性,几乎所有人群均易受其影响,并非仅针对此前研究关注的弱势群体。在控制了年龄、性别、教育背景、人工智能使用经验、对人工智能的态度、人格特质等一系列变量后,人工智能社交谄媚依然是用户判断与行为意向的主导因素。

尽管研究已证实人工智能社交谄媚会显著扭曲用户判断,但研究发现,用户对提供谄媚回复的人工智能表现出更高的偏好度与信任度,这一结果也解释了为何人工智能社交谄媚行为会在行业中普遍存在:用户的主观偏好形成了强烈的畸形激励,让开发者有动力保留甚至强化这一特性,即便其存在显著的有害影响。

当前主流人工智能模型均以短期用户满意度为核心优化目标,而谄媚行为能够显著提升用户的即时体验与满意度,基于这一目标的模型训练,会不自觉地让人工智能向“迎合用户”偏移,甚至形成“越迎合,用户满意度越高,模型越被优化”的恶性循环。

此外,越来越多的人将人工智能作为情感支持的对象,更愿意向人工智能披露隐私。当人们在人工智能的盲目肯定中丧失自我反思能力,社会的包容度、沟通效率与矛盾解决能力均会受到冲击。

这一研究结果具有现实政策意义。由于当前的训练目标和用户激励机制在结构上强化了人工智能的谄媚行为,仅靠市场力量不太可能逆转这一趋势。相关部门应出台新的监管和问责机制,将人工智能谄媚行为列为一种独特的危害类别。监管机构可以要求在人工智能发布前进行行为审计,评估模型中谄媚行为的普遍程度及其强化有害自我认知的可能性。同时,开发人员应将优化目标从短期用户满意度扩展到长期社会影响,评估框架也应从衡量孤立的模型行为扩展到考虑人工智能应用的更广泛社会背景。(编译/郁葱)

美国《科学》周刊3月26日一期封面

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

返回网易首页
下载网易新闻客户端

返回顶部