0
用微信扫码二维码
分享至好友和朋友圈
![]()
2025年9月,兰德公司发布了题为《人类能否设计出可靠的实用保障措施来对抗超级人工智能智能体?》(Can Humans Devise Practical Safeguards That Are Reliable Against an Artificial Superintelligent Agent?)的深度研究报告。该研究旨在回答一个核心议题:面对认知能力全面超越人类的超级人工智能,人类能否设计出可靠、实用的技术保障措施来确保其安全性?报告创新性地提出一个“相反假设”:依托计算复杂性、信息论、热力学这三类“基础极限”,结合安全工程的“基元”与“协议”,人类可以设计出实用防御措施。研究结论指出,这些措施能大幅增加超级人工智能的攻击成本,并为人类争取充足时间来检测和应对,实现显著降低风险的核心目标。启元洞见编译整理,供读者参考。
一、引言
超级人工智能的快速发展引发核心议题:人类能否设计出可靠、可信的保障措施,确保此类系统的安全运行?一种观点认为,超级人工智能对物理与网络空间拥有极强掌控力,其超强智能可支撑新科学范式与技术的开发,总能绕过人类施加的限制,“智能是人类力量的基础”,防范远比自身聪明的事物仍存在巨大争议,毕竟人类从未面对过在认知、计算、创新能力上全面超越自身的存在,其可能带来的未知风险难以预判。
报告提出相反假设:即便面对恶意、超级智能且基于软件的智能体,依托计算复杂性、信息论、热力学三类“基础极限”,借鉴“基元”“协议”等成熟安全工程概念,结合以人为本的安全实践与明确威胁模型,也能设计出强大实用的防御措施。这些措施可迫使人工智能依赖“高失败率、高被发现率”的攻击载体,部分方案通过提升算力、时间等资源消耗增加攻击成本,部分方案通过物理或逻辑约束构成障碍减轻危害。研究旨在搭建人工智能安全社区与安全工程社区的沟通桥梁,将成熟的安全工程经验迁移至人工智能领域,为超级人工智能安全防护提供兼具理论支撑与实践可行性的新思路。
二、安全工程的核心要素:基元、协议、实践与威胁模型
安全工程的核心是构建能在恶意攻击、人为失误或意外事件中保持可靠的系统,其有效性以“保障措施相对于潜在攻击者能力与动机的实际作用”为前提。在信息安全领域,这些保障措施常以数学和计算极限为基础,支撑着各类技术与程序控制,是数字经济信任体系的核心支柱。
例如,人们相信投资账户资金能抵御在线攻击者,正是源于加密交易与多因素认证技术的应用。这些保障措施的安全性,依赖于对其加密技术破解难度的严格验证。目前来看,即便老练的攻击者也难以突破。尽管银行内部威胁、物理设备被盗等不同威胁模式可能改变这一论断,但我们仍能就“保障措施与攻击者能力的平衡”做出有理有据的严格安全论断。
关键在于,这些安全论断或明或暗地包含特定威胁模型,并对攻击者的能力和资源做出明确假设。这些假设反过来能帮助我们隔离安全架构中的潜在漏洞,再通过技术或非技术手段加以解决。要利用现有安全工程实践,为人工智能设计出堪比网上银行安全级别的保障措施,就必须剖析保障措施的四大核心要素:基元、协议、实践与威胁模型,为构建人工智能安全断言奠定基础。
(一)基元
![]()
基元和协议是安全工程领域的既定结构,无处不在且支撑着日常生活中信息系统的安全运行。它们的核心功用是识别可测量的现象,这些现象可作为“安全之根”或“信任之根”,即隐含可信、构成安全主张基础的基本要素。我们正是通过观察和测量自然规律与物理规律,如物理学的不变性、某些数学形式的复杂性等,建立起安全信任。
基元最初是采用数学原理的密码学概念,后扩展为更广泛的离散物理和逻辑元素,可通过严格的数学分析作为安全声明的基础。其围绕定义明确且可测量的原则构建,例如“在实际时间框架内不可能穷举搜索一个结果或强行获得算法答案”。
加密哈希算法是典型的安全基元,它依靠“正向计算易、反向推导难”的陷阱门数学函数,为较长数据生成唯一、固定大小的摘要,很难从输出中反推出输入。SHA-256作为标准化的加密哈希算法基元,已被广泛应用于数字生态系统中,成为数据完整性校验、身份认证等安全场景的核心支撑。
(二)协议
![]()
安全协议是一套以指令或程序形式存在的规则,通过使用基元来实施和控制各方之间的行动和通信,核心目标是保障安全。要让安全协议支持可靠的安全保证,就必须利用其所包含的基元属性,在面对恶意攻击、错误或意外时,以可信、可靠的方式完成离散的特定任务。正是通过基元的特性及其在协议中指定的明确关系,才能提出和分析安全主张。
传输层安全(TLS)协议是典型代表,几乎所有网络浏览器都使用其对应的锁图标来表示安全可信的连接。该协议在160多页的标准中详细描述了各类用户和技术行为的精确操作,能验证用户与网站的身份,并在用户和银行等资源之间建立加密通道,为数据保密性提供保障。TLS采用SHA-256作为认证子协议的一部分,其可信性源于哈希函数的底层函数在计算上难以被攻击者破解,基于这一逻辑,我们可断言TLS能提供适合网上银行的可信安全主张。
(三)实践
![]()
现代安全实践告诉我们,仅在协议中引用安全原则是不够的,否则就不会对个人识别码(PIN)和密码提出长度要求。安全保证不仅要求在协议中使用基元,还要求基元的实例化能应对特定威胁特征,如攻击者可能多次猜测PIN码。安全协议的基本功能之一,是严格定义安全断言的要求和约束,这便是安全实践。
例如,四位数PIN码可能被拥有无限猜测机会的威胁者破解,但“尝试一定次数后锁定账户”的实践,会通过停止协议执行来限制这种攻击能力,将其进一步的行动排除在有效范围之外。这种系统约束让基元得以有效使用,同时平衡了安全性与可用性。在这个例子中,PIN码对协议的少量运行是足够的,若辅以“要求使用实体卡”“制定损害赔偿法律”等额外实践,安全性会更高。
此外,实践还能应对侧信道攻击,即信息通过非设计用途、非预期的媒介泄露的攻击方式。这类攻击常以意想不到的技术手段实施,例如通过测量中央处理器(CPU)的功率来推断其正在处理的加密密钥。而限制加密处理芯片的物理可用性,可以降低攻击者通过功率测量窃取密钥的风险,为协议执行提供额外安全保障。
(四)威胁模型
![]()
设计有效安全协议的核心是定义明确的威胁模型。建立威胁模型的做法,是对系统(此处为协议)进行系统、可重复的分析,识别潜在攻击,从而明确描述对手的潜在行动。因此,威胁模型能暴露协议中固有的假设,并通过其考虑的威胁定义协议有效的条件。
协议提供的安全性由所处理的威胁模型的稳健性决定:使用较简单的威胁模型,预示着协议较弱,现在或将来可能被更强大的行为者攻克;而考虑到拥有高水平知识和资源(计算、信息、合作者)的行为者的威胁模型,协议可能更强,能有效限制潜在攻击者。一个基本原则是,任何安全都不是绝对的,安全只能相对于潜在的恶意行为进行推理,而威胁模型能够以明确的方式支持这种推理。
三、迈向人工智能安全工程
针对强大的超级人工智能,安全工程实践要求保障方案都必须充分考虑人工智能能力,并基于“有理由相信能抵御这些能力”的前提设计。盖斯特(Geist)和穆恩(Moon)提出的框架指出,物理学定律和理论数学中存在不可突破的限制,我们聚焦于计算复杂性、信息论、物理环境操控三类障碍,将其作为安全原则构建“信任之根”,开发可行的人工智能安全基元。
(一)人工智能安全基元分类
![]()
1. 计算复杂性基元
人工智能受到现有计算平台能力的限制,硬件、软件与算法的协同需消耗时间和资源。尽管计算技术遵循摩尔定律进步,全球计算能力持续提升,但特定任务的完成仍离不开三者的协调配合。例如,肖尔算法为大数分解问题提供了数学基础,但需量子计算机支持,而目前尚未实现;即便集结全球经典计算资源,解决这类问题平均也需数年时间。加密技术是这类基元的核心,设计良好的加密方案可使人工智能在有意义的时间内,以可实现的计算量破解系统变得不切实际或物理上不可能。
2. 信息论基元
这类基元既基于吞吐量等实际限制,也依托编码理论等更基础的限制,核心前提是“人工智能无法推理未拥有或不存在的信息”。将这些概念转化为安全基元的关键方式,是限制人工智能的信息通信途径。带宽(单位时间内可传输的数据量)和编码(传输比特传递信息的效率)是克劳德・香农(ClaudeShannon)提出的信息论核心要素。常见实现手段包括空气盖(完全禁止有线传输)、法拉第笼(阻断无线传输)、数据二极管(仅允许信息单向流动),或拒绝人工智能接入光纤线路等高带宽通信介质,迫使其依赖速度更慢、损耗更高的低效介质。
3. 物理环境操作基元
尽管人工智能在虚拟空间中能完成诸多操作,但它与物理环境元素的交互仍存在诸多障碍,从需要克服物理摩擦到面临宇宙行动极限。这类基元涵盖一系列与“人工智能与外部环境交互及限制”相关的基本原理,我们对热力学的定义较为宽泛,即与处理系统中能量和功的物理学分支相关的原理。其主要分为两组:一是要求必须通过物理操控实现目标,如果没有人类或机器人协助无法达成目标;二是物理定律对行动速度、过程效率的限制,如材料移动、能量供应约束,会显著降低人工智能的行动速率。
(二)人工智能安全协议构建
![]()
现有精心设计的保障措施已依托上述核心概念,因此不仅有可能针对人工智能制定安全协议,部分现有措施也可以直接应用。与构建传统安全协议类似,人工智能安全协议需严格定义四大要素:行为者(互动主体及知识、行动范围)、知识(系统信息及保密性、完整性、可用性等安全属性)、行动(互动空间与目标)、目标(期望/规避结果及影响因素)。
协议保障逻辑有两点。一是提高攻击成本,使人工智能难以筹集足够资源,或在资源收集过程中被识别阻止。二是增加攻击概率性失败风险,通过连锁效应降低整体成功率。例如,对称密钥系统可设计为暴力破解需消耗海量时间和计算资源,使其实际不可行;若攻击需说服10人且一人拒绝即失败,即便单次说服成功率95%,整体成功率也仅60%,被发现的概率则达40%,并且可能引发防御者采取更激进的应对行动。
(三)人类作为侧信道攻击手段
![]()
人类可能成为人工智能突破安全防线的侧信道,人工智能可通过合作、胁迫或说服人类绕过协议限制。有一种观点认为,人工智能的说服能力极强,能有效说服人类听从其命令,从而突破所有安全控制。
但人类说服并非绝对可靠,而是高不确定性的攻击载体。迫使人工智能依赖人类说服,会大幅提升攻击的失败率和被发现率,这类攻击可通过安全实践识别,让防御者有机会检测并响应。以人为本的安全实践可利用这一特性,通过要求多人协同行动才能绕过控制、限制授权人数、设置激励与抑制措施等,增加说服失败概率。共享秘密方案、核弹发射物理双转密钥等现有实践均是有效参考。包含“迫使人工智能依赖人类说服”结构的协议,相较于其他更具决定性的隐蔽攻击载体,对人类防御者更有利。
四、结论
报告核心假设是:物理与数学中的基本限制可转化为对人工智能的实际约束,现有安全工程工具经针对性调整后,能设计出有效的防御措施。这些措施虽非提供完美安全的“银弹”,但可拒绝部分攻击载体,大幅增加人工智能的攻击成本,如算力、时间、资源消耗等,从而为人类检测和应对攻击争取充足时间,实现“不追求绝对安全,但显著降低攻击风险”的核心目标。
同时也需正视假设失效的风险。若人工智能能力远超当前人类预期(如突破现有物理或数学规律限制)、安全实践在落地过程中出现偏差(如人员未严格执行协议要求),或所依赖的基本约束具有更强可塑性(如量子计算技术快速成熟突破计算复杂性限制),则现有防御措施的效果可能受影响。但即便如此,安全协议仍能提升攻击门槛,为人类调整应对策略、升级安全防护提供宝贵的缓冲时间,其价值依然不可替代。
需明确的是,真实世界场景远比理论模型复杂,人工智能安全协议的落地会面临诸多现实挑战,如执行过程中的人为错误、安全措施与业务效率的冲突、不同行业的差异化需求等,协议的有效扩展存在一定难度。后续需要通过更多跨领域研究与实践,如与计算机科学、数学、物理学、心理学的交叉合作,开发一套强大而全面的方法体系,持续优化安全基元与协议设计,让人工智能安全措施既能适配复杂的现实场景,又能灵活应对人工智能技术的演进,为应对未来超级人工智能的安全威胁提供坚实支撑。
免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
转自丨启元洞见
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
下载网易新闻客户端
伊甸园真容现世新疆于阗
在线免费阅读/精美PDF版免费下载

微信扫一扫打赏
支付宝扫一扫打赏

