0
用微信扫码二维码
分享至好友和朋友圈
人工智能正在从实验室技术走向社会基础设施。它可以辅助学习、生成内容、分析数据、识别图像、编写代码、管理流程,也可以进入医疗、教育、金融、交通、制造、政务和公共服务等重要场景。AI 的能力越强、应用越广,其安全与伦理问题就越不能被视为附属话题。
AI 安全与伦理关注的核心问题是:人工智能系统不仅要“能用”,还要“可靠、可控、公平、透明、尊重人的权利,并对社会负责”。
从更广的历史背景看,人工智能被视为新一轮科技革命的重要力量。与蒸汽机、电力和计算机不同,AI 不只是替代体力劳动或加速信息处理,还开始进入语言生成、图像识别、医疗辅助、自动决策等认知性任务。这种变化一方面提高了生产效率,另一方面也带来就业结构变化、责任边界模糊、人与智能体关系重塑等新问题。
因此,AI 安全与伦理讨论的不是“技术能不能做到”,而是“技术应不应该这样使用”“谁应当为结果负责”“怎样让技术发展真正增进人的福祉”。
![]()
图 1:AI 安全与伦理在人工智能体系中的位置
从全球治理趋势看,AI 已经不再只是技术问题,而是逐渐成为法律、政策、伦理和社会治理共同关注的问题。
近年来,美国国家标准与技术研究院(NIST)、欧盟、联合国教科文组织(UNESCO)、经济合作与发展组织(OECD)等机构和组织,陆续提出了 AI 风险管理、分级监管、透明问责、隐私保护、公平性和人的监督等原则。其共同方向是:既鼓励 AI 创新,也要求 AI 系统在重要场景中更加安全、可信、可解释、可追责。
一、为什么 AI 需要安全与伦理
AI 系统与普通软件不同。传统软件通常按照明确规则运行,开发者写下什么逻辑,程序就执行什么逻辑。而许多 AI 系统,尤其是机器学习和深度学习模型,是从数据中学习规律。
模型的行为不仅取决于代码,也取决于训练数据、优化目标、模型结构、部署环境和用户输入。
这使得 AI 系统具有三个重要特点。
1、AI 的能力来自数据,也可能继承数据中的问题
如果训练数据存在偏见、错误、遗漏或过时信息,模型可能学习并放大这些问题。
例如,招聘模型如果主要从历史招聘数据中学习,而历史数据本身存在性别、年龄或学校背景偏见,那么模型可能在新一轮筛选中继续复制这种不公平。
2、AI 的输出具有不确定性
许多 AI 模型不是按照固定规则给出唯一答案,而是基于概率生成结果。大语言模型尤其如此,它生成的是在当前上下文中概率较高的文本,并不等于它一定掌握事实真相。
因此,模型可能生成流畅但错误的内容,也可能在用户没有察觉的情况下给出误导性建议。
3、AI 的影响会进入真实社会
当 AI 用于学习推荐、信贷审批、简历筛选、医疗辅助、舆情分析、自动驾驶或公共管理时,模型输出可能影响人的机会、权益、安全和尊严。
此时,AI 不再只是“工具是否好用”的问题,而是涉及社会公平、法律责任和公共信任。
因此,AI 安全与伦理必须回答两个层面的问题:
(1)技术层面
模型是否可靠、稳健、安全、可解释、可控?
(2)社会层面
模型是否公平、尊重隐私、保护人的权利、避免滥用、责任清晰?
4、AI 伦理的基本宗旨
AI 伦理的核心,不是简单地反对技术发展,而是为技术发展划定合理边界。
它关注的是:
• AI 应当做什么,不应当做什么
• 谁应当对 AI 系统的设计、部署和使用负责
• 如何让 AI 技术朝着有利于人类福祉的方向发展
从这个意义上说,AI 伦理既约束模型本身,也约束设计者、开发者、使用者、平台、企业和政策制定者。
AI 伦理通常包含两个相互配合的方向:
(1)正向引导
鼓励 AI 用于医疗、教育、工业、科研、环境保护、公共服务等有益场景。
(2)负向约束
防范隐私侵犯、算法歧视、深度伪造、虚假信息、自动化伤害和技术滥用。
简而言之,AI 伦理的目标,是让人工智能走向“可控、可信、可惠”的未来。
其中:
• 可控,指系统行为有边界,风险可监测、可干预、可纠正
• 可信,指系统尽量做到可靠、安全、公平、透明、可解释、可追责
• 可惠,指技术发展应增进人的福祉,而不是只服务效率、流量或利润
二、AI 风险从哪里来
AI 风险并不只来自“模型太强”或“技术太复杂”。在真实系统中,风险往往来自多个环节的叠加:数据、算法、模型、部署场景、用户行为和社会环境都会影响最终结果。
![]()
图 2:AI 风险来源示意图
1、数据风险
数据是 AI 学习的基础。数据风险主要包括:
• 数据来源不合法
• 数据中包含隐私或敏感信息
• 数据样本不均衡
• 数据标注错误
• 数据过时
• 数据存在历史偏见
• 数据质量不足却被用于高风险任务
低质量数据不仅会降低模型性能,还可能在招聘、金融、医疗、公共服务等场景中形成系统性误导。
2、算法与模型风险
模型风险主要来自模型本身的学习机制和输出方式,包括:
• 预测错误
• 对异常输入不稳定
• 对恶意提示或攻击敏感
• 生成虚假内容
• 无法解释关键判断依据
• 在不同群体上的表现差异较大
• 在训练环境外表现下降
算法层面还可能存在目标函数设计不当、特征选择不合理、评价指标片面等问题。例如,推荐系统如果只追求点击率,可能倾向于推送刺激性、极端化或误导性内容。
3、场景风险
同一个 AI 技术,用在不同场景中风险完全不同。
例如,AI 推荐电影属于低风险应用;AI 推荐药物剂量则属于高风险应用。一个图像识别模型用于整理相册,出错影响较小;用于安防执法或医疗筛查,出错就可能严重影响个人权益和生命安全。
4、用户行为风险
AI 系统可能被误用或滥用。
误用是指用户并非故意作恶,但把 AI 用在不适合的场景中。例如,把普通问答模型当作医学诊断工具,或把未经验证的 AI 输出直接用于法律、金融和教育评价。
滥用则是有意识地利用 AI 从事不当行为。例如,编造虚假新闻、伪造图片和音频、生成诈骗话术、批量制造垃圾信息,或绕过安全限制获取危险内容。
5、社会系统风险
AI 还可能带来更广泛的社会影响,例如:
• 虚假信息传播
• 深度伪造降低公众信任
• 自动化决策加剧不平等
• 工作岗位结构变化
• 教育评价和学习诚信受到冲击
• 少数大平台掌握过强技术与数据优势
• 个性化推荐造成信息茧房和群体对立
这些问题不能只靠模型开发者解决,也需要法律、教育、行业规范、平台治理和公众素养共同参与。
6、伦理风险的另一种分类
从伦理治理角度,也可以把 AI 风险概括为四类。
第一类是技术失控风险。
它指 AI 系统的能力、行为或影响超出人类预期与控制范围。当前多数 AI 系统仍依赖特定数据、任务和环境,但随着模型规模扩大、多模态融合和智能体技术发展,仍需要预警机制、紧急停止通道和人机协同干预等安全冗余设计。
第二类是技术非正当应用。
它包括误用和滥用,是当下更现实、更紧迫的风险。例如,将人脸识别用于非授权监控,将生成式 AI 用于诈骗、深度伪造或舆论操纵。
第三类是系统性应用风险。
当 AI 大规模进入教育、医疗、金融、交通和公共治理等关键领域时,可能带来就业结构变化、资源分配不平等、平台垄断和社会分化等问题。
第四类是治理失能。
AI 是复合性、高速演化的技术系统,如果法律、标准、监管、企业合规和公众参与滞后,就可能出现权责模糊、监管空白和事故处理困难。
三、可信 AI:安全与伦理的共同目标
可信 AI(Trustworthy AI)是 AI 安全与伦理的重要目标。它并不意味着模型永远不会出错,而是要求 AI 系统在设计、训练、部署和使用过程中,尽量做到可靠、可控、透明、公平并可追责。
NIST 对可信 AI 的特征做了较系统的概括,包括有效与可靠、安全、稳健与有韧性、透明与可问责、可解释与可理解、隐私增强、公平并管理有害偏见等维度。
![]()
图 3:可信 AI 的核心维度
1、可靠性
可靠性指 AI 系统在预期条件下能够稳定完成任务。
例如,一个语音识别系统在普通话、方言、噪声环境、不同年龄用户中都应保持基本可用,而不能只在理想测试集上表现良好。
2、安全性
安全性指 AI 系统不会对用户、组织或社会造成不可接受的伤害。
这里的安全既包括物理安全,例如自动驾驶、机器人、医疗设备,也包括信息安全,例如模型被攻击、系统被绕过、敏感信息泄露。
3、稳健性
稳健性指模型在面对噪声、异常输入、分布变化或轻微扰动时,仍能保持合理表现。
例如,图片稍微模糊、文字有错别字、用户提问方式不同,模型不应立即产生严重错误。
4、公平性
公平性指 AI 系统不应对特定群体造成不合理歧视。
公平性不是简单要求所有人结果完全相同,而是要求模型不要因为性别、年龄、地域、种族、残障、经济背景等因素产生不当差别对待。
5、透明性
透明性指用户、开发者和监管者能够了解 AI 系统的基本用途、能力边界、数据来源、决策流程和风险限制。
透明性可以分为三个层次:
(1)实现层透明性
算法执行过程、输入输出关系和关键逻辑可以被检查,典型方式包括白盒测试、代码审查等。
(2)规格层透明性
系统的设计目标、模型结构、训练数据、损失函数、评估指标和适用边界能够被说明。
(3)解释层透明性
系统不仅给出结果,还能说明决策依据、推理路径和风险限制。
对于生成式 AI,还应让用户知道内容是否由 AI 生成或经过 AI 辅助。
6、可解释性
可解释性指 AI 系统的结果能够被人理解和检查。
对于普通推荐系统,解释可以是“因为你喜欢类似内容”;对于医疗、金融、司法等高风险系统,则需要更严格的依据说明和人工复核机制。
在一些机器学习场景中,也可以使用 LIME、SHAP 等方法辅助分析模型输出与特征之间的关系。但解释工具不能替代风险评估、专业判断和责任机制。
7、隐私保护
隐私保护要求 AI 系统在数据采集、训练、推理和存储过程中尊重个人信息权益。
尤其是人脸、声音、位置、医疗记录、身份信息、教育记录和通信内容,都应受到更严格保护。
8、问责机制
问责意味着当 AI 系统造成问题时,不能把责任推给“算法自己决定”。
需要明确谁设计了系统,谁提供数据,谁部署使用,谁负责监督,谁处理申诉和纠错。
四、从全生命周期看 AI 治理
AI 安全与伦理不能只在模型上线前检查一次,而应贯穿系统全生命周期。一个 AI 系统从问题定义开始,到数据采集、模型训练、评估测试、部署使用、持续监控和最终退役,每个阶段都可能产生风险。
NIST AI 风险管理框架的核心由 Govern、Map、Measure、Manage 四类功能组成,用于帮助组织围绕 AI 风险形成共同理解、开展评估并采取管理行动。
![]()
图 4:AI 生命周期中的风险治理流程
1、问题定义阶段
首先要问清楚:这个任务是否适合使用 AI?是否存在更简单、更透明、更安全的方法?是否涉及人的重要权益?是否可能造成不公平或误导?
不是所有问题都应该用 AI 解决。尤其在人身安全、医疗诊断、司法决策、教育评价等高风险场景中,必须谨慎评估。
2、数据阶段
数据阶段需要关注:
• 数据是否合法取得
• 是否包含敏感信息
• 是否需要脱敏或匿名化
• 样本是否覆盖主要人群
• 标注是否准确
• 数据是否存在明显偏见
• 是否建立数据访问权限和审计记录
数据治理做不好,后续模型再复杂也难以保证安全与公平。
3、训练阶段
训练阶段需要关注模型结构、训练目标、损失函数、超参数、训练资源和安全策略。
对于大模型,还要关注训练数据过滤、版权风险、有害内容过滤和模型能力评估。
4、评估阶段
模型不能只看平均准确率。还应评估:
• 不同人群上的表现差异
• 极端输入下的稳健性
• 对抗攻击下的安全性
• 错误案例的严重程度
• 是否会产生幻觉或有害输出
• 是否满足业务和伦理要求
5、部署阶段
部署时要明确用户提示、适用范围、禁止用途、人工复核机制、反馈渠道和日志记录。
高风险系统不应完全自动化决策,而应保留人的监督与干预。
6、监控阶段
模型上线后,真实环境可能发生变化。用户行为、数据分布、政策要求和社会环境都会变化。
因此,需要持续监控模型表现,及时发现偏差、失效、滥用和安全事件。
7、更新与退役阶段
当模型不再适合当前任务,或存在无法修复的风险时,应及时更新、限制使用或退役。
AI 治理不仅包括“如何上线”,也包括“何时停止使用”。
五、公平性、偏见与算法歧视
公平性是 AI 伦理中最重要的问题之一。AI 模型看似客观,因为它由数据和算法驱动;但如果数据和系统设计本身包含偏见,模型也可能产生不公平结果。
![]()
图 5:数据偏见如何影响模型结果
1、偏见可能来自数据
数据偏见是最常见的来源。
例如,某个图像识别模型如果主要用白天、晴天、清晰画面训练,那么在夜晚、雨天或低光环境中可能表现较差。某个语音识别系统如果主要用标准口音训练,就可能对方言、儿童声音、老年人声音识别效果较差。
2、偏见可能来自标签
训练数据的标签通常由人提供。人的主观判断、历史制度和文化偏见可能进入标签。
例如,“优秀简历”“高风险用户”“不良行为”等标签,如果缺乏清晰标准,模型就可能学习到隐含歧视。
3、偏见可能来自目标函数
模型优化的目标如果设计不当,也会带来不公平。
例如,推荐系统只追求点击率,可能更倾向推荐刺激性、极端化或误导性内容;教育系统只追求分数预测,可能忽视学生的成长背景和学习过程。
4、算法偏差的常见类型
从形成机制看,算法偏差还可以进一步分为几类。
(1)既有偏差
它来自现实社会中已经存在的历史偏见。例如,历史招聘数据本身偏向某些群体,模型就可能把这种历史偏见学习下来。
(2)技术偏差
它来自数据处理、特征选择、模型结构或评价指标的不合理。例如,样本不平衡、特征选择片面、算法缺乏上下文理解,都可能导致偏差。
(3)涌现偏差
它指算法被部署到原本没有预料的场景后,产生新的不公平后果。例如,一个面向娱乐推荐的系统被用于招聘筛选,就可能造成不合理过滤。
(4)反馈偏差
它指算法输出反过来影响现实世界,使偏见不断累积。例如,某地区被模型预测为高风险后获得更多巡查,更多巡查又产生更多记录,下一轮模型便更容易继续把该地区判为高风险。这种“数据—模型—现实行为”的闭环,会形成循环偏误。
5、算法歧视的典型问题
算法歧视是指由于数据、算法设计或部署方式中的系统性偏差,导致某些群体受到不公平对待。
一个经典案例是 COMPAS 再犯风险评估系统。
该系统用于辅助评估被告未来再犯风险,但研究发现,它在不同族群上的错误类型并不均衡。即使模型没有直接使用种族变量,历史执法差异、社会结构偏见和训练数据分布也可能被间接编码进模型。
这说明,算法不使用敏感变量,并不等于结果一定公平。公平性需要通过数据审查、分群体评估、错误分析、申诉机制和持续监控共同保障。
6、公平不等于简单平均
公平性不是所有群体获得完全相同结果,而是要求模型的差异具有合理依据,并避免无关身份因素造成不当伤害。
例如,在医疗筛查中,不同年龄群体风险不同,模型可以考虑医学上合理的年龄因素;但不能因无关因素排除某些人获得服务的机会。
7、如何减少偏见
减少偏见通常需要多种方法配合:
• 检查数据来源和样本覆盖
• 分群体评估模型表现
• 分析错误案例是否集中在特定群体
• 对敏感特征进行谨慎处理
• 引入公平性指标
• 提高模型开发团队的多元性
• 建立申诉和人工复核机制
• 在系统上线后持续监控。
六、数据伦理、隐私与个人权利
AI 系统往往需要大量数据,而数据中可能包含个人隐私、商业秘密、科研成果和公共管理信息。
数据伦理不仅是隐私保护问题,也是关于权利、公平、责任和数据价值分配的问题。
![]()
图 6:数据伦理与隐私保护示意图
1、什么是数据伦理
数据伦理是指在数据的生成、收集、存储、使用、共享和销毁全过程中,应遵循的价值观念和行为准则。
它关注的不只是数据能否被技术处理,还包括:
• 数据是否被合法取得
• 数据主体是否知情并同意
• 数据用途是否清晰
• 数据是否被过度收集
• 数据是否会造成歧视或伤害
• 数据价值如何分配
• 数据泄露后谁来负责
因此,数据伦理贯穿数据生命周期,也贯穿 AI 系统的开发、训练、部署和使用过程。
2、数据权属与数据主体权利
数据权属是数据伦理的重要问题。个人、企业、平台和政府都可能参与数据的产生、收集、加工和使用,因此数据归属常常并不简单。
从个人权利角度看,数据主体至少应关注以下权利:
• 知情权:知道自己的数据是否被收集、用于什么目的、流向哪里
• 选择权:能够同意、拒绝或撤回某些数据处理行为
• 访问权:能够查看与自己相关的数据
• 更正权:能够纠正错误数据
• 删除权:在合理条件下要求删除相关数据
• 控制权:对个人数据的使用范围具有一定控制能力
• 申诉权:当数据被滥用并造成损害时,有申诉和补救渠道
在一些涉及数据交易、平台服务和数字经济的场景中,还会涉及数据收益权、数据开放性和数据经济性问题。这些问题仍处在持续讨论和制度完善过程中。
3、哪些数据需要特别保护
以下数据通常需要更严格保护:
• 身份信息,如姓名、身份证号、电话号码
• 生物特征,如人脸、指纹、声纹、虹膜
• 位置信息,如家庭地址、实时定位、行动轨迹
• 医疗信息,如病历、检查报告、诊断记录
• 金融信息,如账户、收入、交易记录
• 教育信息,如成绩、学习记录、评价报告
• 通信内容,如聊天记录、邮件、私密文件
• 未成年人信息
• 企业商业秘密和科研敏感数据
4、AI 为什么容易带来隐私风险
AI 隐私风险主要包括:
• 训练数据未经授权
• 模型可能记忆部分训练样本
• 用户输入被不当保存或再次用于训练
• 多模态输入中包含人脸、地址、车牌等敏感内容
• 模型输出可能泄露他人信息
• 数据在传输、存储和调用工具时被攻击
• 跨平台数据融合形成深度画像
现实中,个人数据的收集路径非常多,包括物联网设备、智能家居、摄像头、平台型企业的数据留存、行政或商业流程中的制度性信息提交,以及 Cookie、像素标签、设备指纹等互联网追踪技术。
判断一项数据采集活动是否合伦理,关键要看用户是否知情、是否授权、是否能够控制数据去向。
5、数据生命周期中的风险
数据风险不是只发生在采集阶段,而是贯穿完整生命周期。
(1)数据采集阶段
主要风险是用户未知情、未授权、默认开启权限、超范围收集。
(2)数据处理阶段
主要风险是用途改变、数据滥用、算法歧视、数据被用于原本未说明的目的。
(3)数据存储阶段
主要风险是非法窃取、泄露、内部人员滥用权限。
(4)数据交易阶段
主要风险是非法买卖、跨境流动难以监管、数据流向难以追踪。
(5)数据销毁阶段
主要风险是数据未真正删除、备份长期残留、用户撤回权无法落实。
因此,数据治理必须覆盖采集、处理、存储、共享、交易和销毁,而不能只在隐私政策中作形式化说明。
6、非法数据交易与社工库
数据作为一种新型生产要素,具有重要经济价值。但如果缺乏规范,就可能形成非法数据交易和黑灰产业链。
“社工库”是非法数据交易中的典型现象,通常指黑客或黑灰产组织通过攻击、泄露、撞库等方式非法收集的大规模个人数据集合,可能包含账号密码、身份证号、手机号、住址、通话记录、银行流水、位置记录等敏感信息。
其中:
• 洗库,指对非法获得的数据进行清洗、整理和格式化
• 撞库,指利用一个平台泄露的账号密码,尝试登录其他平台
• 精准诈骗,指利用泄露数据对特定人群实施更具针对性的欺骗
治理非法数据交易,需要从上游攻击工具、中游数据交易市场、下游资金流通渠道和平台安全防护等环节同时发力。
7、隐私保护的基本方法
常见方法包括:
• 数据最小化:只收集完成任务所必需的数据
• 脱敏处理:删除或替换可识别个人身份的信息
• 权限控制:限制谁能访问数据
• 加密存储与传输:减少泄露风险
• 日志审计:记录数据访问和模型调用行为
• 本地化处理:敏感数据尽量在本地或可信环境中处理
• 用户知情与同意:让用户了解数据用途和风险
• 差分隐私、联邦学习、同态加密等隐私增强技术:在特定场景中降低数据暴露风险。
8、个人使用 AI 的隐私原则
个人使用 AI 工具时,应避免直接输入身份证、银行卡、病历、合同原文、未公开代码、客户资料和私密聊天记录。
上传图片时,也要注意是否包含人脸、车牌、住址、二维码、票据编号等敏感信息。
七、生成式 AI 的特殊风险
生成式 AI 可以生成文本、图片、语音、视频和代码。它极大提高了内容生产效率,也带来了传统 AI 系统不那么突出的风险。
1、幻觉问题
大语言模型和多模态大模型可能生成看似合理但实际错误的内容。这类现象通常被称为幻觉。
例如:
• 编造不存在的论文
• 错误解释法律条款
• 虚构医学建议
• 看错图片中的文字
• 误读图表数据
• 给出无法运行的代码
• 把不确定信息说得非常肯定
![]()
图 7:大模型幻觉与事实核查流程
减少幻觉不能只靠“让模型更聪明”,还需要检索增强、来源引用、工具校验、人工复核和清晰的使用边界。
2、虚假信息与深度伪造
生成式 AI 可以快速制造逼真的文字、图片、语音和视频。如果被恶意使用,可能用于诈骗、冒充他人、伪造证据、制造舆论操纵或传播虚假新闻。
深度伪造尤其容易侵犯肖像权、名誉权、隐私权和人格尊严。未经同意使用他人照片、声音或视频进行生成和编辑,即使没有直接牟利,也可能造成严重伤害。
3、开源模型与防滥用责任
开源模型有助于科研创新、技术普及和生态发展,但开源并不等于免责。
当模型具备强大的图像生成、语音合成、代码生成或自动化能力时,开发者和发布者应考虑必要的防滥用机制,例如内容安全过滤、用途限制说明、模型卡、风险提示、敏感能力评估和发布前测试。
这里的关键不是简单反对开源,而是在开放创新与社会责任之间建立合理边界。
4、版权与原创性问题
生成式 AI 的训练数据和输出内容可能涉及版权。用户在商业出版、广告设计、课程材料、影视制作和软件开发中使用生成内容时,应注意版权来源、授权范围和标注要求。
5、学术诚信问题
学生如果直接提交 AI 生成作业,可能损害学习过程和评价公平。
合理使用 AI 可以帮助学习、启发思路和改进表达,但不应替代独立思考、资料阅读和真实写作。
6、代码安全问题
生成式 AI 可以辅助编程,但生成代码可能存在安全漏洞、依赖错误、边界情况遗漏或性能问题。
代码必须经过测试、审查和安全检查,不能未经验证直接部署。
7、心理健康与未成年人保护
对话式 AI 可能被用户长期依赖。尤其在孤独、焦虑、抑郁或未成年人使用场景中,系统需要避免误导用户、加剧情绪问题或替代真实的人际支持。
面向高风险心理状态的对话,系统应具备危机识别、求助引导、人工介入或转向专业支持的机制。AI 不能充当专业心理干预的替代品。
八、AI 滥用与社会风险
AI 的风险不仅来自模型犯错,也来自人有意滥用。随着生成式 AI、自动化工具和多模态模型普及,AI 滥用的门槛正在降低。
![]()
图 8:AI 滥用案例与伦理边界示意
1、虚假信息批量生成
AI 可以快速生成新闻、评论、图片和视频。如果用于制造虚假事件、操纵舆论或攻击个人声誉,会损害公共信息环境。
2、诈骗与身份冒充
语音克隆、换脸视频和自动生成话术可能被用于诈骗。攻击者可以冒充亲友、领导、客服或机构人员,诱导用户转账或泄露信息。
3、网络攻击辅助
AI 可以被用于生成钓鱼邮件、解释漏洞代码、自动化搜索目标或辅助攻击脚本。
与此同时,AI 也可用于防御,例如漏洞检测、日志分析和恶意代码识别。因此,关键在于使用目的、权限和控制机制。
4、考试作弊与学习替代
AI 可辅助学习,但也可能被滥用于代写论文、代做作业、绕过考试评价。
教育场景需要重新设计评价方式,更重视过程性学习、口头说明、实践任务和真实能力。
5、侵犯隐私与人格权
未经同意使用他人照片、声音、视频进行生成或编辑,可能侵犯隐私、肖像权、名誉权和人格尊严。
6、自动化歧视
如果组织在招聘、信贷、保险、教育筛选等场景中不加监督地使用 AI,可能把历史不公平包装成“算法结果”,使受影响者更难申诉。
7、信息茧房与认知偏差
个性化推荐可以提升用户体验,但也可能让用户不断接触自己已经认同的内容,逐渐陷入信息茧房。
当社交媒体、新闻平台和短视频系统不断强化用户既有立场时,就可能形成信息回音室和认知封闭。长此以往,用户对现实的理解会变得片面,社会群体之间也更容易产生对立。
九、风险分级与治理原则
AI 应用的风险差异很大,因此治理方式也应分级。不能把所有 AI 系统都当作高风险系统,也不能对高风险系统只做形式化提醒。
欧盟 AI Act 明确采用基于风险的监管思路,并将 AI 系统划分为不可接受风险、高风险、有限风险、最低或无风险等层级。
![]()
图 9:AI 风险分级治理框架
1、低风险应用
低风险应用通常不会直接影响个人重大权益。
例如:
• 图片美化
• 娱乐聊天
• 普通知识问答
• 文案润色
• 个人学习辅助
• 非关键推荐
这类应用仍需保护隐私、避免误导,但治理强度可以相对较低。
2、有限风险应用
有限风险应用需要重点关注透明性。
例如,用户应知道自己是否正在与 AI 交互,内容是否由 AI 生成,图像或视频是否经过 AI 编辑。
常见例子包括:
• AI 客服
• 生成式图片
• 深度合成视频
• 自动生成新闻摘要
• AI 辅助广告内容
3、高风险应用
高风险应用可能影响人的安全、机会、权利或重要资源分配。
例如:
• 医疗辅助诊断
• 教育升学评价
• 招聘筛选
• 信贷审批
• 基础设施管理
• 司法辅助
• 自动驾驶
• 工业安全控制
这类系统必须有更严格的数据治理、模型评估、日志记录、人工监督、申诉机制、第三方评估和持续监控。
4、不可接受风险应用
不可接受风险是指明显侵犯基本权利、严重操控人或造成重大社会伤害的 AI 应用。
例如,利用 AI 进行社会评分、操控脆弱人群、违法监控或进行不当生物识别分类等,通常应被禁止或严格限制。
5、风险分级的核心意义
风险分级的意义在于:让治理与风险相匹配。
低风险场景鼓励创新,高风险场景严格监管,不可接受风险场景明确禁止。这样既能保护社会安全与个人权利,也不至于让所有 AI 创新都被同样强度的规则压制。
十、AI 安全技术与治理方法
AI 安全与伦理不能只停留在口号上,还需要具体技术、流程和制度支撑。
1、数据治理
数据治理包括数据来源审查、授权管理、质量检查、敏感信息处理、偏见检测、数据版本记录和跨境数据合规管理。
数据治理的目标,是确保模型训练和应用建立在合法、合规、可靠的数据基础上。
对于涉及跨境数据流动的场景,还应关注数据主权、数据本地化、跨境安全评估、跨境审查和国家安全风险。
2、模型评估
模型评估不应只看单一准确率,而要综合考虑:
• 常规性能
• 分群体表现
• 稳健性
• 安全性
• 可解释性
• 幻觉率
• 有害输出概率
• 工具调用正确性
• 高风险场景错误后果
3、算法安全
算法安全不仅指模型不容易出错,也包括系统在复杂、不确定甚至敌对环境下保持稳定运行的能力。
它主要包括:
(1)性能稳定性
在不同环境、不同人群、不同输入条件下保持合理表现。
(2)抗故障能力
在网络攻击、数据扰动、极端输入下不轻易崩溃。
(4)对抗防护能力
面对对抗样本、数据投毒、模型反推等攻击时能够识别和抵御风险。
(5)数据保护能力
在训练、推理、存储、调用过程中保护敏感数据。
4、红队测试
红队测试是指主动寻找模型或系统漏洞。测试人员会模拟攻击者、恶意用户或极端输入,检查系统是否会输出危险内容、泄露信息、绕过限制或执行不当操作。
对于大模型和智能体系统,红队测试还应关注工具调用、权限边界、提示注入、越权访问和自动化执行风险。
5、安全对齐
安全对齐是指让 AI 系统的行为尽量符合人类价值、使用规则和安全边界。
对于大语言模型,常见方法包括监督微调、基于人类反馈的强化学习、安全规则、拒答策略、内容过滤和风险分类器。
6、人类监督
高风险系统应保留人的监督。
人的角色不是简单地“看一眼”,而应具有理解系统输出、提出质疑、覆盖模型建议、处理申诉和承担责任的能力。
7、可追溯与审计
AI 系统应记录关键操作,例如数据版本、模型版本、输入输出、工具调用、人工干预和异常事件。
这样在出现问题时,才能分析原因、修复系统并明确责任。
8、内容标注与水印
对于 AI 生成图片、音频、视频和文本,在合适场景下应进行标注,让用户知道内容经过 AI 生成或编辑。
内容标注和数字水印有助于维护信息透明和公众信任,但它们不能单独解决所有真实性问题,还需要平台治理、事实核查和法律责任配合。
9、第三方评估与算法备案
高风险 AI 系统不能只依赖企业自我声明,还需要外部监督机制。
常见治理方式包括:
• 第三方独立评估
• 高风险算法事前认证
• 算法备案制度
• 透明披露机制
• 事后审计
• 责任追溯
• 快速响应机制
在公共治理、司法、金融、医疗、教育等关键领域,这类机制尤其重要。
10、组织治理
组织层面需要建立 AI 使用规范、审批流程、风险评估机制、员工培训、事故响应和责任分工。
AI 治理不是某个工程师或某个部门的任务,而是技术、管理、法律、伦理和业务共同参与的过程。
十一、个人、学校与组织如何负责任使用 AI
AI 安全与伦理不仅是政府和企业的事情,也与每个使用者有关。普通用户、学生、教师、开发者和组织管理者,都需要形成基本的负责任使用意识。
![]()
图 10:负责任使用 AI 的基本原则
1、个人使用 AI 的原则
个人使用 AI 时,应注意:
• 不输入敏感隐私
• 不直接相信未经验证的事实
• 不用 AI 生成欺骗性内容
• 不冒充他人
• 不传播未核实的 AI 生成信息
• 不把 AI 建议当作专业诊断或法律意见
• 在重要场景中保留人工判断
AI 可以帮助我们学习、写作、整理和创造,但不能替代事实核查和责任判断。
2、学生使用 AI 的原则
学生可以用 AI 解释概念、生成练习、改写表达、检查结构和启发思路。但不应直接让 AI 代写作业、代做实验报告或伪造学习成果。
合理使用 AI 的目标应是提升理解能力,而不是绕过学习过程。
3、教师使用 AI 的原则
教师可以用 AI 辅助备课、设计练习、生成案例、分析学生反馈和改写教材内容。
但应注意:
• 审核生成内容准确性
• 避免把学生评价完全交给 AI
• 保护学生隐私
• 引导学生理解 AI 的边界
• 重新设计更重过程、更重表达和实践的评价方式
4、开发者使用 AI 的原则
开发者应关注:
• 数据来源是否合法
• 模型输出是否经过测试
• 是否提供用户提示和风险说明
• 是否建立日志与监控
• 是否设置权限与安全边界
• 是否对高风险输出进行人工审核
• 是否提供纠错和申诉机制
5、组织使用 AI 的原则
组织引入 AI 系统时,不应只问“能否提高效率”,还应问:
• 这个系统会影响谁?
• 出错后果是什么?
• 数据是否合规?
• 用户是否知情?
• 是否存在偏见?
• 是否需要人工复核?
• 谁对结果负责?
• 出现事故如何处理?
负责任的组织不会把 AI 当作“甩锅工具”,而应把 AI 纳入明确的治理框架中。
十二、AI 安全与伦理的发展趋势
AI 安全与伦理不是固定不变的规则清单,而会随着技术能力、应用场景和社会制度不断演化。
1、从原则倡议走向制度落地
早期 AI 伦理更多停留在原则层面,例如公平、透明、隐私、问责。随着 AI 应用进入高风险场景,治理重点正在从理念倡议转向法律法规、行业标准、审计流程和技术评估。
2、从单一模型治理走向系统治理
真实 AI 应用通常不是一个模型单独运行,而是由数据、模型、提示词、工具调用、插件、数据库、平台接口和人工流程共同组成。
因此,未来治理不能只检查模型本身,还要检查整个系统链条。
3、从上线前评估走向持续监控
模型部署后,环境会变化,用户会变化,攻击方式也会变化。
因此,持续监控、反馈机制、事故响应和动态更新将越来越重要。
4、从文本风险走向多模态风险
随着多模态模型发展,风险也从文本扩展到图片、语音、视频和行为控制。
深度伪造、视觉误读、语音冒充、视频生成和机器人执行风险都需要新的治理方法。
5、从国内治理走向国际协同
AI 技术和应用具有跨国流动性。数据、模型、平台、用户和影响都可能跨越国界。
因此,AI 治理需要国际组织、政府、企业、科研机构和公众共同参与。全球治理的难点在于:不同国家和地区在价值观、法律制度、产业利益和安全关切上并不完全一致。如何在尊重差异的同时形成最低限度的共同规则,是未来 AI 治理的重要任务。
小结
AI 安全与伦理关注的不是“能不能使用 AI”,而是“如何负责任地使用 AI”。可信 AI 应尽量做到可靠、安全、公平、透明、可解释、保护隐私并可追责。面对生成式 AI、多模态模型和数据伦理新问题,个人要查来源、保隐私、做复核;组织要分风险、建制度、留记录、有人负责。AI 越强大,越需要清晰边界与责任治理。
“点赞有美意,赞赏是鼓励”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
下载网易新闻客户端
