人工智能通识课：AI 安全与伦理 – 中国前沿资讯

分享至

用微信扫码二维码

分享至好友和朋友圈

人工智能正在从实验室技术走向社会基础设施。它可以辅助学习、生成内容、分析数据、识别图像、编写代码、管理流程，也可以进入医疗、教育、金融、交通、制造、政务和公共服务等重要场景。AI 的能力越强、应用越广，其安全与伦理问题就越不能被视为附属话题。

AI 安全与伦理关注的核心问题是：人工智能系统不仅要“能用”，还要“可靠、可控、公平、透明、尊重人的权利，并对社会负责”。

从更广的历史背景看，人工智能被视为新一轮科技革命的重要力量。与蒸汽机、电力和计算机不同，AI 不只是替代体力劳动或加速信息处理，还开始进入语言生成、图像识别、医疗辅助、自动决策等认知性任务。这种变化一方面提高了生产效率，另一方面也带来就业结构变化、责任边界模糊、人与智能体关系重塑等新问题。

因此，AI 安全与伦理讨论的不是“技术能不能做到”，而是“技术应不应该这样使用”“谁应当为结果负责”“怎样让技术发展真正增进人的福祉”。

图 1：AI 安全与伦理在人工智能体系中的位置

从全球治理趋势看，AI 已经不再只是技术问题，而是逐渐成为法律、政策、伦理和社会治理共同关注的问题。

近年来，美国国家标准与技术研究院（NIST）、欧盟、联合国教科文组织（UNESCO）、经济合作与发展组织（OECD）等机构和组织，陆续提出了 AI 风险管理、分级监管、透明问责、隐私保护、公平性和人的监督等原则。其共同方向是：既鼓励 AI 创新，也要求 AI 系统在重要场景中更加安全、可信、可解释、可追责。

一、为什么 AI 需要安全与伦理

AI 系统与普通软件不同。传统软件通常按照明确规则运行，开发者写下什么逻辑，程序就执行什么逻辑。而许多 AI 系统，尤其是机器学习和深度学习模型，是从数据中学习规律。

模型的行为不仅取决于代码，也取决于训练数据、优化目标、模型结构、部署环境和用户输入。

这使得 AI 系统具有三个重要特点。

1、AI 的能力来自数据，也可能继承数据中的问题

如果训练数据存在偏见、错误、遗漏或过时信息，模型可能学习并放大这些问题。

例如，招聘模型如果主要从历史招聘数据中学习，而历史数据本身存在性别、年龄或学校背景偏见，那么模型可能在新一轮筛选中继续复制这种不公平。

2、AI 的输出具有不确定性

许多 AI 模型不是按照固定规则给出唯一答案，而是基于概率生成结果。大语言模型尤其如此，它生成的是在当前上下文中概率较高的文本，并不等于它一定掌握事实真相。

因此，模型可能生成流畅但错误的内容，也可能在用户没有察觉的情况下给出误导性建议。

3、AI 的影响会进入真实社会

当 AI 用于学习推荐、信贷审批、简历筛选、医疗辅助、舆情分析、自动驾驶或公共管理时，模型输出可能影响人的机会、权益、安全和尊严。

此时，AI 不再只是“工具是否好用”的问题，而是涉及社会公平、法律责任和公共信任。

因此，AI 安全与伦理必须回答两个层面的问题：

（1）技术层面

模型是否可靠、稳健、安全、可解释、可控？

（2）社会层面

模型是否公平、尊重隐私、保护人的权利、避免滥用、责任清晰？

4、AI 伦理的基本宗旨

AI 伦理的核心，不是简单地反对技术发展，而是为技术发展划定合理边界。

它关注的是：

• AI 应当做什么，不应当做什么

• 谁应当对 AI 系统的设计、部署和使用负责

• 如何让 AI 技术朝着有利于人类福祉的方向发展

从这个意义上说，AI 伦理既约束模型本身，也约束设计者、开发者、使用者、平台、企业和政策制定者。

AI 伦理通常包含两个相互配合的方向：

（1）正向引导

鼓励 AI 用于医疗、教育、工业、科研、环境保护、公共服务等有益场景。

（2）负向约束

防范隐私侵犯、算法歧视、深度伪造、虚假信息、自动化伤害和技术滥用。

简而言之，AI 伦理的目标，是让人工智能走向“可控、可信、可惠”的未来。

其中：

• 可控，指系统行为有边界，风险可监测、可干预、可纠正

• 可信，指系统尽量做到可靠、安全、公平、透明、可解释、可追责

• 可惠，指技术发展应增进人的福祉，而不是只服务效率、流量或利润

二、AI 风险从哪里来

AI 风险并不只来自“模型太强”或“技术太复杂”。在真实系统中，风险往往来自多个环节的叠加：数据、算法、模型、部署场景、用户行为和社会环境都会影响最终结果。

图 2：AI 风险来源示意图

1、数据风险

数据是 AI 学习的基础。数据风险主要包括：

• 数据来源不合法

• 数据中包含隐私或敏感信息

• 数据样本不均衡

• 数据标注错误

• 数据过时

• 数据存在历史偏见

• 数据质量不足却被用于高风险任务

低质量数据不仅会降低模型性能，还可能在招聘、金融、医疗、公共服务等场景中形成系统性误导。

2、算法与模型风险

模型风险主要来自模型本身的学习机制和输出方式，包括：

• 预测错误

• 对异常输入不稳定

• 对恶意提示或攻击敏感

• 生成虚假内容

• 无法解释关键判断依据

• 在不同群体上的表现差异较大

• 在训练环境外表现下降

算法层面还可能存在目标函数设计不当、特征选择不合理、评价指标片面等问题。例如，推荐系统如果只追求点击率，可能倾向于推送刺激性、极端化或误导性内容。

3、场景风险

同一个 AI 技术，用在不同场景中风险完全不同。

例如，AI 推荐电影属于低风险应用；AI 推荐药物剂量则属于高风险应用。一个图像识别模型用于整理相册，出错影响较小；用于安防执法或医疗筛查，出错就可能严重影响个人权益和生命安全。

4、用户行为风险

AI 系统可能被误用或滥用。

误用是指用户并非故意作恶，但把 AI 用在不适合的场景中。例如，把普通问答模型当作医学诊断工具，或把未经验证的 AI 输出直接用于法律、金融和教育评价。

滥用则是有意识地利用 AI 从事不当行为。例如，编造虚假新闻、伪造图片和音频、生成诈骗话术、批量制造垃圾信息，或绕过安全限制获取危险内容。

5、社会系统风险

AI 还可能带来更广泛的社会影响，例如：

• 虚假信息传播

• 深度伪造降低公众信任

• 自动化决策加剧不平等

• 工作岗位结构变化

• 教育评价和学习诚信受到冲击

• 少数大平台掌握过强技术与数据优势

• 个性化推荐造成信息茧房和群体对立

这些问题不能只靠模型开发者解决，也需要法律、教育、行业规范、平台治理和公众素养共同参与。

6、伦理风险的另一种分类

从伦理治理角度，也可以把 AI 风险概括为四类。

第一类是技术失控风险。

它指 AI 系统的能力、行为或影响超出人类预期与控制范围。当前多数 AI 系统仍依赖特定数据、任务和环境，但随着模型规模扩大、多模态融合和智能体技术发展，仍需要预警机制、紧急停止通道和人机协同干预等安全冗余设计。

第二类是技术非正当应用。

它包括误用和滥用，是当下更现实、更紧迫的风险。例如，将人脸识别用于非授权监控，将生成式 AI 用于诈骗、深度伪造或舆论操纵。

第三类是系统性应用风险。

当 AI 大规模进入教育、医疗、金融、交通和公共治理等关键领域时，可能带来就业结构变化、资源分配不平等、平台垄断和社会分化等问题。

第四类是治理失能。

AI 是复合性、高速演化的技术系统，如果法律、标准、监管、企业合规和公众参与滞后，就可能出现权责模糊、监管空白和事故处理困难。

三、可信 AI：安全与伦理的共同目标

可信 AI（Trustworthy AI）是 AI 安全与伦理的重要目标。它并不意味着模型永远不会出错，而是要求 AI 系统在设计、训练、部署和使用过程中，尽量做到可靠、可控、透明、公平并可追责。

NIST 对可信 AI 的特征做了较系统的概括，包括有效与可靠、安全、稳健与有韧性、透明与可问责、可解释与可理解、隐私增强、公平并管理有害偏见等维度。

图 3：可信 AI 的核心维度

1、可靠性

可靠性指 AI 系统在预期条件下能够稳定完成任务。

例如，一个语音识别系统在普通话、方言、噪声环境、不同年龄用户中都应保持基本可用，而不能只在理想测试集上表现良好。

2、安全性

安全性指 AI 系统不会对用户、组织或社会造成不可接受的伤害。

这里的安全既包括物理安全，例如自动驾驶、机器人、医疗设备，也包括信息安全，例如模型被攻击、系统被绕过、敏感信息泄露。

3、稳健性

稳健性指模型在面对噪声、异常输入、分布变化或轻微扰动时，仍能保持合理表现。

例如，图片稍微模糊、文字有错别字、用户提问方式不同，模型不应立即产生严重错误。

4、公平性

公平性指 AI 系统不应对特定群体造成不合理歧视。

公平性不是简单要求所有人结果完全相同，而是要求模型不要因为性别、年龄、地域、种族、残障、经济背景等因素产生不当差别对待。

5、透明性

透明性指用户、开发者和监管者能够了解 AI 系统的基本用途、能力边界、数据来源、决策流程和风险限制。

透明性可以分为三个层次：

（1）实现层透明性

算法执行过程、输入输出关系和关键逻辑可以被检查，典型方式包括白盒测试、代码审查等。

（2）规格层透明性

系统的设计目标、模型结构、训练数据、损失函数、评估指标和适用边界能够被说明。

（3）解释层透明性

系统不仅给出结果，还能说明决策依据、推理路径和风险限制。

对于生成式 AI，还应让用户知道内容是否由 AI 生成或经过 AI 辅助。

6、可解释性

可解释性指 AI 系统的结果能够被人理解和检查。

对于普通推荐系统，解释可以是“因为你喜欢类似内容”；对于医疗、金融、司法等高风险系统，则需要更严格的依据说明和人工复核机制。

在一些机器学习场景中，也可以使用 LIME、SHAP 等方法辅助分析模型输出与特征之间的关系。但解释工具不能替代风险评估、专业判断和责任机制。

7、隐私保护

隐私保护要求 AI 系统在数据采集、训练、推理和存储过程中尊重个人信息权益。

尤其是人脸、声音、位置、医疗记录、身份信息、教育记录和通信内容，都应受到更严格保护。

8、问责机制

问责意味着当 AI 系统造成问题时，不能把责任推给“算法自己决定”。

需要明确谁设计了系统，谁提供数据，谁部署使用，谁负责监督，谁处理申诉和纠错。

四、从全生命周期看 AI 治理

AI 安全与伦理不能只在模型上线前检查一次，而应贯穿系统全生命周期。一个 AI 系统从问题定义开始，到数据采集、模型训练、评估测试、部署使用、持续监控和最终退役，每个阶段都可能产生风险。

NIST AI 风险管理框架的核心由 Govern、Map、Measure、Manage 四类功能组成，用于帮助组织围绕 AI 风险形成共同理解、开展评估并采取管理行动。

图 4：AI 生命周期中的风险治理流程

1、问题定义阶段

首先要问清楚：这个任务是否适合使用 AI？是否存在更简单、更透明、更安全的方法？是否涉及人的重要权益？是否可能造成不公平或误导？

不是所有问题都应该用 AI 解决。尤其在人身安全、医疗诊断、司法决策、教育评价等高风险场景中，必须谨慎评估。

2、数据阶段

数据阶段需要关注：

• 数据是否合法取得

• 是否包含敏感信息

• 是否需要脱敏或匿名化

• 样本是否覆盖主要人群

• 标注是否准确

• 数据是否存在明显偏见

• 是否建立数据访问权限和审计记录

数据治理做不好，后续模型再复杂也难以保证安全与公平。

3、训练阶段

训练阶段需要关注模型结构、训练目标、损失函数、超参数、训练资源和安全策略。

对于大模型，还要关注训练数据过滤、版权风险、有害内容过滤和模型能力评估。

4、评估阶段

模型不能只看平均准确率。还应评估：

• 不同人群上的表现差异

• 极端输入下的稳健性

• 对抗攻击下的安全性

• 错误案例的严重程度

• 是否会产生幻觉或有害输出

• 是否满足业务和伦理要求

5、部署阶段

部署时要明确用户提示、适用范围、禁止用途、人工复核机制、反馈渠道和日志记录。

高风险系统不应完全自动化决策，而应保留人的监督与干预。

6、监控阶段

模型上线后，真实环境可能发生变化。用户行为、数据分布、政策要求和社会环境都会变化。

因此，需要持续监控模型表现，及时发现偏差、失效、滥用和安全事件。

7、更新与退役阶段

当模型不再适合当前任务，或存在无法修复的风险时，应及时更新、限制使用或退役。

AI 治理不仅包括“如何上线”，也包括“何时停止使用”。

五、公平性、偏见与算法歧视

公平性是 AI 伦理中最重要的问题之一。AI 模型看似客观，因为它由数据和算法驱动；但如果数据和系统设计本身包含偏见，模型也可能产生不公平结果。

图 5：数据偏见如何影响模型结果

1、偏见可能来自数据

数据偏见是最常见的来源。

例如，某个图像识别模型如果主要用白天、晴天、清晰画面训练，那么在夜晚、雨天或低光环境中可能表现较差。某个语音识别系统如果主要用标准口音训练，就可能对方言、儿童声音、老年人声音识别效果较差。

2、偏见可能来自标签

训练数据的标签通常由人提供。人的主观判断、历史制度和文化偏见可能进入标签。

例如，“优秀简历”“高风险用户”“不良行为”等标签，如果缺乏清晰标准，模型就可能学习到隐含歧视。

3、偏见可能来自目标函数

模型优化的目标如果设计不当，也会带来不公平。

例如，推荐系统只追求点击率，可能更倾向推荐刺激性、极端化或误导性内容；教育系统只追求分数预测，可能忽视学生的成长背景和学习过程。

4、算法偏差的常见类型

从形成机制看，算法偏差还可以进一步分为几类。

（1）既有偏差

它来自现实社会中已经存在的历史偏见。例如，历史招聘数据本身偏向某些群体，模型就可能把这种历史偏见学习下来。

（2）技术偏差

它来自数据处理、特征选择、模型结构或评价指标的不合理。例如，样本不平衡、特征选择片面、算法缺乏上下文理解，都可能导致偏差。

（3）涌现偏差

它指算法被部署到原本没有预料的场景后，产生新的不公平后果。例如，一个面向娱乐推荐的系统被用于招聘筛选，就可能造成不合理过滤。

（4）反馈偏差

它指算法输出反过来影响现实世界，使偏见不断累积。例如，某地区被模型预测为高风险后获得更多巡查，更多巡查又产生更多记录，下一轮模型便更容易继续把该地区判为高风险。这种“数据—模型—现实行为”的闭环，会形成循环偏误。

5、算法歧视的典型问题

算法歧视是指由于数据、算法设计或部署方式中的系统性偏差，导致某些群体受到不公平对待。

一个经典案例是 COMPAS 再犯风险评估系统。

该系统用于辅助评估被告未来再犯风险，但研究发现，它在不同族群上的错误类型并不均衡。即使模型没有直接使用种族变量，历史执法差异、社会结构偏见和训练数据分布也可能被间接编码进模型。

这说明，算法不使用敏感变量，并不等于结果一定公平。公平性需要通过数据审查、分群体评估、错误分析、申诉机制和持续监控共同保障。

6、公平不等于简单平均

公平性不是所有群体获得完全相同结果，而是要求模型的差异具有合理依据，并避免无关身份因素造成不当伤害。

例如，在医疗筛查中，不同年龄群体风险不同，模型可以考虑医学上合理的年龄因素；但不能因无关因素排除某些人获得服务的机会。

7、如何减少偏见

减少偏见通常需要多种方法配合：

• 检查数据来源和样本覆盖

• 分群体评估模型表现

• 分析错误案例是否集中在特定群体

• 对敏感特征进行谨慎处理

• 引入公平性指标

• 提高模型开发团队的多元性

• 建立申诉和人工复核机制

• 在系统上线后持续监控。

六、数据伦理、隐私与个人权利

AI 系统往往需要大量数据，而数据中可能包含个人隐私、商业秘密、科研成果和公共管理信息。

数据伦理不仅是隐私保护问题，也是关于权利、公平、责任和数据价值分配的问题。

图 6：数据伦理与隐私保护示意图

1、什么是数据伦理

数据伦理是指在数据的生成、收集、存储、使用、共享和销毁全过程中，应遵循的价值观念和行为准则。

它关注的不只是数据能否被技术处理，还包括：

• 数据是否被合法取得

• 数据主体是否知情并同意

• 数据用途是否清晰

• 数据是否被过度收集

• 数据是否会造成歧视或伤害

• 数据价值如何分配

• 数据泄露后谁来负责

因此，数据伦理贯穿数据生命周期，也贯穿 AI 系统的开发、训练、部署和使用过程。

2、数据权属与数据主体权利

数据权属是数据伦理的重要问题。个人、企业、平台和政府都可能参与数据的产生、收集、加工和使用，因此数据归属常常并不简单。

从个人权利角度看，数据主体至少应关注以下权利：

• 知情权：知道自己的数据是否被收集、用于什么目的、流向哪里

• 选择权：能够同意、拒绝或撤回某些数据处理行为

• 访问权：能够查看与自己相关的数据

• 更正权：能够纠正错误数据

• 删除权：在合理条件下要求删除相关数据

• 控制权：对个人数据的使用范围具有一定控制能力

• 申诉权：当数据被滥用并造成损害时，有申诉和补救渠道

在一些涉及数据交易、平台服务和数字经济的场景中，还会涉及数据收益权、数据开放性和数据经济性问题。这些问题仍处在持续讨论和制度完善过程中。

3、哪些数据需要特别保护

以下数据通常需要更严格保护：

• 身份信息，如姓名、身份证号、电话号码

• 生物特征，如人脸、指纹、声纹、虹膜

• 位置信息，如家庭地址、实时定位、行动轨迹

• 医疗信息，如病历、检查报告、诊断记录

• 金融信息，如账户、收入、交易记录

• 教育信息，如成绩、学习记录、评价报告

• 通信内容，如聊天记录、邮件、私密文件

• 未成年人信息

• 企业商业秘密和科研敏感数据

4、AI 为什么容易带来隐私风险

AI 隐私风险主要包括：

• 训练数据未经授权

• 模型可能记忆部分训练样本

• 用户输入被不当保存或再次用于训练

• 多模态输入中包含人脸、地址、车牌等敏感内容

• 模型输出可能泄露他人信息

• 数据在传输、存储和调用工具时被攻击

• 跨平台数据融合形成深度画像

现实中，个人数据的收集路径非常多，包括物联网设备、智能家居、摄像头、平台型企业的数据留存、行政或商业流程中的制度性信息提交，以及 Cookie、像素标签、设备指纹等互联网追踪技术。

判断一项数据采集活动是否合伦理，关键要看用户是否知情、是否授权、是否能够控制数据去向。

5、数据生命周期中的风险

数据风险不是只发生在采集阶段，而是贯穿完整生命周期。

（1）数据采集阶段

主要风险是用户未知情、未授权、默认开启权限、超范围收集。

（2）数据处理阶段

主要风险是用途改变、数据滥用、算法歧视、数据被用于原本未说明的目的。

（3）数据存储阶段

主要风险是非法窃取、泄露、内部人员滥用权限。

（4）数据交易阶段

主要风险是非法买卖、跨境流动难以监管、数据流向难以追踪。

（5）数据销毁阶段

主要风险是数据未真正删除、备份长期残留、用户撤回权无法落实。

因此，数据治理必须覆盖采集、处理、存储、共享、交易和销毁，而不能只在隐私政策中作形式化说明。

6、非法数据交易与社工库

数据作为一种新型生产要素，具有重要经济价值。但如果缺乏规范，就可能形成非法数据交易和黑灰产业链。

“社工库”是非法数据交易中的典型现象，通常指黑客或黑灰产组织通过攻击、泄露、撞库等方式非法收集的大规模个人数据集合，可能包含账号密码、身份证号、手机号、住址、通话记录、银行流水、位置记录等敏感信息。

其中：

• 洗库，指对非法获得的数据进行清洗、整理和格式化

• 撞库，指利用一个平台泄露的账号密码，尝试登录其他平台

• 精准诈骗，指利用泄露数据对特定人群实施更具针对性的欺骗

治理非法数据交易，需要从上游攻击工具、中游数据交易市场、下游资金流通渠道和平台安全防护等环节同时发力。

7、隐私保护的基本方法

常见方法包括：

• 数据最小化：只收集完成任务所必需的数据

• 脱敏处理：删除或替换可识别个人身份的信息

• 权限控制：限制谁能访问数据

• 加密存储与传输：减少泄露风险

• 日志审计：记录数据访问和模型调用行为

• 本地化处理：敏感数据尽量在本地或可信环境中处理

• 用户知情与同意：让用户了解数据用途和风险

• 差分隐私、联邦学习、同态加密等隐私增强技术：在特定场景中降低数据暴露风险。

8、个人使用 AI 的隐私原则

个人使用 AI 工具时，应避免直接输入身份证、银行卡、病历、合同原文、未公开代码、客户资料和私密聊天记录。

上传图片时，也要注意是否包含人脸、车牌、住址、二维码、票据编号等敏感信息。

七、生成式 AI 的特殊风险

生成式 AI 可以生成文本、图片、语音、视频和代码。它极大提高了内容生产效率，也带来了传统 AI 系统不那么突出的风险。

1、幻觉问题

大语言模型和多模态大模型可能生成看似合理但实际错误的内容。这类现象通常被称为幻觉。

例如：

• 编造不存在的论文

• 错误解释法律条款

• 虚构医学建议

• 看错图片中的文字

• 误读图表数据

• 给出无法运行的代码

• 把不确定信息说得非常肯定

图 7：大模型幻觉与事实核查流程

减少幻觉不能只靠“让模型更聪明”，还需要检索增强、来源引用、工具校验、人工复核和清晰的使用边界。

2、虚假信息与深度伪造

生成式 AI 可以快速制造逼真的文字、图片、语音和视频。如果被恶意使用，可能用于诈骗、冒充他人、伪造证据、制造舆论操纵或传播虚假新闻。

深度伪造尤其容易侵犯肖像权、名誉权、隐私权和人格尊严。未经同意使用他人照片、声音或视频进行生成和编辑，即使没有直接牟利，也可能造成严重伤害。

3、开源模型与防滥用责任

开源模型有助于科研创新、技术普及和生态发展，但开源并不等于免责。

当模型具备强大的图像生成、语音合成、代码生成或自动化能力时，开发者和发布者应考虑必要的防滥用机制，例如内容安全过滤、用途限制说明、模型卡、风险提示、敏感能力评估和发布前测试。

这里的关键不是简单反对开源，而是在开放创新与社会责任之间建立合理边界。

4、版权与原创性问题

生成式 AI 的训练数据和输出内容可能涉及版权。用户在商业出版、广告设计、课程材料、影视制作和软件开发中使用生成内容时，应注意版权来源、授权范围和标注要求。

5、学术诚信问题

学生如果直接提交 AI 生成作业，可能损害学习过程和评价公平。

合理使用 AI 可以帮助学习、启发思路和改进表达，但不应替代独立思考、资料阅读和真实写作。

6、代码安全问题

生成式 AI 可以辅助编程，但生成代码可能存在安全漏洞、依赖错误、边界情况遗漏或性能问题。

代码必须经过测试、审查和安全检查，不能未经验证直接部署。

7、心理健康与未成年人保护

对话式 AI 可能被用户长期依赖。尤其在孤独、焦虑、抑郁或未成年人使用场景中，系统需要避免误导用户、加剧情绪问题或替代真实的人际支持。

面向高风险心理状态的对话，系统应具备危机识别、求助引导、人工介入或转向专业支持的机制。AI 不能充当专业心理干预的替代品。

八、AI 滥用与社会风险

AI 的风险不仅来自模型犯错，也来自人有意滥用。随着生成式 AI、自动化工具和多模态模型普及，AI 滥用的门槛正在降低。

图 8：AI 滥用案例与伦理边界示意

1、虚假信息批量生成

AI 可以快速生成新闻、评论、图片和视频。如果用于制造虚假事件、操纵舆论或攻击个人声誉，会损害公共信息环境。

2、诈骗与身份冒充

语音克隆、换脸视频和自动生成话术可能被用于诈骗。攻击者可以冒充亲友、领导、客服或机构人员，诱导用户转账或泄露信息。

3、网络攻击辅助

AI 可以被用于生成钓鱼邮件、解释漏洞代码、自动化搜索目标或辅助攻击脚本。

与此同时，AI 也可用于防御，例如漏洞检测、日志分析和恶意代码识别。因此，关键在于使用目的、权限和控制机制。

4、考试作弊与学习替代

AI 可辅助学习，但也可能被滥用于代写论文、代做作业、绕过考试评价。

教育场景需要重新设计评价方式，更重视过程性学习、口头说明、实践任务和真实能力。

5、侵犯隐私与人格权

未经同意使用他人照片、声音、视频进行生成或编辑，可能侵犯隐私、肖像权、名誉权和人格尊严。

6、自动化歧视

如果组织在招聘、信贷、保险、教育筛选等场景中不加监督地使用 AI，可能把历史不公平包装成“算法结果”，使受影响者更难申诉。

7、信息茧房与认知偏差

个性化推荐可以提升用户体验，但也可能让用户不断接触自己已经认同的内容，逐渐陷入信息茧房。

当社交媒体、新闻平台和短视频系统不断强化用户既有立场时，就可能形成信息回音室和认知封闭。长此以往，用户对现实的理解会变得片面，社会群体之间也更容易产生对立。

九、风险分级与治理原则

AI 应用的风险差异很大，因此治理方式也应分级。不能把所有 AI 系统都当作高风险系统，也不能对高风险系统只做形式化提醒。

欧盟 AI Act 明确采用基于风险的监管思路，并将 AI 系统划分为不可接受风险、高风险、有限风险、最低或无风险等层级。

图 9：AI 风险分级治理框架

1、低风险应用

低风险应用通常不会直接影响个人重大权益。

例如：

• 图片美化

• 娱乐聊天

• 普通知识问答

• 文案润色

• 个人学习辅助

• 非关键推荐

这类应用仍需保护隐私、避免误导，但治理强度可以相对较低。

2、有限风险应用

有限风险应用需要重点关注透明性。

例如，用户应知道自己是否正在与 AI 交互，内容是否由 AI 生成，图像或视频是否经过 AI 编辑。

常见例子包括：

• AI 客服

• 生成式图片

• 深度合成视频

• 自动生成新闻摘要

• AI 辅助广告内容

3、高风险应用

高风险应用可能影响人的安全、机会、权利或重要资源分配。

例如：

• 医疗辅助诊断

• 教育升学评价

• 招聘筛选

• 信贷审批

• 基础设施管理

• 司法辅助

• 自动驾驶

• 工业安全控制

这类系统必须有更严格的数据治理、模型评估、日志记录、人工监督、申诉机制、第三方评估和持续监控。

4、不可接受风险应用

不可接受风险是指明显侵犯基本权利、严重操控人或造成重大社会伤害的 AI 应用。

例如，利用 AI 进行社会评分、操控脆弱人群、违法监控或进行不当生物识别分类等，通常应被禁止或严格限制。

5、风险分级的核心意义

风险分级的意义在于：让治理与风险相匹配。

低风险场景鼓励创新，高风险场景严格监管，不可接受风险场景明确禁止。这样既能保护社会安全与个人权利，也不至于让所有 AI 创新都被同样强度的规则压制。

十、AI 安全技术与治理方法

AI 安全与伦理不能只停留在口号上，还需要具体技术、流程和制度支撑。

1、数据治理

数据治理包括数据来源审查、授权管理、质量检查、敏感信息处理、偏见检测、数据版本记录和跨境数据合规管理。

数据治理的目标，是确保模型训练和应用建立在合法、合规、可靠的数据基础上。

对于涉及跨境数据流动的场景，还应关注数据主权、数据本地化、跨境安全评估、跨境审查和国家安全风险。

2、模型评估

模型评估不应只看单一准确率，而要综合考虑：

• 常规性能

• 分群体表现

• 稳健性

• 安全性

• 可解释性

• 幻觉率

• 有害输出概率

• 工具调用正确性

• 高风险场景错误后果

3、算法安全

算法安全不仅指模型不容易出错，也包括系统在复杂、不确定甚至敌对环境下保持稳定运行的能力。

它主要包括：

（1）性能稳定性

在不同环境、不同人群、不同输入条件下保持合理表现。

（2）抗故障能力

在网络攻击、数据扰动、极端输入下不轻易崩溃。

（4）对抗防护能力

面对对抗样本、数据投毒、模型反推等攻击时能够识别和抵御风险。

（5）数据保护能力

在训练、推理、存储、调用过程中保护敏感数据。

4、红队测试

红队测试是指主动寻找模型或系统漏洞。测试人员会模拟攻击者、恶意用户或极端输入，检查系统是否会输出危险内容、泄露信息、绕过限制或执行不当操作。

对于大模型和智能体系统，红队测试还应关注工具调用、权限边界、提示注入、越权访问和自动化执行风险。

5、安全对齐

安全对齐是指让 AI 系统的行为尽量符合人类价值、使用规则和安全边界。

对于大语言模型，常见方法包括监督微调、基于人类反馈的强化学习、安全规则、拒答策略、内容过滤和风险分类器。

6、人类监督

高风险系统应保留人的监督。

人的角色不是简单地“看一眼”，而应具有理解系统输出、提出质疑、覆盖模型建议、处理申诉和承担责任的能力。

7、可追溯与审计

AI 系统应记录关键操作，例如数据版本、模型版本、输入输出、工具调用、人工干预和异常事件。

这样在出现问题时，才能分析原因、修复系统并明确责任。

8、内容标注与水印

对于 AI 生成图片、音频、视频和文本，在合适场景下应进行标注，让用户知道内容经过 AI 生成或编辑。

内容标注和数字水印有助于维护信息透明和公众信任，但它们不能单独解决所有真实性问题，还需要平台治理、事实核查和法律责任配合。

9、第三方评估与算法备案

高风险 AI 系统不能只依赖企业自我声明，还需要外部监督机制。

常见治理方式包括：

• 第三方独立评估

• 高风险算法事前认证

• 算法备案制度

• 透明披露机制

• 事后审计

• 责任追溯

• 快速响应机制

在公共治理、司法、金融、医疗、教育等关键领域，这类机制尤其重要。

10、组织治理

组织层面需要建立 AI 使用规范、审批流程、风险评估机制、员工培训、事故响应和责任分工。

AI 治理不是某个工程师或某个部门的任务，而是技术、管理、法律、伦理和业务共同参与的过程。

十一、个人、学校与组织如何负责任使用 AI

AI 安全与伦理不仅是政府和企业的事情，也与每个使用者有关。普通用户、学生、教师、开发者和组织管理者，都需要形成基本的负责任使用意识。

图 10：负责任使用 AI 的基本原则

1、个人使用 AI 的原则

个人使用 AI 时，应注意：

• 不输入敏感隐私

• 不直接相信未经验证的事实

• 不用 AI 生成欺骗性内容

• 不冒充他人

• 不传播未核实的 AI 生成信息

• 不把 AI 建议当作专业诊断或法律意见

• 在重要场景中保留人工判断

AI 可以帮助我们学习、写作、整理和创造，但不能替代事实核查和责任判断。

2、学生使用 AI 的原则

学生可以用 AI 解释概念、生成练习、改写表达、检查结构和启发思路。但不应直接让 AI 代写作业、代做实验报告或伪造学习成果。

合理使用 AI 的目标应是提升理解能力，而不是绕过学习过程。

3、教师使用 AI 的原则

教师可以用 AI 辅助备课、设计练习、生成案例、分析学生反馈和改写教材内容。

但应注意：

• 审核生成内容准确性

• 避免把学生评价完全交给 AI

• 保护学生隐私

• 引导学生理解 AI 的边界

• 重新设计更重过程、更重表达和实践的评价方式

4、开发者使用 AI 的原则

开发者应关注：

• 数据来源是否合法

• 模型输出是否经过测试

• 是否提供用户提示和风险说明

• 是否建立日志与监控

• 是否设置权限与安全边界

• 是否对高风险输出进行人工审核

• 是否提供纠错和申诉机制

5、组织使用 AI 的原则

组织引入 AI 系统时，不应只问“能否提高效率”，还应问：

• 这个系统会影响谁？

• 出错后果是什么？

• 数据是否合规？

• 用户是否知情？

• 是否存在偏见？

• 是否需要人工复核？

• 谁对结果负责？

• 出现事故如何处理？

负责任的组织不会把 AI 当作“甩锅工具”，而应把 AI 纳入明确的治理框架中。

十二、AI 安全与伦理的发展趋势

AI 安全与伦理不是固定不变的规则清单，而会随着技术能力、应用场景和社会制度不断演化。

1、从原则倡议走向制度落地

早期 AI 伦理更多停留在原则层面，例如公平、透明、隐私、问责。随着 AI 应用进入高风险场景，治理重点正在从理念倡议转向法律法规、行业标准、审计流程和技术评估。

2、从单一模型治理走向系统治理

真实 AI 应用通常不是一个模型单独运行，而是由数据、模型、提示词、工具调用、插件、数据库、平台接口和人工流程共同组成。

因此，未来治理不能只检查模型本身，还要检查整个系统链条。

3、从上线前评估走向持续监控

模型部署后，环境会变化，用户会变化，攻击方式也会变化。

因此，持续监控、反馈机制、事故响应和动态更新将越来越重要。

4、从文本风险走向多模态风险

随着多模态模型发展，风险也从文本扩展到图片、语音、视频和行为控制。

深度伪造、视觉误读、语音冒充、视频生成和机器人执行风险都需要新的治理方法。

5、从国内治理走向国际协同

AI 技术和应用具有跨国流动性。数据、模型、平台、用户和影响都可能跨越国界。

因此，AI 治理需要国际组织、政府、企业、科研机构和公众共同参与。全球治理的难点在于：不同国家和地区在价值观、法律制度、产业利益和安全关切上并不完全一致。如何在尊重差异的同时形成最低限度的共同规则，是未来 AI 治理的重要任务。

小结

AI 安全与伦理关注的不是“能不能使用 AI”，而是“如何负责任地使用 AI”。可信 AI 应尽量做到可靠、安全、公平、透明、可解释、保护隐私并可追责。面对生成式 AI、多模态模型和数据伦理新问题，个人要查来源、保隐私、做复核；组织要分风险、建制度、留记录、有人负责。AI 越强大，越需要清晰边界与责任治理。

“点赞有美意，赞赏是鼓励”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

返回网易首页
下载网易新闻客户端

相关文章

苹果iPhone20再曝光 机身或采用一体化玻璃工艺

“人工智能+火电”仍有四道难题要解

世界人工智能大会本周开幕，科创人工智能ETF银华（588930）等多只ETF盘中涨超1%

创业板人工智能ETF招商（159243）开盘跌0.07%

人工智能全球治理：参与、对话与引领

“让人工智能惠及每一个香港市民”

苹果iPhone20再曝光机身或采用一体化玻璃工艺