0
用微信扫码二维码
分享至好友和朋友圈


扫码订阅《中国信息安全》
邮发代号 2-786
征订热线:010-82341063
文 | 中移动金融科技有限公司网络与信息安全管理部 李江 李超 刘雨欣 冯承基 冯彦召
随着《中华人民共和国网络安全法》(以下简称《网络安全法》)、《中华人民共和国数据安全法》(以下简称《数据安全法》)、《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)等法律法规的深入实施,电信行业因网络架构复杂、数据形态多元、业务迭代迅速,传统的数据分类分级方案正面临准确率低、适配性差、多模态处理能力缺失等挑战。本文基于中国移动的具体实践,提出“人工智能(AI)驱动+场景适配”的智能分类分级体系,通过“大模型底座+小模型集+智能大脑”架构,实现了字段语义化、跨模态全域识别、敏捷场景适配三大突破,在资产合规管理、安全运营强化、全员安全赋能等方面成效显著,为电信行业数据安全治理提供了切实可行的实施路径。
一、电信行业数据安全治理面临的独特挑战
在数字经济加速发展的背景下,电信行业的数据安全治理挑战并非普通行业的“共性问题”,而是由其关键基础设施属性、海量数据规模与高频业务创新共同催生的“特有困境”。本文将从网络与数据复杂程度、合规要求升级、业务迭代三个维度,具体剖析电信行业数据安全治理面临的独特挑战。
(一)网络与数据复杂度高
电信行业的网络架构呈现“多层级、广覆盖、高关联”的显著特征,核心网作为网络中枢,涵盖骨干路由器、交换机等关键设备;接入网则包含光纤接入、5G新空口(5G NR)、Wi-Fi等多种接入方式,形成了“星型+网状”交织的接入格局;边缘计算节点则贴近用户,承担着低时延数据处理任务。这种多层级架构不仅涉及硬件设备的协同,更承载着规模庞大、形态多样的数据。从数据规模来看,仅运营商每年产生的数据便可达数十PB,且以每年20%~30%的速度增长;从数据形态来看,既包含结构化数据、半结构化数据,也涵盖非结构化的客服通话录音、巡检现场影像,以及多模态的物联网设备传感器数据与用户短视频内容,不同形态数据的存储格式、传输协议、敏感信息分布差异极大。
(二)合规要求持续升级
近年来,我国数据安全监管体系不断完善,《网络安全法》《数据安全法》《个人信息保护法》构成了数据安全治理的“三大基石”,而《电信和互联网服务用户个人信息保护管理办法》《关键信息基础设施安全保护条例》则针对电信行业提出了更加细化的合规要求,明确规定电信企业需“按数据重要性实施差异化防护”“建立全生命周期数据安全管理制度”“定期开展合规备案与风险评估”。然而,电信数据“跨系统流转、多业务融合”的特性,导致合规性实施面临诸多现实难题。从数据流转来看,用户数据往往需跨多个系统协同处理,且每个系统的数据存储格式、脱敏规则存在差异,导致敏感数据边界难以界定,而现有技术手段难以实时追踪数据流转中的用途变化。从合规备案来看,监管要求企业提交“数据分类分级清单”“敏感数据处理流程”等材料,但由于跨系统数据梳理难度大,部分企业仅能梳理核心系统数据,边缘节点、第三方合作系统的数据往往被遗漏,导致备案材料不完整,面临合规处罚风险。同时,《个人信息保护法》要求的“用户同意机制”,在电信业务场景中也难以落实,进一步增加了合规难度。
(三)业务迭代倒逼治理升级
随着数字经济与实体经济的深度融合,电信行业正从“传统通信服务”向“数字化解决方案提供商”转型,不断涌现的新业务不仅改变了电信行业的服务模式,更催生了大量新型数据形态与处理场景。然而,传统数据分类分级方案的规则重构速度,远远落后于业务创新速度——传统方案多以“数据来源”“敏感程度”为分类标准,而新型数据难以归入现有类别,需重新调研数据特性、梳理业务场景、制定防护规则,整个过程涉及业务、安全、法务等多个部门,通常需要3~6个月才能完成规则重构。这种“治理规则滞后于业务上线”的情况,导致数据安全治理出现“真空期”:新业务上线后,新型数据因无明确分类分级标准,无法匹配对应的加密、脱敏、访问控制措施,难以防范具有针对性的窃取与篡改,给用户隐私与公共安全带来隐患。
二、传统数据分类分级的痛点与局限
数据分类分级作为电信数据安全治理的“基础工程”,其核心目标是通过“精准归类”实现“差异化防护”。如今,电信数据已从单一结构化形态,扩展到音视频、扫描件、传感器信号等多模态形态,业务场景也因5G专网、物联网等新业务变得复杂多元,再加上《个人信息保护法》等法律法规对“间接个人信息”“敏感数据全链路管控”的精细化要求,传统方案“依赖预设规则、仅能处理结构化数据”的特性已难以适配当前需求,逐渐暴露出识别精度不足、多模态数据覆盖缺失、业务适配低效等高风险痛点,严重影响数据安全治理的整体效能。
(一)识别精度难以满足合规要求
传统方案的核心逻辑是“匹配预设规则”,但电信数据存在显著的“同义异构”“语义隐含”特征,导致识别精度低下。一方面,“同义异构”问题普遍存在,同一业务含义的字段因系统开发时期、厂商、业务线不同,命名方式差异极大,传统规则仅能匹配预设的字段名,无法识别异构字段的统一语义,导致同一类数据被分类为不同等级;另一方面,“语义隐含”的复合型数据难以识别,例如,“用户ID+近3个月通话频次+流量使用偏好”的关联数据,虽未直接包含身份证号、手机号等敏感信息,但通过多维度数据关联便可推断用户身份,这属于“间接个人信息”,传统方案因无法解析数据间的业务逻辑,仅能将其归类为“非敏感数据”,存在隐私泄露风险。某省移动统计,传统方案对复合型数据的识别准确率不足65%,漏分类率达20%,错分类率约15%,直接影响合规备案的有效性与防护措施的针对性。
(二)多模态数据覆盖能力缺失
传统方案的设计初衷是针对结构化数据,对非结构化、半结构化数据几乎无治理能力,但此类数据在电信业务中的占比已超55%,且呈持续上升趋势。具体来看,非结构化数据中的业务协议扫描件,需识别其中的用户姓名、身份证号、签名信息等敏感内容,但传统方案无法解析图片中的文本信息;客服录音转写文本,包含用户咨询的套餐问题、个人信息核对内容,传统方案无法通过语义分析识别敏感信息;基站巡检图片,需判断是否包含设备标识、告警信息等运维敏感数据,传统方案同样无法处理。半结构化数据中的Excel报表虽有一定格式,但表头命名不规范,传统规则无法匹配,导致数据无法分类。这些未纳入分类分级体系的数据,既难以落实加密、脱敏等防护措施,也无法开展访问审计,成为数据安全治理的“盲区”。
(三)业务适配成本高、效率低
面对5G专网、物联网等新业务催生的新型数据,传统数据分类方案表现出显著的局限性。该方案需要技术人员针对新型数据重新梳理全量库表字段、分析数据关联关系,再手动编写适配新场景的分类规则——此过程中,仅库表梳理就需逐一排查数百张甚至上千张数据表的字段含义与数据流向,规则编写后还需反复测试调整,导致单一场景的适配周期长达1~2个月。更为关键的是,传统方案易引发“规则冲突”问题:不同业务线对“敏感数据”的定义与判定标准存在差异。例如,金融科技业务线将“用户分期还款记录”界定为高敏感数据,而政企服务业务线对同类用户消费数据的敏感等级划分更宽松,不同规则叠加应用时易出现判定矛盾,增加管理复杂度。
三、人工智能赋能数据分类分级的实践架构与关键技术
为有效弥补传统方案的不足,新架构体系须实现从“被动规则匹配”到“主动智能感知”的治理模式升级。该体系并非单纯的技术堆砌,而是通过“架构层面的协同设计”与“技术层面的精准突破”构建了一个完整的闭环:三层架构通过大小模型的互补协同,平衡了数据识别的效率与精度;三大技术突破分别对应传统方案的核心痛点,从语义解析、模态覆盖、场景适配三个维度实现突破。二者共同支撑起电信行业复杂数据环境下的高效分类分级,为数据安全治理提供了切实可行的技术实施路径。
![]()
图 电信数据智能分类分级体系架构
如图所示,该体系架构分为数据源、智能分析、应用层3个层级。首先,数据源:支持丰富的数据源接入和识别,包括承载结构化数据、半结构化数据、非结构化数据的不同数据源。小模型集:针对具有明确特征的数据,通过提炼关键特征,构建高效的小模型集,提高特定数据的识别效率,并同时降低数据训练成本。大模型底座:基于大模型底座,通过对行业领域级专业知识库进行训练,对大模型底座进行微调和强化学习,构建领域级专业大模型。大小模型实现能力互补、双向赋能,提升模型效能。智能大脑:提供模型接入、管理、编排及智能化调度,提高资源利用率和模型效率。其次,智能分析:对不同数据源数据进行分析、解析,实现数据源识别、数据资产发现、数据分类、数据分级,标签自动打标。最后,应用层:应用层实现数据源、分类分级策略、数据资产、资产运营、对外应用程序编程接口(API)管理及数据资产分布视图。
(一)三层架构:平衡效率与精度
创新突破传统单模型局限,构建“大模型深度解析+小模型敏捷响应”的协同架构,实现数据分类分级领域效率、精度的双重跃升。首先,能力互补:大模型依托千亿参数优势解析非结构化数据(如合同文本、多模态信息)中的复杂语义,小模型以轻量化规则引擎实现毫秒级敏感字段拦截(如身份证号、密级标识),分工覆盖长短尾场景。其次,动态进化:通过“知识蒸馏+增量学习”实现双向赋能——大模型提炼高置信结果反哺小模型规则库,小模型实时采集数据优化大模型泛化能力,形成闭环迭代。最后,全场景精度保障:大模型兜底复杂数据分类,小模型覆盖90%高频任务,综合成本降低70%。
(二)三大技术突破:解决传统痛点
首先,字段语义归一化技术。通过“上下文关联分析+行业词典映射”,自动解析跨系统异构字段的统一语义。例如,模型结合“日期字段+币种字段”,可判断“tt_incm_txn_amt”“gross_rev”均为“交易金额”,并归类为“敏感数据”;对“用户套餐+金融分期”复合型数据,通过语义关联推理,明确其“个人敏感信息”属性。在金科和包财富业务试点中,复合型数据识别准确率从63%提高至90%,字段归一化覆盖率达98%。其次,跨模态全域识别技术。为填补传统方案在非结构化、半结构化数据治理上的空白,该技术融合光学字符识别(OCR)、自然语言处理(NLP)、图像分类三大技术,实现全类型数据的覆盖式识别。对于业务协议扫描件,先通过OCR技术提取图片中的文本信息,再借助NLP技术对文本进行语义分析,精准识别“客户身份证号”“签名信息”等敏感内容;对于基站巡检图片,通过图像分类算法识别图片中的设备标识、告警标识等关键元素,将其归类为“运维敏感数据”;对于Excel半结构化表格,通过表头关联推理(如“用户姓名+手机号”的字段组合)判断数据敏感等级,解决表头命名不规范导致的识别难题。目前,该技术对非结构化数据的识别准确率已超过80%,彻底填补了传统方案在多模态数据治理上的覆盖空白。最后,场景敏捷适配技术。依托“提示词工程+弹性部署”,实现新业务场景快速落地。针对5G专网数据,通过定制“设备ID+网络切片信息”识别指令,两周内完成适配;针对物联网终端数据,通过小模型增量训练,三天内实现“终端位置+传感数据”分类。在信息技术(IT)域大数据平台试点中,敏感数据表识别精度达98%,适配效率较传统方案提升80%。
四、实践成效:从合规治理到价值赋能
中移动金融科技有限公司实施的AI智能分类分级体系,并非仅停留在技术优化或工具升级,而是紧扣电信行业“合规要求严、业务迭代快、数据场景杂”的核心特点,深度嵌入数据生成、流转、使用的业务全流程,构建“合规筑基、安全护航、价值升级”的联动效应。合规层面,它破解了传统人工梳理低效、错漏多的痛点,通过自动化识别覆盖全业务链,满足《数据安全法》对重要数据全生命周期管理的要求,规避监管整改风险;安全层面,基于分级动态匹配防护策略,高敏感数据触发实时加密与异常预警,一般数据采用定期审计,防护更具针对性;价值层面,它超越“合规达标”,既能渗透安全意识让业务人员主动识敏,又能为新业务扫清安全障碍,实现从“被动合规”到“主动赋能业务”的跨越。以下从合规管理、安全运营、意识渗透与业务价值三个维度,具体阐述该体系的实践成效。
(一)合规管理效率显著提升,降低监管风险
自动化识别覆盖全量业务系统,大幅减少人工工作量:人工梳理数据的工作量减少50%,某省移动通过该体系,将全省300多个业务系统的数据分类时间从传统方案的2个月缩短15天,效率提升70%;数据资产纳管率从23%提升至82%,满足《数据安全法》中“重要数据全生命周期管理”的要求,某省移动在2024年监管部门的重要数据备案检查中,因数据分类准确、备案材料完整,成为行业内首个“零整改”通过检查的省级运营商。在不同业务线中,合规成效各具特色:金融科技业务线通过该体系,实现“用户金融分期数据”的精准分类,合规备案通过率从70%提升至100%;政企服务业务线针对政府客户的数据,实现“按密级分类、按需求备案”,备案效率提升60%,政府客户满意度从85分提升至95分。
(二)安全运营能力持续强化
分类分级结果通过API接口与各类安全工具深度联动,构建起“识别—防护—审计”的完整安全闭环,实现数据安全管理的全流程自动化与精准化。其中,与数据金库的对接可针对高敏感数据触发自动加密存储机制,从数据存储源头筑牢安全防线;与行为监测系统的协同则能对高敏感数据的异常访问行为进行实时监测与预警。某省移动应用该联动机制后,数据泄露事件发生率显著下降60%,安全防护的时效性与有效性得到充分验证;而与审计系统的对接进一步实现“按数据等级差异化审计”,针对高敏感数据强化审计频次与深度,针对一般数据简化冗余审计流程,使审计效率提升40%,在保障审计全面性的同时大幅降低运营管理成本,形成各环节紧密衔接的安全防护体系。
(三)全员安全意识渗透与业务价值
依托领域级安全知识库(涵盖2000多条电信数据安全知识、500多个合规案例),开发“AI安全专家”问答功能,实现“全员按需获取安全知识”。业务人员可实时查询数据使用规范,如“办理套餐时收集的用户身份证复印件,是否需分类为高敏感数据”“跨部门共享用户账单数据,需哪些合规流程”,问答响应时间<1秒,准确率达90%;管理人员可获取区域数据安全态势,如“本周某业务线的高敏感数据访问次数、违规访问次数、整改完成率”,辅助决策制定;运营人员可调用分类分级操作指南,降低操作难度。
五、结 语
随着生成式AI技术的快速迭代与电信业务的创新发展,数据分类分级将逐步迈向“全自动化、隐私增强、跨域协同”的新阶段,其在电信行业的价值也将从“合规工具”升级为“数据要素价值释放的催化剂”。
技术层面,隐私计算技术将与分类分级深度融合——联邦学习可实现“多省运营商数据联合分类,数据不离开本地”,避免跨地域数据流转风险;差分隐私可在分类过程中加入噪声,保护用户隐私的同时,不影响分类结果的准确性;后量子密码技术将用于分类模型的加密保护,防止模型被攻击或篡改,进一步提升分类分级的安全性。
应用层面,跨域协同分类将成为趋势——随着电信与政务、医疗、交通等行业的深度融合,“电信数据+政务数据”“电信数据+医疗数据”的跨域共享场景将增多,需建立跨行业的分类分级协同机制:通过统一的分类标准,明确数据敏感等级与防护措施,避免数据滥用;未来还可以构建“全国电信数据分类分级协同平台”,实现各省运营商数据分类结果的互认互通,降低跨省业务的治理成本。
实践价值层面,AI赋能的数据分类分级将成为“数据要素化”的核心支撑——通过精准识别高价值数据资产,助力电信企业挖掘数据价值:在个性化服务方面,基于分类后的“用户偏好数据”,推送定制化套餐,提升用户满意度;在智能运维方面,基于分类后的“设备故障数据”,构建预测模型,降低设备故障率;在产业生态合作方面,基于分类后的“非敏感业务数据”与合作伙伴共享,拓展增值服务场景。
回顾实践,AI赋能数据分类分级不仅解决了电信行业“数据家底不清、防护针对性不足、业务适配低效”的传统难题,更验证了“技术创新与业务场景深度融合”的治理思路。未来,随着技术的持续迭代与行业生态的不断完善,这一体系将持续演进,为电信行业数字化转型筑牢安全基石,也为整个数字经济的安全、有序发展提供可借鉴的实践范式。只有守住数据安全的“底线”,才能更好地释放数据要素的“价值上限”。
(本文刊登于《中国信息安全》杂志2025年第11期)
分享网络安全知识 强化网络安全意识
欢迎关注《中国信息安全》杂志官方抖音号
《中国信息安全》杂志倾力推荐
“企业成长计划”
点击下图 了解详情
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
下载网易新闻客户端
伊甸园真容现世新疆于阗
在线免费阅读/精美PDF版免费下载

微信扫一扫打赏
支付宝扫一扫打赏

