解析ESIS|某知名半导体企业陈立贞:数据安全与隐私保护 大模型时代的新挑战与解决方案

2025-01-22
尊敬的各位来宾,大家下午好!
其实一开始接到邀请来讨论这个话题时,我觉得挺难的。因为从最初的数据安全领域,到后来的大数据,再到如今的 AI 大模型,安全范畴不断拓展。就 AI 大模型的安全而言,不光是我们作为甲方,也就是用户在使用时,要考虑内部数据会不会因与 AI 交互而产生安全问题;更多的是在建设、训练 AI 大模型的过程中,我们对数据有怎样的需求,需要怎样的数据特征。
反过来讲,如果用户清楚大模型训练过程中的诉求特征,那也有助于我们从自身角度出发,思考如何在使用 AI 大模型时,确保自身行为既安全又合规。
一、AI大模型发展现状
首先,我们来看一下 AI 大模型的迅猛发展态势。
全球数字经济发展中AI大模型发展现状
2023 年,美、中、德、日、韩五国的数字经济总量达到 33 万亿美元,同比增长超过 8%,数字经济占 GDP 比重高达 60%,相较于 2019 年提升了 8 个百分点。其中,人工智能产业的发展速度和贡献尤为突出。随着该产业的蓬勃发展,中国目前拥有的人工智能大模型数量在全球占比达三分之一。据上半年统计数据,全球人工智能大模型数量约有 1328 个,中国占 36%,位列第二,美国居首位。到今年第一季度,全球 AI 企业接近 3 万家,美国占 34%,中国占 15%,同样排在第二位。
这充分表明,如今的 AI 已不同于两三年前,那时对普通用户或企业来说,很多还停留在概念层面,真正落地实用的较少;而现在情况截然不同。
美国、中国主流大模型
这里,我简单列举一些美国和中国常见的大模型。美国方面,最知名的当属 OpenAI 开发的 GPT - 4,它具备强大的复杂推理、理解能力以及编码能力,并且是基于超过万亿参数进行训练的。
其次是谷歌开发的 Bison,专注于常识推理、形式逻辑、数学以及 20 多种语言的高级编码。
还有由前 OpenAI 员工创立的 Cloud 模型,其目标是构建一个有用、诚实且无害的人工智能助手。另外,在今年 12 月 10 日,OpenAI 宣布正式向用户开放人工智能 AI 视频生成模型。
在国内,比较常见的有百度开发的文心一言,拥有千亿级参数量,擅长知识问答与创意生成;科大讯飞的星火大模型在对话、写作、编程、跨语言能力方面表现卓越;阿里达摩院的通义千问,用于日常智能问答、知识检索、文案创作等,对多模态的理解以及多轮对话能力较强;通义灵码专业性突出,专注于编码领域,我们前期也有所了解;字节跳动开发的豆包,基于自身特长,在视频脚本撰写、文案生成方面表现出色;Kimi 平台在智能推荐、个性化搜索以及处理长文本和多轮对话上独具优势;智浦清言则在中英双语对话方面优势显著,尤其擅长双语交流。
二、大模型时代数据安全与隐私保护挑战
数据是AI大模型中的关键要素
显而易见,众多模型的发展离不开数据,数据堪称大模型的根基。
因此,在这个大模型时代,探讨数据安全,就必须了解大模型需要何种数据,以及数据对其的重要性。
一方面,AI 大模型的关键要素在于依靠数据训练,数据质量和重要性对 AI 训练起着决定性作用:
(一)高质量数据集能够显著提升 AI 大模型的精度与可解释性,同时大幅缩减训练时长、提高训练效率。
(二)多元化数据有助于模型深化理解,精准捕捉各类概念、语义及语法。
(三)数据集规模的重要性不言而喻,规模越大,模型训练速度越快、精准度越高。
另一方面,探究数据对 AI 大模型性能的影响:
(一)高质量、大规模且多源的数据必定能提升 AI 性能,具体体现在以下几点:
降低过拟合风险,这是 AI 模型训练中的常见难题,利用海量数据训练,可有效减轻该现象,增强大模型对未知数据或场景的适应能力。
增强泛化能力,泛化能力是评估 AI 模型效能的关键指标,引入多元化数据集,能让模型学习更多上下文规则,进而提升其在实际场景应用中的适应性。
再者,数据在 AI 大模型竞争中占据核心地位。随着 AI 大模型领域的发展,数据价值愈发凸显。无论是数据服务商还是 AI 服务商,谁掌握了优质、海量且多元的数据集,谁就占据优势。这无疑加剧了数据服务产业的竞争,与此同时,在数据使用过程中,政策与法律法规的约束必不可少,这既是挑战,也是机遇。基于法规要求,安全标准提高,这不仅关乎数据服务商与 AI 服务商,同样与用户息息相关。
大模型所需数据特征
为何如此?因为大模型训练对数据有着特定追求:
追求规模庞大。大模型训练离不开海量数据,这就是为何众多企业选择本地化部署,或是采用开源模型进行本地化部署,甚至有实力雄厚的企业尝试用自有数据从头训练(尽管难度颇高)。即便有些企业只是将开源模型部署于企业内部,想进行适当的偏好性训练,也常因数据量不足而受阻。例如,GPT - 3 达 1750 亿 tokens,GPT - 4 更是高达数万亿 tokens。
多元化。多元化的数据能让大模型广泛涉猎各类语言知识特征,使其对不同业务场景、语义的理解更为深刻,而非局限于单一领域。
数据质量。若数据错误信息泛滥,必然会对大模型训练造成严重干扰。
数据时效性。鉴于社会认知与行业的持续发展,大模型训练所需数据必须紧跟前沿,摒弃陈旧信息。
数据专业性。在医疗、法律等特定专业领域,训练数据需涵盖专业术语、的规范乃至案例,方能解决专业领域的任务。了解大模型对数据的这些追求后,反过来,我们要防范的正是这些方面,思考应对之策。
此外,很多时候,我们最初仅是 AI 大模型的纯用户,但作为甲方,有时也会考虑在本地部署 AI 大模型。一方面供内部使用,若模型训练成熟,还可为市场、客户支持部门提供助力,此时,我们便逐渐转变为下游企业的 AI 服务者。所以,诸如数据质量、规模、多元化等要素,都成为我们必须考量的要点。与单纯的 AI 服务商不同,我们需兼顾两点:
一是获取的模型;
二是对外提供的服务。
就 AI 大模型而言,其面临的数据安全风险主要涵盖以下几方面:
首先是数据安全与隐私风险:
数据泄露,在海量数据的传输与存储过程中,数据泄露风险始终存在,即便以往少量数据也曾出现此类问题。
数据滥用,攻击者可能通过剖析大模型的输出结果,逆向推断出原始真实数据信息。
隐私侵犯,大模型在处理数据时:
训练环节,若对采集的数据审核不严,极易侵犯用户隐私。
训练过程所采用的匿名化手段,可能存在漏洞。一方面,其执行是否到位存疑;另一方面,据相关研究,即便依据隐私保护法律法规进行匿名化处理,人工神经网络仍有一定几率(约百分之十几)直接推断出隐私信息。而在使用 AI 大模型过程中,随着交互频繁、提问增多,人工神经网络复原隐私数据的几率甚至可能提升至 40% 以上。
勒索加密与勒索泄露:
若大模型训练数据被勒索加密,肯定不能用,这是有问题的;
勒索 + 泄露,此类风险危害极大,相较于以往常见的泄露事件,其涉及的数据量绝非 10G、8G 或一两百 G 所能比拟。
其次是模型的流转和部署风险:
对抗攻击,攻击者蓄意输入误导信息,诱使大模型输出错误结果。
后门攻击,即预留非法访问通道,此处不过多赘述。
提示词攻击,精心设计的提示词可能操控大语言模型,使其输出错误决策或敏感信息。
最后是内容合规风险:
版权侵犯,在开发过程中,业务部门常借助大模型简化代码编写,但无法确保模型提供的代码合规,其数据来源繁杂,可能涉及未经授权采集,如自采、商业合作、网络爬虫抓取等,极易引发产权纠纷,切不可产品售出后才惊觉侵权风险。
虚假信息,大模型训练接触海量信息,虚假内容难以避免。
低俗内容,违反法律法规底线。
业务安全隐患:
数据投毒,攻击者蓄意将恶意数据样本混入训练数据,将致使大模型输出异常,且攻击成本极低。
模型误用和滥用,攻击者可能利用大模型从事非法活动,即便在正常业务运营中,基于 AI 大模型为其他系统或管理部门提供决策支持时,一旦遭遇数据投毒或其他干扰,也将直接影响执行效果与决策质量。
三、大模型时代数据安全与隐私保护应对方案
面对这些风险,在数据安全防护方面,我基于自身了解提出几点建议,权当抛砖引玉,毕竟随着 AI 发展,还有诸多要点有待深入挖掘。
数据采集阶段安全要点
其一,数据采集阶段:无论是服务商,还是本地化部署 AI 大模型以服务下游企业,保障数据采集安全至关重要。
首先是语料来源,针对特定语料源采集前务必进行严谨评估,采集后严格检验。同时,应确保语料来源多样化,一方面增强大模型对不同场景的适应性,另一方面借助多元化数据降低反推理风险,保护真实数据隐私。
再者,对于开源语料,必须遵循开源许可协议,获取相关授权文件,并非所有开源数据均可随意使用、随意公布,开源数据同样存在时效限制。自采数据时,若数据所有者明确禁止使用,如通过网络爬虫获取且已声明禁用的数据,绝不可用。商业语料则需依据明确的授权协议,并严格遵守国家法律法规要求。
其次是语料内容安全,应采取关键词过滤、分类模型筛选、人工抽检等方式对语料预处理,而非直接取用;建立健全知识产权合规管理策略,识别侵权风险,同时完善投诉渠道,公开摘要信息说明等,确保合规运营。此外,处理个人信息时,务必确保行为合法,取得对应个人信息主体同意或契合法律法规规定情形。
最后是语料标注,采集的数据需标注处理,安排经专业培训的合格人员,依据明确的标注规则作业,并对标注结果抽检或逐条审核,以此保障前期数据准备的相对安全性(虽难以做到绝对安全)。
数据传输与存储阶段
其二,海量数据存储和传输阶段:多种预防手段可供选择。例如加密技术,涵盖应用层与传输层加密;采用分布式存储降低单点故障风险;针对海量数据,尤其是敏感数据,精细设置访问控制权限;强化审计与蛀扫,落实日常安全预防;合理运用数据脱敏技术;构建完备的灾备体系。
模型训练阶段
其三,训练阶段:AI 服务商对此较为熟悉,而企业自行本地化部署并训练时,也需关注以下要点。例如同态加密,可实现在加密状态下直接处理数据,无需解密;数据匿名化,与数据脱敏原理相近;安全多方计算,适用于多方联合训练大模型场景,各方既能保护自有数据不泄露,又能协同完成训练任务;差分隐私,通过向数据添加适量噪声,保障数据隐私。
AI访问安全
最后,站在甲方纯粹用户角度,常见问题如下:
职能部门管理数据上传,有时职能部门期望借助 AI 或互联网 AI 网站分析数据。
研发数据上传,业务需求驱动下,研发人员除取用测试用例外,可能因惰性上传代码,借助 AI 分析、调试 bug。
恶意文件或代码下载,下载的代码、文件安全性存疑,可能已遭污染。
数据侵权,研发人员使用现成代码时,易在不经意间触犯版权法规。
针对这些问题,对于使用 AI 的用户或部门,我们可采取业务数据分类分级管理,并强化安全意识教育;针对数据上传,制定明确的访问控制策略,优选可信的 AI 服务商,部署安全的代理网关,对 AI 流量、网站访问权限、交互字节数、附件上传等进行预防性管控;针对恶意文件,落地扫描识别;针对代码,加强研发代码合规性检查;基于整个互联网边界,强化数据防泄露措施,并做好用户行为分析工作。
四、总结
总而言之,对于整个 AI 大模型而言,基于海量、多元化、高质量、高时效、高专业的数据训练是基石,在此过程中,要确保数据采集合规,保障数据计算、传输与存储的安全性。这一过程涉及诸多风险,如数据泄露、滥用、勒索、隐私侵犯、对抗攻击、后门攻击、版权纠纷、数据投毒等,虽已提及部分要点,但仍有大量安全风险点有待各方携手深入探讨。
唯有持续强化各类安全防御与预防举措,才能确保大模型:
其一,自身可靠,不出现偏差误导用户;
其二,用户使用合规,不引发侵权等不良后果。
基于可信大模型,方能助力企业提升创新能力、提高运营效率,乃至为企业决策提供坚实支撑。
今天我的分享就到这里,鉴于此问题覆盖面广、复杂度高,后续还需大家共同深入研讨,谢谢!