人工智能安全框架(2020年)

本蓝皮书针对全球人工智能安全框架缺失问题,凝聚业界专家共识,聚焦当前人工智能突出安全风险,提出涵盖人工智能安全目标,人工智能安全分级能力,以及人工智能安全技术和管理体系的人工智能安全框架,期待为社会各方提升人工智能安全防护能力提供有益参考。

一、人工智能安全现状

(一)人工智能安全挑战

1.人工智能“基建化”加速,基础设施面临安全挑战

2020 年 5 月,我国《政府工作报告》提出以 5G、人工智能等为代表的新型基础设施建设政策,此举按下了人工智能国家战略推进的快进键。随后,25 省市发布“新基建”政策方案,累计投资 30 余万亿人民币,加快推动人工智能算力、算法和数据基础设施建设。在新基建推动催化下,人工智能技术将加快转变为像水、电一样的基础设施,向社会全行业全领域赋能。然而,人工智能基础设施却潜藏安全风险。以机器学习开源框架平台和预训练模型库为代表的算法基础设施因开发者蓄意破坏或代码实现不完善面临算法后门嵌入、代码安全漏洞等风险。2020 年 9 月,安全厂商 360 公开披露谷歌开源框架平台TensorFlow 存在 24 个安全漏洞。开源数据集以提供数据采集、清洗、标注等服务的人工智能基础数据设施面临训练数据不均衡、训练数据投毒、训练数据泄露等安全风险。2020 年,美国麻省理工学院的研究人员通过实验证实 CIFAR-100-LT、ImageNet-LT、SVHN-LT 等广泛应用的数据集存在严重不均衡问题。

2.人工智能“协同性”增强,设计研发安全风险突出

联邦学习、迁移学习等人工智能新技术的应用,促进跨机构间人工智能研发协作进一步增多。因遵循了不同目标和规范,使得人工智能设计研发阶段的安全风险更加复杂且难以检测发现。一是人工智能算法自身存在技术脆弱性。当前,人工智能尚处于依托海量数据驱动知识学习的阶段,以深度神经网络为代表的人工智能算法仍存在弱鲁棒性、不可解释性、偏见歧视等尚未克服的技术局限。二是人工智能新型安全攻击不断涌现。近年来,对抗样本攻击、算法后门攻击、模型窃取攻击、模型反馈误导、数据逆向还原、成员推理攻击等破坏人工智能算法和数据机密性、完整性、可用性的新型安全攻击快速涌现,人工智能安全性获得全球学术界和工业界广泛关注。三是算法设计实施有误产生非预期结果。人工智能算法的设计和实施有可能无法实现设计者的预设目标,导致产生偏离预期的不可控行为。

3.人工智能“内嵌化”加深,应用失控风险危害显著

产业智能转型升级的内在驱动,不断推动人工智能深度内嵌于各行各业各环节中,真正实现物理世界变化实时映射于数字世界,以及数字世界演进优化带动物理世界发展的双向融合。然而,人工智能各行业应用带来的数字和物理世界双向融合,将促使人工智能在数字世界中的安全风险向物理世界和人类社会蔓延。一是威胁物理环境安全。应用于农业、化工、核工业等领域的智能系统非正常运行或遭受攻击,可能破坏土壤、海洋、大气等环境安全。二是威胁人身财产安全。自动驾驶、无人机、医疗机器人、智慧金融等智能系统的非正常运行将可能直接危害人类身体健康和财产安全。三是威胁国家社会安全。不法分子恶意利用基于人工智能的换脸换声技术伪造政治领袖和公众人物的高逼真度新闻视频,可能引发民众骚乱甚至国内动乱,威胁国家安全。

(二)人工智能风险地图

与人工智能系统设计运营等全流程相结合,详尽剖析人工智能系统在各生命周期阶段面临的安全风险,将有助于分析定位人工智能安全风险来源,研究和部署针对性安全防御理论和技术。国际标准化组织(ISO)开展了《人工智能系统生命周期过程》标准项目,将人工智能系统全生命周期概括为初始、设计研发、检验验证、部署、运行监控、持续验证、重新评估、废弃八个阶段。基于 ISO 对于人工智能系统全生命周期的划分,项目组描绘出人工智能全生命周期安全风险地图,如图 1 所示。

初始阶段安全风险。初始阶段是指将想法转化为有形系统的过程,主要包括任务分析、需求定义、风险管理等过程。这个阶段的安全风险主要表现为对人工智能应用目标的设定有悖国家法律法规和社会伦理规范。

设计研发阶段安全风险。设计研发阶段是指完成可部署人工智能系统创建的过程,主要包括确定设计方法、定义系统框架、软件代码实现、风险管理等过程。这个阶段的安全风险主要表现为人工智能基础设施不完善、技术脆弱性以及设计研发有误等引发的安全风险。

检验验证阶段安全风险。检验验证阶段是指检查人工智能系统是否按照预期需求工作以及是否完全满足预定目标。这个阶段的安全风险主要表现为测试验证不充分,未及时发现和修复前序阶段的安全风险。

部署阶段安全风险。部署阶段是指在目标环境中安装和配置人工智能系统的过程。这个阶段的安全风险主要表现为人工智能系统部署的软硬件环境不可信,系统可能遭受非授权访问和非授权使用。

运行监控阶段安全风险。运行监控阶段,人工智能系统处于运行和可使用状态,主要包括运行监控、维护升级等过程。这个阶段的安全风险主要表现为恶意攻击者对人工智能系统发起的对抗样本、算法后门、模型窃取、模型反馈误导、数据逆向还原、成员推理、属性推断、代码漏洞利用等安全攻击,以及人工智能系统遭受滥用或恶意应用。

持续验证阶段安全风险。在持续验证阶段,对于开展持续学习的人工智能系统进行持续检验和验证。这个阶段的安全风险主要表现为测试验证数据更新不及时,未及时发现和修复因持续学习引入的模型反馈误导等安全风险。

重新评估阶段安全风险。当初始目标无法达到或者需要修改时,进入重新评估阶段。该阶段主要包括设计定义、需求定义、风险管理等过程。这个阶段主要涉及需求调整和重新定义,因而其安全风险与初始阶段的安全风险类似,即人工智能应用目标的设定有悖国家法律法规和社会伦理规范。

废弃阶段安全风险。在废弃阶段,废弃销毁使用目的不复存在或者有更好解决方法替换的人工智能系统,主要包括数据、算法模型以及系统整体的废弃销毁过程。这个阶段的安全风险主要表现为销毁不彻底,泄露个人隐私。

(三)人工智能安全技术现状

1.人工智能安全领域近年来论文数量增长迅速

近 10 年,人工智能安全风险和防御领域论文发表情况如图 2 所示。可以看出,自 2014 年谷歌研究人员首次证实深度神经网络面临对抗样本攻击威胁后,人工智能安全风险和防御领域论文数量迅速增长。

人工智能安全框架(2020年)
人工智能安全框架(2020年)

2.人工智能安全热点技术方向

近年来,人工智能安全热点技术方向发表论文发表情况如图 3 所示。根据论文发表量可以看出,对抗样本攻击和防御是人工智能安全领域最受关注的研究方向。随后,数据投毒攻击和防御、模型可解释、算法后门攻击和防御这三个方向的论文发表量也均在 9000 篇以上,关注度较高。其次,联邦学习、差分隐私机器学习和深度伪造及检测近年来也逐渐成为受关注的技术方向。

人工智能安全框架(2020年)

随着人工智能技术应用愈加频繁,机器学习开源框架平台的安全性逐渐受到重视。机器学习开源框架平台安全漏洞挖掘修复也成为人工智能安全领域的热点研究方向。全球著名漏洞数据库 CVE 披露的典型机器学习开源框架平台安全漏洞数量逐渐增多,截至 2020 年 11 月20 日的收录情况如图 4 所示。

人工智能安全框架(2020年)

尽管人工智能安全热点技术方向大多是由美国研究人员首次提出,我国科研人员在相关领域已开展了大量创新性工作并取得了全球领先的研究成果。机器学习开源框架平台安全漏洞挖掘修复是由我国首次提出并贡献主要成果的人工智能安全热点技术方向。

3.人工智能安全技术取得局部突破

人工智能安全热点技术方向中,联邦学习、差分隐私机器学习和深度伪造检测的商用步伐最快,已具有工业级产品并在部分领域开展试点应用。联邦学习方向,微众银行、字节跳动、京东数科等科技企业均推出了商用级联邦学习平台,并在保险定价、金融信贷、电商广告、智慧城市等领域开展试点商用。差分隐私机器学习方向,谷歌开源了差分隐私函数库 Differential Privacy Library,并已在谷歌地图、谷歌浏览器 Chrome 中开展实际应用。深度伪造检测方向,百度和瑞莱智慧推出了深度伪造检测服务平台,可向视频网站、网络论坛、新闻机构等提供人脸和人声伪造检测能力。

(四)人工智能安全框架缺失

当前,随着数字经济和智能经济进阶发展,人工智能规模化建设和应用持续加速,人工智能安全风险日益凸显,并不断向物理世界和人类社会蔓延。保障人工智能应用安全可靠的需求日渐迫切。然而,现阶段企业主要聚焦于人工智能技术研发和产品运营,在人工智能安全方面投入相对较少、基础薄弱。而且,人工智能安全技术多处于学术研究和少量试验试用阶段,尚未形成适用于各类人工智能应用的成熟安全产品和服务体系。人工智能安全需求与企业安全投入不足以及人工智能安全产品服务欠缺之间的严重矛盾,成为制约人工智能产业健康发展的瓶颈问题。

人工智能安全框架,不仅能为企业提供提升人工智能安全能力的可参考路径,指导企业合理进行人工智能安全资源投入,并能为人工智能安全技术研发提出方向建议,推动人工智能安全技术产品化和服务化。然而,目前全球尚未提出人工智能安全框架。而且,由于人工智能技术特点及安全风险与传统信息系统存在显著差异,现有网络安全框架并不适用于人工智能应用。因而,本蓝皮书聚焦人工智能安全风险,凝聚业界专家共识,构建人工智能安全框架。

二、人工智能安全框架

(一)设计思路

1.框架范围

本人工智能安全框架聚焦于人工智能内生安全,即主要解决人工智能基础设施和人工智能设计研发面临的安全风险,以及因前两方面安全问题直接引发的人工智能应用行为决策失控安全风险。对于因滥用或者恶意使用人工智能应用而导致的物理世界和国家社会安全风险,主要由国家法律法规和行业监管政策对人工智能使用者予以规制。研发运营企业通过事前安全评估等内部管理机制可保障人工智能应用的目标符合国家法律法规和行业监管政策要求。

2.设计原则

企业保障其设计研发和运营使用的人工智能应用安全是人工智能安全治理的基石。人工智能安全框架应为企业不断提升人工智能安全能力提供可遵循的迭代演进路径。为此,人工智能安全框架应具有较强的实用性、整体性和前瞻性。

3.核心要素

基于人工智能安全框架应遵循的实用性、前瞻性和整体性原则,从以下三个方面构建人工智能安全框架。

第一,明确人工智能安全目标是前提。目标的确定是一个根本问题,为人工智能安全防护工作的实施指明方向。本框架通过全面分析人工智能应用面临的安全风险,提出人工智能安全目标。

第二,构建人工智能安全能力是关键。为实现人工智能安全目标,本框架以建设人工智能安全能力为导向,参考网络安全滑动标尺,提出人工智能安全能力分级叠加演进模型。

第三,部署安全技术措施和落实安全管理是重要保障。为帮助人工智能应用研发运营企业有效形成和持续提升人工智能安全能力,提出了支撑实现人工智能安全能力的人工智能安全技术体系和管理体系。

综上所述,人工智能安全框架的构建包含安全目标、安全能力、安全技术和安全管理四个维度,从四个不同的层面指导企业开展人工智能安全防护工作。

(二)安全框架

人工智能安全框架包含安全目标、安全能力、安全技术和安全管理四个维度,如图 5 所示。这四个防护维度基于自顶向下、层层递进的方式指导企业构建人工智能安全防护体系。其中,设定合理安全目标是保障人工智能应用安全的起点和基础,安全能力是实现安全目标的有效保障,安全技术和安全管理是安全能力的支撑和体现。

人工智能安全框架(2020年)

安全目标:通过系统分析人工智能面临的安全风险及其产生根源,从应用、功能、数据、决策、行为、事件六个方面提出安全需求和目标。

安全能力:按照安全能力建设难度逐级递增,以及安全资源投入产出比逐级递减的方式,参照网络安全滑动标尺模型,提出架构安全、被动防御、主动防御、威胁情报和反制进攻五级人工智能安全能力。前一级安全能力是构建后续级别安全能力的基础。其中第一级架构安全,旨在指导企业建立用安全思维规划、设计、建设和使用人工智能应用的能力。第二级被动防御,旨在指导企业在人工智能应用之外部署静态、被动式的安全能力。第三级主动防御,旨在指导企业强化人工智能安全团队,实现动态、自适应、自生长的安全能力。第四级威胁情报,旨在指导企业获取和使用人工智能安全威胁情报以赋能人工智能安全系统、设备和人员。第五级反制进攻,旨在指导企业建立针对人工智能恶意攻击者的合法反制安全能力。

安全技术:人工智能业务、人工智能算法、人工智能训练数据和机器学习框架平台是构建人工智能应用的四个核心组件,也是人工智能安全重点防护对象。因而,本框架针对业务、算法、数据和平台提出安全防护技术手段。

安全管理:从国家和行业人工智能安全法律法规、行业政策、伦理规范、技术标准等要求出发,提出企业在人工智能安全组织、人员和制度等方面的实施要求。

(三)框架分析(略)

三、人工智能安全技术实施(略)

四、人工智能重点应用安全防护实践

随着人工智能安全风险日益凸显,综合运用各类快速涌现的人工智能安全技术保障人工智能应用安全的需求日渐迫切。在关乎人类生命安全、财产安全以及国家社会安全的部分领域,已探索开展了人工智能应用安全防护工作,例如自动驾驶、智能信贷风控和深度伪造已成为开展人工智能安全防护较为领先的三个领域。为便于企业借鉴已有人工智能安全防护经验,本章详细介绍上述三个领域人工智能安全防护实践情况。

(一)自动驾驶安全防护

1.安全风险

自动驾驶作为汽车智能化和网联化发展的高级形态,是人工智能与实体经济深度结合的典型代表,已成为各国竞相发力的重要方向。自动驾驶技术正重塑未来的出行方式,便利人们日常生活。目前,自动驾驶应用已在我国多地部署运营。2020 年 7 月,苏州发布了全球首条城市微循环无人小巴市民体验线路,落地了全国首个常态化运营的城市公开道路无人小巴项目。2020 年 10 月,百度自动驾驶出租车服务在北京全面开放,10 月 12 日单天呼单量突破 2600 单。安全出行是自动驾驶行业的首要原则。自动驾驶汽车是由云端服务、传感器、计算单元、自动驾驶算法、底盘动力系统等构成的一套复杂的系统。由于其众多组件暴露出了大量攻击面,带来了严峻安全挑战。根据风险来源不同,自动驾驶安全风险可分为传统网络安全风险以及人工智能安全风险两类。传统网络安全风险主要有云服务安全风险、计算环境破坏、车云网络通信安全风险和内部网络通信安全风险。传感器数据干扰和自动驾驶算法攻击是突出的人工智能安全风险。

人工智能安全框架(2020年)

2.安全防护

自动驾驶汽车的任一部分受到攻击都会危及整个系统的正常运行,单点防御策略很难保证自动驾驶整体安全性。因而需构建多层次的纵深防御技术体系,保障自动驾驶汽车安全行驶。百度针对自动驾驶安全防御提出并部署了包含云服务安全、外部通信安全、内部通信安全、计算环境安全、AI 算法安全、AI 业务安全六个方面安全防护技术。本节重点介绍与人工智能安全风险相关的安全防御技术。

人工智能安全框架(2020年)

(1)计算环境安全

采用高质量且具有抗干扰能力的传感器,可有效应对传感器数据干扰攻击。一是安装具有电磁信号跳频、编码等特性的毫米波/超声波传感器和具有脉冲变频、光波编码等特性的激光雷达,提升抗干扰能力,增加攻击难度。例如,Baraja 公司推出的下一代传感平台使用随机调制连续波的激光雷达系统,可以阻挡环境光源的干扰。二是采用多源卫星接收机,提高传感器抗干扰能力。在遇到 GPS 信号伪造攻击时仍可以接收到其他卫星定位系统的信号。例如,百度自动驾驶系统 Apollo 推荐采用 Novatel PP7 多源接收机系统。三是对 V2X 消息进行签名验证,识别真实的 V2X 消息,丢弃虚假消息,确保真实可靠。目前,我国已开展两轮 V2X 安全消息一致性测试及示范活动,百度等自动驾驶头部公司已实际部署 V2X 安全机制。

(2)AI 算法安全防御

为了防御针对自动驾驶算法的对抗样本攻击,在算法模型训练数据集中引入对抗样本,增强模型的鲁棒性。与此同时利用模型加密、访问限制等技术,保护模型的机密性,防止算法模型泄露。例如,百度自动驾驶系统 Apollo 采用了包含模型安全验证、模型加固、对抗样本检测、模型鲁棒性形式化验证的一体化算法模型安全解决方案AdvBox。

(3)AI 业务安全防御

综合运用降级预案、感知融合、关键数据运行记录等措施,实现自动驾驶的安全防御。

降级预案:当自动驾驶系统检测到攻击后,如果系统无法安全处理,则启动相应的熔断或降级预案,降低攻击造成的后果。例如,Waymo、百度等公司的自动驾驶车辆均设有一键停车按钮,在遭受攻击时可以降低车辆的安全风险。

多感知融合:通过多传感器感知算法融合,实现多感知算法识别结果相互交叉验证,增强自动驾驶系统抗传感器数据干扰能力。一是视觉感知和雷达感知的融合,即当一个传感器采集数据被干扰后,感知算法仍能使用其他传感器数据感知障碍物,确保自动驾驶汽车安全行驶。二是 V2X 消息、视觉感知和高精地图的融合,即当交通标识被篡改后,仍然可以通过 V2X 或者高精地图得到正确的交通标识信息。三是卫星定位、惯导定位和环境特征定位的融合,即在 GPS 信号受到干扰时,仍可通过惯导定位、环境特征定位感知车辆的正确位置。例如,自动驾驶公司 DeepScale、视觉方案供应商 Mobileye 均专注于传感器融合解决方案。大疆推出的 Mavic Air 通过多感知融合技术达到出色的定位效果。

关键运行数据记录:妥善保存自动驾驶汽车行驶过程中产生的关键数据,例如决策控制指令、车辆状态信息等,有助于发生交通事故时还原事故现场,定位事故原因,判定责任主体。在自动驾驶汽车中安装具有数据防删除、防篡改、防伪造能力的数据记录装置,有助于确保记录的关键数据安全可信。例如,配置自动驾驶系统的奥迪 A8为车辆安装了“黑匣子”,用以专门记录驾驶权交接与机器警示驾驶接管全记录,且会将记录数据保存六个月,以此为法律上界定事故责任提供技术支撑。

(二)智能信贷风控安全防护

1.安全风险

银行信贷业务的风险管理核心在于构建风控模型,帮助银行有效识别客户信用风险以及欺诈行为。获取多领域多维度高质量用户数据对于建立识别客户风险的风控模型是至关重要的。然而利用多源数据进行风控建模面临诸多风险挑战。

一是数据泄漏风险。金融机构在构建或者优化信贷模型时通常会选择与数据提供方联合建模。由于传统联合建模方式至少需要一方数据出库,即使金融机构和数据提供方选择在中间方建立沙箱环境进行建模,也会存在拍照、截屏等低成本数据泄露安全风险。

二是数据孤岛风险。信贷模型的建模通常需要征信、电商交易、银行流水等多个领域的数据。然而,由于行业竞争、隐私安全、行政手续等壁垒问题,金融机构很难整合使用分散在各地、各机构的不同领域数据来训练更好的信贷模型。

三是安全合规风险。近年来,金融行业数据安全和个人信息保护的管理规范和技术标准日益完善。例如,《金融科技(FinTech)发展规划(2019-2021 年)》《移动金融基于声纹识别的安全应用技术规范》《个人金融信息保护技术规范》等对金融机构的数据收集、流转、使用行为提出了全面详细的安全要求,从业机构需快速适应新监管要求,确保业务安全性和合规性。

2.安全防护

为打通数据孤岛、实现数据流动的价值,解决企业之间数据合作过程中的数据安全和隐私保护问题,人工智能行业出现了多种数据安全防护方法,如蚂蚁集团、腾讯、瑞莱智慧等在智能信贷风控场景已利用安全多方计算、联邦学习、匿踪查询等技术打造数据安全共享基础设施,将计算移动到数据端,实现数据可用不可见,并最终帮助用户完成跨机构数据合作任务,驱动业务增长。主要的安全防护方法包括以下三方面:

(1)安全多方计算

安全多方计算提供参与计算的各方对敏感或强监管数据进行分布式安全查询、统计和复杂计算的能力,在信任不足的情形下获得数据合作计算的价值。安全计算底层主要借助秘密分享与同态加密算法实现,可实现在原始数据、数据来源不暴露的情况下获取计算结果。例如,蚂蚁集团推出了蚂蚁链摩斯大规模多方安全计算商用平台,基于多方安全计算、区块链等技术,解决企业数据协同计算过程中的数据安全和隐私保护问题。蚂蚁链摩斯平台已在金融风控、联合营销等场景中进行运用。

(2)联邦学习

联邦学习保证在各参与方自有原始数据不出库前提下,两方或多方通过加密机制进行参数交换,实现人工智能算法模型协同训练与预测。金融机构在人工智能算法训练过程中,不对外传输任何原始数据,杜绝数据泄露隐患,充分保护用户隐私,确保数据协作合规性。

(3)匿踪查询

匿踪查询技术是基于半诚实对手的假设,利用不对称加密、不经意传输等密码学技术,通过隐藏被查询对象关键词或客户身份信息,使数据服务方在提供匹配查询结果的同时无法获知具体对应的个体信息。匿踪查询技术能够在数据不出库的同时支持多方联合建模计算,从而更安全的服务于金融信贷场景。例如,富数科技推出了集成匿踪查询技术能力的企业级安全计算平台 Avatar,目前已在银行、保险、消费金融等领开展应用。

(三)深度伪造应用安全防护

1.安全风险

2017 年,美国 Reddit 新闻网站上一位名为 deepfakes 的用户上传了经过技术篡改的色情视频,将视频中的演员人脸替换成电影明星的脸。由此“深度伪造(Deepfake)”技术引发人们关注。深度伪造技术不合理应用带来的安全风险主要体现在以下三个方面。

一是损害个体肖像权、名誉权与隐私权。随着深度伪造技术开源代码、APP 应用增多,深度伪造技术门槛不断降低。不法分子利用深度伪造技术制作虚假视频,可能被用于诬陷、诽谤和报复他人的手段,侵犯个人肖像权、名誉权和隐私权。截至 2019 年 12 月,全网流传的深度伪造视频中,虚假色情内容占比高达 96%。

二是助长网络诈骗。传统诈骗手段在深度伪造技术加持下更加猖獗。例如,非法人员利用人工智能技术将自己的声音伪造成受害者信任人员的音色,通过语音聊天方式实施诈骗。2019 年德国某公司 CEO因虚假伪造语音电话被骗取 220,000 欧元。

三是加剧网络谣言传播。深度伪造技术可被用于生产虚假新闻信息,成为网络谣言生产工具,助长网络谣言传播,冲击新闻媒体社会公信力。例如,2018 年特朗普宣布美国退出《巴黎气候协定》后不久,比利时某政党制作了一段特朗普呼吁比利时仿效美国的虚假讲话视频。尽管视频末尾注明了“这不是真的特朗普”,但该视频仍在比利时引起轩然大波。

2.安全防护

(1)技术检测

针对深度伪造滥用的防御方法,首要是使用技术手段对虚假伪造图像、视频、音频进行检测。现阶段学术界和工业界已经发布了多种针对深度伪造内容的检测方法。早期深度伪造检测方法大多采用基于人为设计特征的图像取证技术。该类方法采用传统信号处理技术,使用图像频域和统计特征区分伪造内容和真实内容,例如通过局部噪音分析、图像质量评估、光照一致性等方法检测识别复制-移动、拼接、移除等图像篡改情况。深度伪造视频本质是一系列伪造图片的时序组合,因而可以将图像取证技术方法应用于深度伪造视频检测。例如加利福尼亚大学提出了一种用于检测 Photoshop 修改人脸的方法,首先对输入真图自动生成假图,然后利用标注好的假图和真图训练分类网络,从而实现在假图中自动检测篡改内容位置的目标。然而,随着深度伪造技术的发展,合成内容效果越来越逼真,难以通过图像频域和统计特征实现对深度伪造合成内容的准确检测。现阶段深度伪造检测方法主要采用基于深度神经网络的伪造特征自动提取检测技术。一是基于人脸检测和人脸特征提取的深度伪造检测方法。该类方法首先运用深度神经网络实现人脸检测和特征提取,然后利用篡改人脸特征和真实人脸特征的差异检测人脸是否遭受篡改。二是基于图像篡改痕迹的深度伪造检测方法。该类方法利用深度神经网络自主学习发现人脸篡改区域特征,并以此为依据实现伪造内容检测。例如,北京大学和微软亚洲研究院提出了 Face X-Ray 方法,通过使用深度神经网络学习发现图像融合边界,进而判断输入图像是否为篡改合成图像。由于基于深度神经网络的伪造特征自动提取检测技术只能准确检测发现在训练数据集中出现的类似伪造样例,对于新深度伪造方法生成的伪造内容检测效果往往不佳。基于生理信号特征的深度伪造检测方法日益受到重视。该类方法通过比较深度伪造视频和真实视频之间在人物眨眼频率、心率、语速、声纹等生理信号特征差异检测深度伪造内容。例如,宾汉顿大学和Intel 公司提出了 FakeCatcher 方法,通过测量脸部皮肤光电容积脉搏波信号实现伪造视频检测。佛罗里达大学提出了利用正常视频与异常视频中人物心率分布不同检测深度伪造视频的方法。然而,由于心率、皮肤状态等生理特征易被外界因素干扰难以提取,进而导致检测准确率下降。

(2)内容溯源

检测技术发展滞后于深度伪造自身技术的演进。不断更新迭代的深度伪造技术常使检测技术失效。因而需要从源头出发区分真实内容和伪造内容。我国《数据安全管理办法(征求意见稿)》第 24 条明确提出“网络运营者利用大数据、人工智能等技术自动合成新闻、博文、帖子、评论等信息,应以明显方式标明‘合成’字样”。美国《深度伪造责任法案》规定,利用深度合成技术合成虚假内容放置于网上传播的,制作者应当采用嵌入数字水印、文字、语音标识等方式披露合成信息。例如,2019 年 11 月 Twitter 公司指出将在推文下方附加“包含合成或篡改内容”的提示信息。Sensity 视觉威胁情报平台提供了深度伪造内容查询服务,从源头上追溯视频的真伪。

(3)行业实践

美国谷歌、脸书、亚马逊等主流科技公司纷纷采取了技术措施防范深度伪造滥用。例如,脸书、亚马逊、微软联合学术界发起名为Deepfake Detection Challenge(DFDC)的挑战赛,悬赏深度伪造假视频的最佳检测方法。脸书对虚假视频进行标注,宣布了四种方法屏蔽虚假信息和仇恨言论,以减缓它们在社交网络上的传播速度。谷歌开源了包含 3000 个人工智能生成的虚假伪造视频数据集,助力打击深度伪造。Github 封杀了 DeepFake 和 DeepNude 等深度伪造应用的副本。在国内,阿里巴巴安全图灵实验室宣布研发出针对换脸视频的深度伪造检测技术,这种方法标注简单,并能帮助神经网络更好的学习人脸特征,实现更好的检测效果。百度和瑞莱智慧推出了深度伪造检测服务平台,可向视频网站、网络论坛、新闻机构等提供人脸和人声伪造检测能力。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 登出 /  更改 )

Google photo

您正在使用您的 Google 账号评论。 登出 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 登出 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 登出 /  更改 )

Connecting to %s