换脸攻击、破解验证码、数据投毒……“刷脸”时代如何防范风险？-五号时光网

经济观察网记者陈伊凡12月5日，在南方都市报大数据研究院·南都个人信息保护研究中心主办的“2019啄木鸟数据治理论坛”上，中国电子技术标准化研究院信息安全研究中心数据安全部胡影进行了题为“人工智能安全现状与风险挑战”的演讲。胡影说，人工智能从最初的算法设计，生成模型，再到最后的场景应用，每个环节都面临被攻击的风险，而与此同时，人工智能技术也会带来负面后果，例如人工智能技术可以模仿人脸，换脸攻击非常的容易，利用AI技术基本上大部分的验证码都可以破解等等。

当人工智能应用场景不断增多时，人脸识别成为应用较为广泛与成熟的领域。不久前，AI换脸软件ZAO，引发了一轮伦理、隐私、版权的争议。早在ZAO之前，AI换脸便已经出现，该领域最出名的是Deepfakes换脸术，更为重要的是该技术已经开源，有技术人士猜测ZAO的技术也是基于Deepfakes。

此前，AI换脸在国外曾风靡过一段时间，不过后来，因为有人将该技术应用于色情视频，诸多公众人物成为受害者，随后国外掀起了“反AI换脸”的行动。而国内的AI换脸，最广为人知的应该是杨幂版的神雕侠侣，当时的视频已经能够以假乱真。

因此，AI换脸这个技术也饱受争议，如何规避其被滥用的风险也成为大家关注的焦点。

【以下为胡影现场演讲内容整理】

人脸识别作为生物特征识别里面的一种，现在应该比较广泛，而且比较成熟，人工智能包括人脸识别，可能基于图像识别的技术，还有一些更广泛的领域。

目前人工智能进入第三次发展浪潮。1956年诞生以来几经波折，有发展比较好的时候，也有低谷的时候，近年来主要是大数据技术和硬件平台的发展，在算法、算力、数据三大因素驱动下，进入到第三次发展浪潮。

第三波人工智能发展浪潮

人工智能产业已经初步形成一定的产业结构，不过整体发展还处于起步阶段。

我们现在所说的人工智能大家更多说是专用、狭义的智能。专用是偏弱缺乏自主意识，不能实现真正像人一样把事情进行概念抽象，并且推理决策最后解决问题。通用的人工智能未来能达到类人水平的，从这个角度讲，通用的人工智能还任重道远。

从技术应用角度来讲，在专业领域和问题解决单一领域取得了不错的效果，但是现在还有一些受限。尤其深度学习依赖于大量的数据，更适合处理一些丰富数据的知识和完全的信息，确定性、静态，单领域、单任务的场景问题解决效果非常好，甚至有些超出人的解决水平。对于复杂的场景，尤其像自动驾驶，还是有一些技术难点在。人工智能目前的技术是属于一个技术拐点，从不能使用到可以使用的技术拐点，距离很好用还有一些距离。包括可解释性、泛化、可靠性的问题。

业界实践来看，人工智能产业投资自2018年第二季度以来，全球投资力度在下降，也是考虑到在解决复杂问题方面还不能满足动态和不确定性的需求，复杂场景上来说还是需要时间的。

人工智能目标的几个阶段

从风险角度，大家知道从安全角度分析这个事情。我的保护目标是什么？会面临什么样的攻击威胁？本身存在什么样的安全隐患？一般从三个维度分析。

对于人工智能来说，它的目标可以分成几个阶段。

首先，需要有大量的数据进行采集。这里会有信息感知的芯片和设备，会采取大量的数据，进行加工分析，形成所谓的数据集，给到算法，用这些数据训练出所需要的算法模型，要做训练的话也要有算力，算力就来自于计算设施包括计算芯片，通用的计算平台。

计算设施是提供算力的，在这之上也有软件框架。像Tensorflow都是属于成熟的算法框架，它被这些通用算法关键技术分装实现，变成成熟的软件框架。基于它进行开发，再把这些数据进行训练测试形成要解决问题场景所需要的算法模型。算法模型训练出来之后还要上线、部署、运行，它会形成在线上的系统或者产品服务，系统产品服务又赋能到AI+各个行业领域的应用。

从这里来看，AI从通用保护对象来说分成数据、算法模型、算力计算的基础设施和后面的产品服务甚至应用。

AI的事件案例也有很多，AI系统只是应用人工智能的信息系统，在实际应用中也出现过一些案例，包括刚才讲的人脸。这个是公交车上的图片，被错误识别成行人，因为公交车上面有董明珠的照片，当时公交车闯红灯，就直接被识别为董明珠闯红灯，这是识别方面的错误。包括自动驾驶，Uber出现的行人死亡案等。

人工智能会带来哪些攻击威胁

具体要看人工智能出现以后会带来哪些新的攻击威胁？

人工智能只不过是利用人工智能技术的信息系统。对于信息系统来说，除了传统的网络安全常见的攻击威胁之外，也会引入新的攻击威胁。

比如说对抗样本攻击，模型训练的时候需要输入大量的数据和样本，输入的样本中可以添加一些通常人眼无法识别的干扰，因为模型会对数据非常的敏感，这样模型可能会输出一个错误的结果，这些输入样本通常把它叫做对抗样本。攻击者利用这些精心构造的样本就会造成，模仿攻击，所谓模仿攻击就是模仿人脸识别，可能不是这个人，我模仿他的人脸，可以直接通过人脸识别系统，包括欺骗攻击等，这些都可以做。

数据投毒，在训练数据里面加入一些精心构造的异常数据，破坏原有数据的分布，最后使得模型训练出来错误的结果。尤其现在有很多模型都是在线部署，需要一些数据在线输入到模型中，进行在线调整、优化，这个时候就会有数据投毒攻击的场景在。

还有模型窃取，模型窃取也是向目标模型发送大量的查询数据来判断它的输出，这样就可以分析出模型的规律，甚至可以把模型还原出来。

还有一种是人工智能系统的攻击，除了传统之外会加入一些计算的芯片，它会有硬件加速器的设备欺骗，包括改变机器学习系统的控制流的攻击，这些传统的系统攻击也有。

人工智能技术存在哪些挑战

刚才是对于新的攻击威胁，下面再看看对于人工智能几个对象。

首先是算法模型，自己有没有安全脆弱性的隐患，算法模型有一个鲁棒性平衡和数据依赖的缺陷。模型的准确性和鲁棒性难以权衡的问题？什么叫鲁棒性？模型在不同的场景或者极端的情况下，输入和输出的效果不会变，比较稳定。像信息系统所说的深层次稳定的概念。有研究表明，模型的准确性和鲁棒性是一对矛盾，如果想适应很多的场景，训练出来的模型能精准判别的程度精确度难以保证，它是一对矛盾。

第二，数据集对模型的准确性影响比较大，会采集比较多的数据包括人脸识别，有很多人脸识别数据分析出来的，数据集的质量和分布情况对模型的准确度影响比较大。

第三，在复杂应用场景下，会有可靠性的挑战。

模型算法会有潜藏偏见和歧视的问题，对于工程角度来说算法、数据会存在和自然世界偏差的问题，在实际应用中造成结果不公的问题。什么叫偏见歧视？算法设计者和开发人员本身对问题场景的认知上就存在某种偏见，或者不经意使用带有偏差的数据集进行训练。如果模型的准确度存在偏差，尤其应用跟个人相关的时候，可能会带有隐私歧视的问题。

还有可解释性问题，尤其是深度学习，深度的神经网络多层次的神经网络，几百个神经元都是非常多的，怎么样解释输入和输出结果之间的关系？因果关系是非常难解释的，这是基于神经网络自己有的特点造成的算法黑箱。对于医疗领域、金融领域，对新技术的应用可能就有一个可信赖的问题，如果它能够解释的话，我觉得可信性更高一点，所以重要行业领域面临可解释性的挑战。

还有数据安全的隐患，虽然对于人工智能来说主要是在训练数据，包括模型，从模型整个的过程，对应的数据生命周期。从数据采集来说，场景更加复杂，因为需要的数据样本非常大，会从多个渠道来采集，远比现在想到的APP采集场景更复杂。APP使用的时候，很多场景部署在云端做训练和预测。

最后，输出。这个里面拿人脸场景来说，有的系统直接调用其他的人脸识别API接口，都有可能会有数据的共享，包括内部的数据传输等。

从数据采集角度来说，有一个过度采集问题。尤其是深度学习需要大量的数据，怎么样判断采集范围是否合理？拿自动驾驶来说。我为了判断是不是一个行人，可能要采集周围环境所有的数据才好判断，它有一个过度采集，需要大量数据帮助模型做判断。采集范围问题比现在的场景要复杂，所以怎么判断它的合理性是否超范围。

还有数据采集与用户授权不一致。尤其是训练阶段，那个时候很多模型数据采集是从互联网上来的，互联网上公开的数据只让你用于科学研究的目的，国外就有这样的案例，互联网上来的数据训练出一些模型，最后用于商业的产品，这个时候改变了它的使用目的，包括改变了它的授权范围，这个时候会出现不一致的问题。

还有个人敏感信息采集合规的问题，刚才讲到的生物特征识别，人脸属于典型的敏感个人信息采集合规的问题。包括采集的数据质量，以及用户选择退出权很难保证，模型训练阶段的时候，用户怎么样退出？我不想让你采集数据。

还有使用过程中比如说脱敏后的数据、匿名化的数据，因为有大量数据在一起会有再识别。

过程中会有数据标注，因为里面牵扯到大量的机构和众包方式，里面有很多的安全隐患和合规问题。还有自动化决策，自动化决策也是隐私保护的点，对于人工智能来说谈自动化决策尤其GDPR需要更多展现的透明性，这些在可解释性上有很多的缺陷。

此外，还有存储、传输共享。例如一些硬件计算的基础设施，里面有一些开源和软件框架本身的问题，还有系统复杂度、人机交互、系统行为；产品应用在应用层，包括自动驾驶、人脸识别、生物特征、智能冰箱也有更大的攻击面和隐私保护风险。

除此之外，还有人工智能滥用的问题，第一是不当和恶意利用，利用之后，新技术造成不可控的结果。AI的技术也可以用来攻击和欺诈，违法不良信息的传播和密码破解，比如说验证码破解技术，利用AI技术基本上大部分的验证码都可以破解。

人工智能技术可以模仿人脸，换脸攻击非常的容易。虽然换脸也有很多检测手段，包括人工智能在支付的时候有多重风控手段进行保障，现在的技术发展合成照片尤其在视频流当中替换人脸的技术发展非常快，所以会造成灰色地带的应用。