我仅用一支激光笔就“干翻”了自动驾驶汽车,对抗攻击从未如此防不胜防......

作者 | 青暮、陈大鑫

攻击AI模型有多简单?

一束激光就够了!

近日,来自阿里安全的专家发布了一项新研究,只要用简单的激光笔,就可以让AI模型不再有效(www.rLw.net.cn)。在这个研究中,他们设计了一种算法,可模拟光束对AI模型进行“攻击”, 这种测试方法还在现实世界中得到了验证,且“攻击”极易操作,对现有基于AI的视觉系统更具威胁,例如基于AI视觉的自动驾驶。

第一种情况可真是吓人。假设一个人正坐在一辆自动驾驶汽车上睡觉,突然横向冲过来一辆无轨电车,AI却以为那不过是一只蛤蟆,而它显然没有动物保护意识,也觉得蛤蟆构不成威胁……

“攻击AI远非需要人为去制造对抗样本,一支简单的激光笔就可以。 我们想通过这个研究揭示AI模型一些之前没有被探索过的‘错误’,从而‘强壮’AI,让它未来能抵挡这种‘攻击’,也让相关从业者重视提高AI模型的安全性。”阿里安全图灵实验室负责人薛晖说道。

目前阿里安全这篇论文已经在不久前被CVPR 2021收录:

论文链接:https://arxiv.org/abs/2103.06504

相信这篇论文出来后,某著名自动驾驶汽车公司至少可以避免一次再度“撞上”热搜。

把王蛇当热狗

还有……热狗!

阿这?也太骇人了吧。你敢让机器人保姆拿着蛇当做热狗往你嘴里塞?

还有就是,蓝色激光束使海龟被错认为水母:

而红色激光束则会使收音机被错认为空间加热器。

研究者之后进行了广泛的实验,以评估论文中提出的 激光束干扰法(AdvLB)

他们首先在数字模拟环境中黑盒评估AdvLB——它可以对ImageNet的1000张正确分类的图片实现95.1%的攻击成功率。

具体而言,对于每一张图片,研究人员都进行黑盒查询攻击(无法获取模型),也就是查询一下API,返回结果, 然后根据结果修改激光参数并并叠加到图像上,再次进行查询API判断是否攻击成功。这1000张图片中,平均每张图片需要查询834次才能成功。“ 因为这种攻击方式属于blackbox setting,所以需要很多次尝试。”阿里安全图灵实验室高级算法专家越丰介绍道。最后,有95.1%的图片可以攻击成功,而有4.9%的图片由于搜索空间的限制导致无法攻击成功。

研究人员之后还在现实世界中进行了测试,使用了以下这些工具:

工具非常简单,包括三个小型手持式激光笔(功率:5mW)——分别能产生波长为450nm、532nm和680nm的低功率激光束、用于拍照的Google Pixel4 手机。

在室内和室外测试中,研究人员分别实现了100%和77.43%的攻击成功率。

如下图所示,在室内测试中,目标对象包括海螺、香蕉和停车标志。其中中间一列图像展示的是数字模拟结果,第三列图像展示的是室内测试结果,可以发现两者的结果是一致的。

接下来是户外测试。研究人员使用了停车标志来测试,总体而言,攻击成功率为77.43%,这个成功率估计会让某著名自动驾驶汽车汽车撞上天。

以上这些结果都进一步证明了激光束对现实世界的威胁。

有些同学可能会觉得困惑, 在现实世界加上激光干扰是怎么做到的?毕竟激光具有聚合性,不太容易发生散射,一般而言很难从侧面看到光束轨迹,更不用说像上述图片中那么明显的亮度了。

对此,札奇向我们解释:“一开始我们考虑的是 光的丁达尔效应,拍摄任意物体过程同时拍到光线轨迹,但这种因为光线轨迹能量很弱,这种情况下确实要求比较暗的环境。另一种方式是 在激光笔头部放置一个光缝片,可以直接打在物体上,因为激光聚焦处能量较强,所以只要不是户外光线极强的情况下都有一定效果,类似于白天的红绿灯,虽然比黑天情况下弱一些,但还是有可见性。但是我们确实主要考虑的是‘夜间安全’问题。”

例如下图中展示了激光在丁达尔效应下从侧面看到的光束轨迹。

在实验过程中团队发现,光束打在一定范围内都有较高成功率(如下动图所示),因此也可以一定程度适应现实世界中的动态环境。 从安全角度来说 ,这种攻击方法也可以作为一种模拟检测,测试模型在这种条件下是否足够鲁棒。

下图则展示了激光经过光缝片打在交通标志上的场景:

然后是白天光照下的室内和室外场景:

研究人员在分析了由激光束引起的DNN的预测误差之后发现, 引起误差的原因可以大致分为两种

第一种,激光束的颜色特征改变了原始图像,并为DNN提供了新的线索。如下图所示,当波长为400nm的激光束照射在“刺猬”上时, 刺猬的刺与激光束引入的紫色结合形成了“刺苞菜蓟”的类似特征,从而导致分类错误。

“最重要的影响因素是激光的‘强度’,激光越强,越能被拍照设备捕捉。”札奇说道。

“chua的一下”,防不胜防

大多数现有的物理攻击方法都采用“粘贴”法,也就是将对抗性扰动打印为标签,然后将其粘贴到目标对象上。

或者用“对抗补丁”让目标检测系统看不出人是人。

当然,上述这些方法都相对比较繁琐,最简单的可能就是在停车标志上贴上黑白小贴纸了。

多模态学习近年来成为了人工智能领域的研究热点,但是很快,针对多模态模型的攻击方式也出现了。

OpenAI将这些攻击称为印刷攻击(typographic attacks)。他们认为,如上所述的攻击绝非学术上的考虑。通过利用模型强大的文本阅读功能,即使手写文字的照片也常常可以欺骗模型。像“对抗补丁”一样,这种攻击在野外场景也有效。但与此类攻击不同, 它只需要笔和纸即可

而基于激光的攻击不仅仅具有简便性,光的特性也使其变得更加棘手。研究人员警告,人们可以在被攻击的目标物体被摄像头捕获之前的瞬间在很远的距离外实施攻击,从而防不胜防!

很简单,激光笔打光chua的一下,很快啊。因为其简易便捷,对人工智能系统来说更容易成为普遍的威胁。” 札奇说道。

研究人员还指出,这种攻击方式在研究弱光条件下视觉系统的安全威胁时特别有用,下图就展示了在光照条件较差时激光攻击的优势。可以同时应用于数字和物理环境,也是其优势所在。

所以总结来说,激光束攻击具有隐蔽性、瞬时性、弱光性以及多环境适用性的特点。

研究人员指出,当前这种攻击方法尚存在缺点,其中一个就是它在动态环境上的攻击时仍会受到限制,但未来会发展到什么程度,还很难预料。

对此,札奇表示:“ 其实这二者并不矛盾,对抗攻击即能按照攻击者的意图通过干扰的方式定向的影响模型的输出,当攻击的成功率很高时,我们就应该把这种方法纳入到一种安全威胁来考虑,来尽可能减小模型将来的安全隐患。我们的攻击本质上更接近于敏感性,或者也叫泛化性,因为哪怕激光也是属于光照条件的一种,在攻击过程中我们并没有加其他的人工干扰,仅仅是一束光。”

未来规划

最后,自然是灵魂之问: 怎么解决这个安全隐患?

研究团队目前尚未找到一个完美的方案。 “其实数据增强也可以一定程度解决这个问题,但是数据增强和对抗训练的本质无异,我们也尚在探索这个问题。”

针对安全性问题,越丰接着说道:

“为了提升AI模型的安全性,我们需要探索鲁棒机器学习方案,在数据和模型的各个方面进行鲁棒性的增强,例如更强的数据预处理,探索更加鲁棒的网络结构,增加辅助Loss防止模型过拟合,引入多模态的增强模型的鲁棒性等。鲁棒机器学习并不是一个单一算法,更像是一个系统构建,需要从多个维度、多个层面提升AI模型的鲁棒性。”

札奇告诉我们,在未来,他们将展开以下的研究计划:

1、改进所提出的对抗性激光束(AdvLB),使之更适应真实动态的环境。

2、考虑光强度参数的优化,用模拟的激光束创造出更隐蔽的对抗样本。

3、探讨使用其他光模式(如聚光灯)和光源(如自然光)进行对抗性攻击的可能性。

4、将AdvLB应用于其他计算机视觉任务,包括目标检测和目标分割。

5、针对此类攻击开展对应有效的防御策略。

本文经授权转载自 AI科技评论(ID: aitechtalk),如需二次转载请联系原作者

欢迎转发到朋友圈。

主营产品:热量表,温控,水表