机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

对于人类观察者来说，以下两个图像是相同的。但是Google的研究人员在2015年发现，一种流行的物体检测算法将左图像分类为“熊猫”，而将右图像分类为“长臂猿”。奇怪的是，它对长臂猿的形象更有信心。

有问题的算法是GoogLeNet，这是一种卷积神经网络体系结构，赢得了2014年ImageNet大规模视觉识别挑战赛(ILSVRC 2014)。

对抗性例子使机器学习算法愚蠢地犯了错误

正确的图像是“对抗示例”。它经历了微妙的操纵，而人眼却没有注意到它，同时使其与机器学习算法的数字眼完全不同。

对抗性示例利用了人工智能算法的工作方式来破坏人工智能算法的行为。在过去的几年中，随着AI在我们使用的许多应用程序中的作用不断增强，对抗性机器学习已成为研究的活跃领域。人们越来越担心，机器学习系统中的漏洞可能被用于恶意目的。

对抗性机器学习的工作产生了各种结果，从有趣，良性和令人尴尬的结果(例如跟随乌龟被误认为是步枪)到潜在的有害示例，例如无人驾驶汽车误将停车标志视为限速。

Labsix的研究人员展示了一种改良的玩具乌龟如何使愚蠢的深度学习算法归类为步枪(来源：labsix.org)

机器学习如何“看”世界

在了解对抗性示例如何工作之前，我们必须首先了解机器学习算法如何解析图像和视频。考虑一个图像分类器AI，就像本文开头提到的那样。

在能够执行其功能之前，机器学习模型经历了“训练”阶段，在该阶段中，将向其提供许多图像及其相应的标签(例如，熊猫，猫，狗等)。该模型检查图像中的像素并调整其许多内部参数，以便能够将每个图像与其关联的标签链接起来。训练后，该模型应该能够检查之前从未见过的图像，并将其链接到正确的标签上。基本上，您可以将机器学习模型视为一个数学函数，该函数以像素值作为输入并输出图像标签。

人工神经网络(一种机器学习算法)特别适合处理杂乱和非结构化的数据，例如图像，声音和文本文档，因为它们包含许多参数，并且可以灵活地将自己调整为训练数据中的不同模式。当相互堆叠在一起时，人工神经网络将成为“深度神经网络”，并且它们进行分类和预测任务的能力也会提高。

深度神经网络由几层人工神经元堆叠而成

深度学习是使用深度神经网络的机器学习的一个分支，目前是人工智能的前沿。深度学习算法通常在人类以前无法完成的任务(例如计算机视觉和自然语言处理)上与人类相匹配，有时甚至胜过人类。

但是，值得注意的是，深度学习和机器学习算法的核心是数字运算机器。他们可以在像素值，单词序列和声波中找到微妙而复杂的图案，但他们却不像人类那样看待世界。

这就是对抗性例子进入画面的地方。

对抗性范例的运作方式

当您要求人类描述她如何在图像中检测到熊猫时，她可能会寻找诸如圆耳朵，眼睛周围的黑色斑点，鼻子，鼻子和毛茸茸的皮肤等身体特征。她可能还会提供其他背景信息，例如她希望看到熊猫的栖息地以及熊猫所采取的姿势。

对于人工神经网络，只要通过方程式运行像素值提供正确答案，就可以确信所看到的确实是熊猫。换句话说，通过正确调整图像中的像素值，您可以使AI误以为它没有看到熊猫。

在本文开头看到的对抗示例中，AI研究人员在图像上添加了一层噪点。人眼几乎看不到这种噪音。但是，当新的像素数通过神经网络时，它们会产生长臂猿图像所期望的结果。

在左侧的熊猫图像上添加一层噪点，使其成为一个对抗性示例

创建对抗性机器学习示例是一个反复试验的过程。许多图像分类器机器学习模型都提供了输出列表及其置信度(例如，熊猫= 90%，长臂猿= 50%，黑熊= 15%等)。创建对抗性示例需要对图像像素进行细微调整，然后通过AI重新运行它，以查看修改如何影响置信度得分。进行足够的调整后，您可以创建噪声图，从而降低对一个类别的信心，而对另一个类别进行增强。此过程通常可以自动化。

在过去的几年中，在对抗性机器学习的工作和效果方面进行了大量的工作。2016年，卡内基梅隆大学的研究人员表明，戴上特殊眼镜可能会使人脸识别神经网络蒙骗，使他们误以为是名人。

在另一种情况下，三星和华盛顿大学，密歇根大学以及加州大学伯克利分校的研究人员表明，通过进行细微调整以停止标志，可以使它们对自动驾驶汽车的计算机视觉算法不可见。黑客可能会利用这种对抗性攻击迫使无人驾驶汽车以危险的方式行事，并可能导致事故。

AI研究人员发现，通过添加黑白小贴纸来停止标志，可以使它们对计算机视觉算法不可见(来源：arxiv.org)

超越图像的对抗性例子

对抗性示例不仅适用于处理视觉数据的神经网络。也有针对文本和音频数据的对抗性机器学习的研究。在2018年，加州大学伯克利分校的研究人员设法通过对抗性例子来操纵自动语音识别系统(ASR)的行为。诸如Amazon Alexa，Apple Siri和Microsoft Cortana之类的智能助手使用ASR来解析语音命令。

例如，可以修改媒体上发布的歌曲，使其播放时可以向附近的智能扬声器发送语音命令。听众不会注意到变化。但是智能助手的机器学习算法会选择并执行该隐藏命令。

对抗性示例也适用于处理文本文档的自然语言处理系统，例如过滤垃圾邮件，阻止社交媒体上的仇恨言论并检测产品评论中的情绪的机器学习算法。

在2019年，IBM Research，亚马逊和德克萨斯大学的科学家创建了对抗性示例，这些示例可能愚弄文本分类器机器学习算法，例如垃圾邮件过滤器和情感检测器。基于文本的对抗性示例(也称为“释义攻击”)会修改一段文本中的单词序列，以在机器学习算法中引起错误分类错误，同时保持与人类读者一致的含义。