GAITC专题论坛丨Mohan Kankanhalli：以脱敏技术对抗机器学习

　　7月26日上午，由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会（2020GAITC）“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕，新浪集团首席信息官、新浪AI媒体研究院院长王巍，浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。

　　新加坡国立大学（NUS）计算机学院院长 Mohan Kankanhalli 在本次专题论坛上，与来自业界、学术界的嘉宾们分享了《人工智能时代下的多媒体隐私保护》。

新加坡国立大学（NUS）计算机学院院长Mohan Kankanhalli

　　Mohan Kankanhalli提到，对抗机器学习，是人工智能领域里一个非常热门的技术。那么，什么是对抗机器学习呢？对抗机器学习是一种机器学习技术，旨在通过输入一定的欺骗来愚弄机器学习模型。对输入的不鲁棒是导致机器学习模型出现故障的常见原因，从而使得很多机器学习算法的识别效果并不理想。比如，我们有一辆自动驾驶汽车，它看到一个停车标志。如果这个停车标志上有一些污渍，那么自动驾驶汽车的算法就无法成功识别眼前的停车标志。因此科学家的做法是，利用某些敏感属性来欺骗机器，使得机器在面对这些欺骗时，仍能做出正确识别与判断。我们使用脱敏技术来对抗机器学习，以保护我们的隐私，同时又让人类察觉不出这些变化。他认为，不论是研究人员，企业还是消费者，不论是用户还是公民，我们都需要重视隐私保护，不仅是传统的针对人的隐私保护，也有针对机器的隐私保护。

　　以下为Mohan Kankanhalli演讲实录，内容经编辑略有删减：

　　感谢主办方邀请我参加这次盛会，我深感荣幸。今天，我打算跟大家聊聊隐人工智能时代下的多媒体隐私保护。我在接下来的半小时里将重点谈谈眼下不断出现的一些新的隐私问题，以及，更重要的——人工智能如何帮助我们缓解这些隐私问题。我今天的演讲，将从一个新的问题着手，然后再介绍一些我们尝试解决这个问题的一些思路。最后，我打算说说这个领域内的一些尚待解决的问题，希望能给学校和行业里的研究人员带来帮助。

　　那么，我今天演讲的主题就叫做《人工智能时代下的多媒体隐私保护》。

　　首先，我要感谢我的合作者们，他们也为这项研究做了很多贡献，他们是我的博士生Shen Zhiqi，以及2位我团队中的高级研究员Fan Shaojing和Yongkang Wong还有我的合作者Tian-Tsong Ng。我们的研究是由新加坡的国家研究基金赞助。

　　这些日子，大家一定在大众媒体上看到过各种各样的头条报道，讲的都是和欧盟推出的十分具有影响力的《通用数据保护条例》（“GDPR”）有关。新加坡也有自己的数据保护法规：《个人数据保护法》（“PDPA”）。其他国家也在制定各自的隐私保护法。

　　所以，每个人自然而然地会有这么一个疑问：为什么隐私在今天会变得如此重要？显然，隐私不是一个新概念。隐私问题自人类社会出现以来就已存在，只是，在最近几年，我们对隐私的关注突然间大幅上升。

　　在我看来，隐私问题成为焦点的主要原因在于数字化生活的增加。我们都在使用电子邮件和聊天应用，我们在多个社交媒体平台上活动。不管是因为社交或职业的缘故，我们无不使用大量照片，比如，我们的智能手机都可以拍照和拍视频，然后我们又分享这些照片和视频。手机有各种各样的传感器，包括定位传感器。物联网设备，比如智能电表，可以监控我们的用水量和用电量。我们的很多健康数据也以数字形式存储，像传统的影像照片如X光片、CT扫描或核磁共振成像等等。甚至简单的设备，比如我们使用的可穿戴设备，也会记录我们的步数、心率和血压，然后这些数据也全部以数字形式存储。我们的金融交易、财务数据也以数字形式存储。我们都使用电商系统，会被各种推荐。在各种平台上，广告主向我们投放广告。所以，总的来说，因为技术，我们的生活越来越美好。我们都希望享受科技带来的好处，但是，有些新科技也不可避免地存在一些弊端。但我们又不希望受到技术的负面影响。比如，让我们以健康数据为例。我猜，大家或多或少地都用过可穿戴设备，比如智能手表等，这些设备会监测我们的健康状况。但我们并不希望自己的健康数据为保险公司所滥用，以增加我们的保费。我们也不希望这些敏感的家庭细节被第三方公司知道，或被雇主知道。因此，我们作为用户，越来越意识到隐私的重要性，也因此，我们难免不会担心，在使用科技的时候，自己的隐私是否被侵犯。并且，这个问题与我们是否是一个好公民无关，我们绝大多数人都是诚信守法的好公民。所以，该是私密的，仍应该是私密的。那么，技术可以带来好处。但不幸的是，技术也存在缺陷。我们又该如何克服这些缺陷呢？

　　我在今天的演讲中想告诉大家的一点是，技术其实可以帮助我们保护隐私。我会从一个新的隐私问题，即针对机器的隐私保护，这方面来展开讨论。所有数据，尤其是我们获得的、存储的和分析的可视化数据，比如这里我用照片来做例子。以前只有底片相机的时候，我们每拍一张照片都很认真仔细，但现在不一样了，我们每天左拍拍右拍拍，积累了大量照片，我们的手机上和其他设备上，有成千上万的照片。人工查看所有这些照片，几乎不太可能。所以，我们借助算法来做这件事。这是一个人工智能机器学习算法，比如搜索引擎，可以帮助我们搜索感兴趣的数据。也就是说，如今，在我们看到任何数据之前，机器已经首先对数据做了一遍搜索，找出所需的子集照片，再把结果反馈给我们，以供查看。所以一个新的问题就是，看到这些敏感的隐私数据的不只是我们人类，算法或者说机器，也可以推断这些敏感的隐私数据。

　　这就是我们想要重点讨论的问题。以往，我们说到隐私的时候，比如说我们有一些敏感信息，像工资之类的，我们所说的隐私保护，是不希望有其他人知道这些信息。这个问题只涉及针对人的隐私保护，也就是说，只有获得授权的人可以访问敏感数据，而不是人人都可以访问这些数据，这是一个很重要的问题。当然，这个问题一直都很重要。这里，我把这个问题称为“针对人的隐私保护”。但是现在，我们又有了一个新的问题，“针对机器的隐私保护”，即人类在获得某些数据之前先使用算法来处理数据，而这些算法本身可以推断或了解敏感数据。这是一个最近才浮现的新问题。为什么这么说呢？假设，有一个人，本来他是不能获得你的敏感数据的，但是这个人使用某个机器学习算法来找到你的数据。如果，我们可以防止机器学习算法找到这些敏感数据，那么这个人也就没办法获得这些数据，这可以帮助我们同时针对机器和人类（那些未被授权访问特定数据的人），保护个人隐私。

　　接下来，我主要以图像为例子。然后和大家分享一下我们的这个研究，即在图像方面，提供针对机器的隐私保护。

　　我再举一个例子。我的学生Shen Zhiqi，他去年在一次大会上拍下了一张照片，想分享给他的朋友。生活中有好多人会随手拍下一些照片，然后和朋友分享这些照片。但是，有些人，他们并不想和别人分享自己的照片。其实，我们不希望社交媒体平台在非必要的时候访问我们的数据，当然，我们在使用这些平台的时候，他们就可以访问这些数据。但更重要的是，我们不希望任何人或任何公司从网络上抓取数据，然后使用这些数据。我们不希望有第三方，利用这些数据，以我们反感的方式，向我们推销一些产品。他们从网络上抓取数据，然后使用跟我们有关的敏感数据。至于，针对社交媒体平台，保护数据隐私，我不认为技术是合适的解决方案。隐私，在我看来，是一个社会技术问题，光靠技术无法解决。我们还需要法律和法规的协助。所以，我们有GDPR，在新加坡我们有个人数据保护法等等。根据个人数据保护法，在使用用户数据之前，你需要首先征得用户的同意，所以，我们需要监管法规。但是对于第三方，一个随机的人或公司，事情有点不一样。我们相信，我们的研究可以提供一些帮助，接下来我会解释为什么有帮助。

　　我今天演讲的主题就是如何针对机器保护隐私。对于我们讨论的数据类型，也就是图像，我们想要拍照，想要跟朋友分享。所以，图像应具有较高的视觉品质，兼具艺术感和功能性。另一方面，它还可以保护数据不会被其他人根据敏感属性搜索该数据。那么，哪些是敏感属性呢？敏感属性，它可以是性别、是种族、年龄等等。不仅面部图像如此，其他任何图像都是如此，因为位置信息也可以泄露隐私。比如，如果你在医院拍了一张照片，而你又不是医生，那么你在医院的原因很有可能是因为你或者你身边的人可能住院了，这就泄露了你或其他人的健康信息。其实，大多数情况都是如此。那我们的研究希望做什么呢？

　　请看这两张图像。我们来对比下左边的这张是原始图像。如果一个人看到这张图，寻找某些特定的敏感特征，比如我列在下面的这些。第一个，图片里有人吗？一个人看到这张图后，他会说，是的，图片里有人。图片里有文字吗？图片里有一些德文字母，所以一个人看到后，他会说，有。图片里有任何被拍摄对象吗？我觉得他们在喝某种饮料，我们可以聚焦这一点。图片美吗？当然，看到人们享受快乐的时光怎么不美。这是一张美妙的图片，快乐的图片，一个人看到后，他会说：是的。接下来，如果让机器学习分类器和人工智能算法阅读这张图片，它也可以给出一样的判断。图片里有人，有文字，有被拍摄对象，图片是美的，快乐的。但是我们要做的工作是，调整一下这张图片。我们给图片加入一点点噪音，然后得到右边的这张图片。在右边这张调整过的图片里，你甚至看不到任何添加的噪音。所以，从人类视角来看，右边的图片和左边的完全一模一样。如果让一个人看右边的这张图片，他看的内容跟左边的没什么两样。但是，右边的图片里加入了一些特殊的噪音。这不是普通的噪音，而是精心设计过的噪音，当算法再查看这张图片，它就没办法从图片里检测到人像。所以你可以看到，在右边图片下方的这一栏里，图片里有人吗？机器判断的结果显示，没有。图片里有文字吗？机器判断的结果显示，也是没有。然后，可能因为我们不太关注被拍摄对象等其他内容，所以算法仍然可以检测到这些。所以，我们可以控制机器可以从图片里识别哪些敏感内容，不可以识别哪些内容，我们可以控制这个。我们的技术要做的也正是这些。

　　我给大家介绍一下，我们的技术是如何做到这一点的。

　　首先，我们的目标是什么？

　　我们的目标是，在敏感属性方面，欺骗机器，同时又让人类察觉不出这些变化。这里，我们使用对抗机器学习来保护隐私。对抗机器学习，是人工智能领域里一个非常热门的技术。那么，什么是对抗机器学习呢？对抗机器学习其实是当前机器学习算法的一个问题。很多机器学习算法的识别效果其实并不佳。比如，我们有一辆自动驾驶汽车，它看到一个停车标志。如果这个停车标志上有一些污渍，那么自动驾驶汽车的算法就无法成功识别眼前的停车标志。

　　目前，对抗机器学习基本上是随机偶然的，但我们希望系统性地使用对抗机器学习来保护隐私。我们希望让大多数场景图片里的敏感属性无法被算法识别。同时，我们也希望加入的噪音足够少，不影响图像本身的视觉质量。

　　所以，在给图片增加噪音之前，我们要弄明白，人类是如何感知图片的？人们又是如何感知噪音的？我们先来了解一下人类的感官特征。我们来看左边这部分。我们研究人类，然后了解人类的视觉系统，然后利用我们对人类视觉系统的了解，生成我们称之为“敏感性感知图像扰动”的模型，等一下我会继续详细解释这个模型。现在，我们先来看一下我们研究的整体框架，首先，是人类研究，即了解人类如何感知视觉变化。其次，我们设计一个机器学习模型，生成人类无法察觉的扰动噪音。最后，我们需要验证我们的方法，看看它是否有效，以及有多有效，当然还有结果。

　　那么我们来看第一部分。人类研究。我们准备了一组图像，然后给图像加入高斯噪音。比如，下面这四张图。最左边的是原图；第二张图里，我们给人像加入高斯噪音；第三张图里，我们给人像脑袋上顶着的盘子加入高斯噪音；在最后一张图里，我们给背景加入高斯噪音。然后我们利用亚马逊人端运算平台上的工人——也就是人类——区分原图和修改过的图。我们让工人查看两张在不同位置具有不同程度噪音的图像，然后，我们让他们回答，哪个图像被修改过，哪个被加入了噪音，是左边的图像A还是图像B，还是两张图像是一模一样的，没有任何噪音。我们做了很多测试，让数百人查看大量在不同位置具有不同程序噪音的对比图像。我们做了大量的这种人类的主观实验，然后通过分析实验数据，我们发现了一些有趣的认识。第一，人类对积极的情感物体比对消极的情感物体更加敏感。也就是，如果一张图片里有一张笑脸，那么我们给笑脸增加噪音的话，人类会立即发现图片被修改过。但如果图片里是一张悲伤的脸庞，而我们给这张脸加入噪音的话，人类会更加容易忽略这细微的变化。这个发现十分有趣。这是有科学依据的，不是针对某一个人，而是每个人都如此。这是人类独有的特征。我们也在我们的研究中发现了许多关于人类特征的见解。比如我们还发现，人类感知非常容易受到物体和场景特点的影响。即，人类对越是鼓舞人心的图片越不敏感。这意味着，对这类图片，我们不能增加太多的噪音。在我们的研究论文中，我们罗列了其他的发现结果。基于第一部分的人类研究，我们提出了一个新概念：“人类敏感性示意图”。拿到一张原图后，我们为其绘制一张敏感性示意图，它可以告诉我们在这张图里，哪些区域是敏感区域，应该避免加入噪音。比如，下面这三张图。左边是原图，中间是敏感性示意图。在中间这张图里，你可以看到红色标记的地方，那里原来是破碎的瓶子，意思是，我们应该避免在标记的区域增加噪音，但是其他地方，我们可以加入噪音。需要注意的是，人类敏感性示意图有别于显著图。视觉显著性已经被广泛研究过。我们的敏感性示意图和显著图不同。比如，你看，最右的那张显著图显示，那条鱼是图中的最显著物体。但是，在对抗机器学习中，如果是从人类敏感性角度出发的隐私保护，那么玻璃瓶才是最敏感的物体。当然，我们就需要避免给瓶子增加噪音，但是给鱼加噪音就没有问题。接下来，我要介绍的是我们的模型，以及我们模型的原理。

　　我们已经从人类主观视觉认知研究中对人类感知获得充分的了解，下一步是将这些知识融入到我们的对抗机器学习模型中。这是我们模型的整体结构，包括一个输入图像，然后在右上角是我们基于这张图生成的人类敏感性示意图。然后在这张图像上，根据我们想要保护的敏感属性（比如，我们想要图像里的其他人脸），我们可以生成一个扰动噪音。知道图像中哪些是敏感区域，哪些可以增加噪音后，我们可以消除想要保护的敏感属性，就这样我们定义了整个神经网络结构。今天我就不深入解释这个模型，但会大概地讲述一下它的工作原理。

　　首先，我们需要一个经过训练的多类分类器。为什么呢？请继续往下看。我们想要做的事情呢，是保护图片里的敏感属性。那么现在，以这张图为例，其中哪些是敏感属性呢？在这张图里，我觉得敏感属性很明显，图里有人，有人脸。现在，我们也可以把年龄纳入敏感属性。比如，我们不想要任何儿童照片，因为在社交媒体上，有第三方公司试图抓取平台上的所有儿童照片，所以我们希望阻止这样的事情发生，那么图像中的宝宝内容也会是我们要保护的属性。所以我们可以决定，我们想要保护的内容。而在这个特殊的例子中，我们要保护的是出现的人和人脸。但我们也可以简单地说要保护的是儿童，或者女性，即性别，因为图中也出现了女性。总之，我们可以决定要保护的内容。然后，我们设计了一个经过训练的多类分类器，它可以识别这些敏感属性，我们打算用这个算法来保护隐私。对算法进行训练之后，我们的下一步是生成敏感性示意图。我再来解释一下，什么是敏感性示意图。左边这张图，是我们想要保护的图片，所以，我们要从这张图里找出，哪些区域不能加噪音，哪些区域可以加噪音。然后，我们设计了这个结构，图片经过处理后，可以得到右边的这张示意图，大小跟原图一样。它可以告诉你，哪些区域可以加噪音，哪些区域不可以。比如，黑色的地方是可以加噪音的。简言之，敏感性示意图就是告诉你哪里可以加噪音，哪里不可以。最后是生成扰动噪音，这也是最关键的部分，意味着我们不得不损失一些功能性，例如敏感度图像差异损失和属性预测损失。我们想要实现的，就是生成最少量的噪音，这些噪音最后会根据敏感性示意图添加到图片中，不是加在这里，而是在这些位置。这样，我们的分类器就无法识别图片中的人类，也无法识别图片中的人脸。我们有了这最后的功能，然后我们给算法做了训练。当然，训练过程必不可少。这是做训练的一个非常标准的深度学习结构。一旦训练完成后，输入一张图片，我们就可以生成它的敏感性示意图和相应的噪音，再把噪音加入图像中。现在，当你想要分享这张宝宝和母亲的照片时，你可以把原图输入算法，给图片加上不易察觉的噪音，然后再在社交媒体上和亲朋好友分享处理后的图片。照片很漂亮对吧？但是，如果有第三方想要下载这张照片，想要下载带儿童内容的照片时，他们不会搜索到这张图。

　　为什么呢？因为我们给图片加了噪音，所以分类器无法识别到这张图。然后我们也做了实验来验证最终的效果。例如，左边的这张是原图，右边的这张是扰动后的图片。右侧表格给出了人物存在的属性值。你可以注意到，扰动处理前，人物存在的属性值很高。如果属性值很高，即意味着算法可以识别出图中存在人物。处理后，人物依旧存在，但属性值偏低，意味着机器已经被欺骗，无法识别图中的人物。

　　另一方面，对于我们没有保护的被拍摄物体，混淆矩阵基本没有变化。在扰动处理前，算法认为图中有被拍摄物体，在扰动处理后，算法还是认为图中有被拍摄物体。所以，机器只是无法识别被保护的敏感属性，但仍可以有效识别出非敏感属性。

（Attributes 即人物存在的属性值）

　　我们也将原图与其他噪音类型基础进行比较，通过将噪音图从原图中减去，得到差异图——即扰动后的图片和原图之间的差异图。再将我们的差异图和敏感性示意图进行比较，可以看到噪音添加的位置和敏感性示意图非常接近，这么做就是为了确保噪音不易被察觉。我们也让亚马逊人端运算平台上的工人查看我们的图片，他们基本上看不出哪些图片有噪音。所以，这个方法是可行的。

　　总结一下，我们对人类视觉感知做了全面的研究，然后提出敏感性示意图这个新概念。我们使用对抗机器学习来开发一个敏感性感知图像扰动模型，以针对机器保护隐私。这里是代码和数据的二维码，我们提供了数据集，模型和代码等等，如果感兴趣的话，大家可以下载查看。

　　我们这算是解决了针对机器如何保护隐私的难题吗？我的回答是“没有”。

　　我们的模型只是这种方法的第一个尝试。我们的最大局限性在于我们的方式以模型为主。还记得我们使用的多类分类器吗？在欺骗机器之前，我们首先需要知道该机器使用的分类器。尚待解决的研究问题是如何生成与模型无关的扰动。它可以是其他的一些深度学习模型，或者支持向量机或者决策树，或者任何类型的分类器。我们是否可以开发出一个通用的图像扰动技术，可以用于欺骗所有类型的分类器，哪怕我们并不知道对方具体使用的是哪一种分类器？这是一个非常有趣同时又极具挑战的问题，我们会继续往这方面努力。

　　其次，目前我们的方法仅适用于图像。那么我们如何才能有效地针对文本数据、视频数据、音频数据以及一般的多媒体数据，生成扰动噪音呢？这也是我们继续要深入的领域。

　　事实上，我们还有很多十分重要的问题待解决。其中之一就是，在这些图片中，哪些算是敏感的隐私内容呢？传统思维会认为，指纹是隐私；时间日期、人、脸、车牌等是隐私，我们也可以遮挡这些，这些都是针对人的隐私保护。但现在，我们再来看下面的照片。图中有一辆车和两个人站在车边。我不知道这两个人是谁，但是为了保护隐私，很多人会像这样给人物打上马赛克（如中间图片所示）。但其实这并没什么用。为什么？因为如果我知道这辆车的车主是谁，那我就可以推断出旁边的两个人是谁。

　　所以，问题是如何才能删除可能泄露图像隐私的内容？不仅是因为图中出现了你的脸或你在图中，别人就可以认出你。图里出现你的一些东西或关于你特征的信息也会泄露你的隐私。这又是一个有趣的尚待解决的问题。

　　另一个问题是对象共现隐私。我们来看这张图片。我们可以从中看到什么？我们可以说，从中看到一个女孩。但假如我们可以看到整张图片呢？那我们又可以从图中推断出什么信息呢？

　　让我们来看看完整的图片。

　　这时，你再看到这张图片时，你会推测，这个女孩正在跟一名医生交流，意味着女孩可能得了某种疾病，而这又是隐私。所以，单个的对象可能不会泄露隐私，但共现对象（和其他对象一起出现时）可能会泄露隐私。在这种情况下，怎么保护隐私又是一个值得探究的问题。

　　还有一个问题是历史数据隐私。我们来看左边的两张图。上图显示，有人发了一串文本信息，提到了汤姆（“我要和汤姆一起喝一杯。”），接着，这个人又发布了一张图片，配文我和朋友一起喝酒了。那么在这里，你可以把“我要和汤姆一起喝一杯。”跟那张提到和朋友一起喝酒的图片联系在一起。这类数据在社交媒体上不是独立的。你可以从历史数据中推断出某些隐私。那么，我们如何在社交媒体上就历史数据保护隐私呢？这也是一个需要解决的问题。

　　一般而言，在数字化的今天，集中式数据库中有大量的敏感信息。在某个集中的地方，可能会存在大量的隐私泄露问题。所以，眼下，很多研究人员都提出一个问题：如果我是某个电商系统的用户，我的搜索记录和购买行为不应该存储在电商网站上，而只应该存储在我自己的设备上，本地设备上。那么问题是，我们可以从中学习吗？因为很多不同的消费者在网站上进行搜索。对于电商公司而言，我需要所有消费者的汇总数据。但我不需要知道某个特定用户的数据，所以，问题的关键在于，如果敏感信息保存在用户的本地设备上之后，我们能否继续有效地执行机器学习任务，比如推荐和预测等等？在不侵犯用户数据隐私的前提下，真正获得我们想要的见解？如果可以的话，那当然再好不过。

　　现在越来越多的工作通过联邦机器学习和联邦推荐系统完成。我也相信，随着时间的推移，这也会变得越来越重要。我相信，数字时代下的隐私保护即隐私保护数据分析。怎么理解呢？我们还是用健康数据为例。如果我的健康数据对改善治疗、药物和疗程有帮助的话，我不介意和研究人员分享我的健康数据。但是另一方面，我分享的健康数据不用被用来针对我本人，保险公司不能因为我为研究目的分享的健康数据而提高我的保费。所以我们是否可以用这样的方式做隐私保护数据分析呢？以便让人工智能和机器学习更好地发挥它们的优势？当然，隐私问题也需要给予重视。这些会随着时间的推移，变得越来越重要。

　　接下来我们来到今天演讲的尾声。我相信，隐私问题对用户极其重要，用户们也越来越重视他们的隐私数据和敏感数据。我相信，这不仅关于用户，也关乎企业和行业。如果企业和行业重视用户的隐私问题的话，他们其实也可以从中受益。比方说，假设很多公司都在尝试获得消费者，他们都在销售一款相同的产品，那么唯一让你的产品或服务与众不同的是，告诉消费者我的产品或服务重视隐私。我相信，如果其他各方面都一样，但你的产品或服务更加重视隐私的话，消费者一定会选择你的产品或服务。因此，我认为，从行业和企业的角度而言，重视隐私，会带来长远收益。

　　最后，我想告诉大家，不论是研究人员，企业还是消费者，不论是用户还是公民，我们都需要重视隐私保护，不仅是传统的针对人的隐私保护，也有针对机器的隐私保护。

点击进入专题：

2020全球人工智能技术大会

责任编辑：刘德宾 SN222

我要反馈