真人的假视频以及如何识别他们 – Supasorn Suwajanakorn

TED 精选 2019-01-26

人工智能时代口译技术应用研究
王华树 | 国内首部聚焦口译技术应用和教学的著作
新书推荐


口笔译教育与评价国际论坛二号公告
在厦门大学百年校庆之际，邀您齐聚厦门、共襄盛举
论坛推荐

真人的假视频以及如何识别他们 - Supasorn Suwajanakorn

你觉得你擅长发现假视频吗，当名人们并没有真正说过这些话的时候？这个演讲和技术演示让我们了解到这是如何做到的。计算机科学家 Supasorn Suwajanakorn 为我们展示了，如何使用人工智能和3D建模并与音频同步来创造假视频。了解更多关于这个技术的伦理问题和这个技术的可能性，以及我们应该采取的措施来对抗该技术的错误使用。

看看这些图像。现在，告诉我哪个是真的奥马巴。

00:04
巴拉克·奥巴马：帮助家庭对他们的房屋重做贷款，投资高科技制造业，清洁能源和带来良好就业机会的基础设施。

00:14
有人知道吗？答案是：都不是。

00:18
（笑声）

00:19
这些都不是真的。那让我来告诉你们是怎么回事。我这个工作的灵感来自于一个试图保存我们从幸存者那里了解到的关于大屠杀的项目。这个项目叫做证词新维度 (New Dimensions in Testimony)，它可以让你与真实大屠杀幸存者的全息图进行互动对话。

00:41
你是怎么在大屠杀中幸存下来的？

00:43
我怎么幸存下来？我幸存下来，我相信，是因为上帝眷顾我。

00:53
原来这些答案是预先在工作室录制的。但效果令人吃惊。你会对他的故事，他这个人感同身受。我想人类互动的特别之处让它比图书，演讲或电影告诉我们的要更加深刻和真实。

01:16
所以我就开始想，我们能不能为每个人做个模型？这个模型的样子，谈话和举止就跟真人无异。于是我开始探索这个能不能搞定，并最终找到了一个新的解决方案，只需使用下面这些东西就能构建人的模型：个人现存的照片和视频。如果你能利用这种被动信息，只需公开的照片和视频，这是扩展到其他人的关键。

01:44
顺便说一句，这是理查德·费曼，他除了是诺贝尔物理学奖得主也是位传奇教师。这岂不是很棒？如果能够把他带回来讲课并激励成千上万的小孩，用英语或者其他任何语言？或者你也可以征求祖父母的意见，听听那些让人宽慰的言语，即便他们已经离开我们了。或者使用这个工具，图书的作者，不管是活着的还是去世的，可以为任何有兴趣的人朗读他们的书本。

02:17
这里的创意可能是无限的，对我而言，这非常让人兴奋。这是目前它的工作原理。

02:24
首先我们引入一种新的技术可以从任何图像中重建一个高细节的3D人脸模型，而且无需经对真人进行3D扫描。这是不同视角下的同一输出模型。这也可以应用于视频，通过对每一幅视频使用同样的算法产生移动的3D模型。这是不同视角下的同一输出模型。

02:49
这些问题富有挑战性，但关键技巧在于我们需要提前分析一个人的大量照片集。对乔治·沃克·布什，我们只需要搜索谷歌，这样，我们就能建立一个平均模型，一个迭代，精炼的模型来恢复表达的细节，比如折痕和皱纹。迷人的是照片集可以来自你的特定照片。你做何表情或者你在哪里拍照并不那么关键。关键的是数量要足够多。这里我们仍然缺少肤色，所以下一步，我们开发了一种新的混合技术改善了平均模型，并产生尖锐的面部纹理和肤色。这可以用于做任何表情。

03:37
现在我们可以对一个人的模型进行控制，它现在被控制的方式是一系列静态的照片。注意皱纹是如何产生和消失的，这取决于你的表情。我们也可以使用视频来驱动模型。

03:50
丹尼尔·克雷格：没错，但不管怎样，我们能够吸引到更多优秀的人才。

03:58
这是另一个有趣的演示。所以你们看到的是我使用人们的互联网图像建立的个人控制模型。现在，如果你从视频中传递表情动作，我们可以让整个派对动起来。

04:09
布什：这是个难以通过的法案，因为有太多可供商榷的部分，立法过程可能让人奔溃。

04:19
（鼓掌）

04:20
那么回到正题，我们的最终目标，不如说，是捕捉他们的言谈举止，或者每一个人交谈或微笑的独特之处。所以这样，我们能不能只向电脑展示这个人的录像就能教会电脑去模仿人们谈话的方式？而我做的事情是，我让电脑看了14个小时的奥巴马演讲。这是我们只通过他的音频生产出来的内容。

04:46
结果非常明显。在过去75个月中，美国企业已经创造了 1450万新的工作机会。

04:55
所以这里合成的只是嘴巴部分，这是我们做的方法。我们的处理系统使用神经网络来转换和输入音频到这些嘴巴的位置。

05:06
我们通过我们的工作或者医疗保险或补助来实现这一目标。

05:10
然后我们合成纹理，增强细节和牙齿，并将其与源视频中的头部和背景混合在一起。

05:17
女性可以获得免费的检查，你不会因为是女性而需要支付更高的费用。年轻人可以在父母计划中呆到26岁。

05:27
我觉得这些结果看起来非常真实和有趣，但同时，也让我担忧，即便是我。我们的目标是构建人的精准模型，而非歪曲他们。但让我担忧的是它被错误使用的可能。人们思考这个问题很长时间了，从Photoshop进入市场那天就开始了。作为一名研究人员，我也在研究对抗技术，我是人工智能基金会持续努力的一份子，它结合了机器学习和人工模型来识别假图像和视频，与我们自己的工作做斗争。我们打算发布的一个工具叫做真相卫士，是个浏览器插件可以用来自动标记潜在假内容，在浏览器中就可以使用。

06:12
（掌声）

06:16
此外，假视频可以带来很大危害，甚至在人们有机会验证它之前，所以让大家意识到这可能是什么非常重要，这样我们才能得到正确的推断，并对看到的保持谨慎。

06:32
在个人完全建模以及确保技术的安全性方面，仍有很长的路要走。但我兴奋且充满希望，因为如果我们正确地使用它，这个工具可以让每个人对世界积极的影响得到大规模的普及并真正帮助塑造我们想要的未来。

06:55
谢谢。