真人的假视频以及如何识别他们 – Supasorn Suwajanakorn


人工智能时代口译技术应用研究
王华树 | 国内首部聚焦口译技术应用和教学的著作
新书推荐


口笔译教育与评价国际论坛 二号公告
在厦门大学百年校庆之际,邀您齐聚厦门、共襄盛举
论坛推荐

真人的假视频以及如何识别他们 - Supasorn Suwajanakorn
play-rounded-fill

真人的假视频以及如何识别他们 - Supasorn Suwajanakorn

About the talk

你觉得你擅长发现假视频吗,当名人们并没有真正说过这些话的时候?这个演讲和技术演示让我们了解到这是如何做到的。计算机科学家 Supasorn Suwajanakorn 为我们展示了,如何使用人工智能和3D建模并与音频同步来创造假视频。了解更多关于这个技术的伦理问题和这个技术的可能性,以及我们应该采取的措施来对抗该技术的错误使用。

看看这些图像。 现在,告诉我哪个是真的奥马巴。

00:04
巴拉克·奥巴马:帮助家庭对他们的房屋重做贷款, 投资高科技制造业, 清洁能源 和带来良好就业机会的基础设施。

00:14
有人知道吗? 答案是:都不是。

00:18
(笑声)

00:19
这些都不是真的。 那让我来告诉你们是怎么回事。 我这个工作的灵感来自于 一个试图保存我们从幸存者那里 了解到的关于大屠杀 的项目。 这个项目叫做证词新维度 (New Dimensions in Testimony), 它可以让你与真实大屠杀幸存者的全息图 进行互动对话。

00:41
你是怎么在大屠杀中幸存下来的?

00:43
我怎么幸存下来? 我幸存下来, 我相信, 是因为上帝眷顾我。

00:53
原来这些答案是预先在工作室录制的。 但效果令人吃惊。 你会对他的故事, 他这个人感同身受。 我想人类互动的特别之处 让它比图书,演讲或电影 告诉我们的 要更加深刻和真实。

01:16
所以我就开始想, 我们能不能为每个人做个模型? 这个模型的样子, 谈话和举止就跟真人无异。 于是我开始探索这个能不能搞定, 并最终找到了一个新的解决方案, 只需使用下面这些东西就能构建人的模型: 个人现存的照片和视频。 如果你能利用这种被动信息, 只需公开的照片和视频, 这是扩展到其他人的关键。

01:44
顺便说一句,这是理查德·费曼, 他除了是诺贝尔物理学奖得主 也是位传奇教师。 这岂不是很棒? 如果能够把他带回来 讲课并激励成千上万的小孩, 用英语或者其他任何语言? 或者你也可以征求祖父母的意见, 听听那些让人宽慰的言语, 即便他们已经离开我们了。 或者使用这个工具,图书的作者, 不管是活着的还是去世的, 可以为任何有兴趣的人朗读他们的书本。

02:17
这里的创意可能是无限的, 对我而言,这非常让人兴奋。 这是目前它的工作原理。

02:24
首先我们引入一种新的技术 可以从任何图像中 重建一个高细节的3D人脸模型, 而且无需经对真人进行3D扫描。 这是不同视角下的同一输出模型。 这也可以应用于视频, 通过对每一幅视频 使用同样的算法 产生移动的3D模型。 这是不同视角下的同一输出模型。

02:49
这些问题富有挑战性, 但关键技巧在于我们需要提前 分析一个人的大量照片集。 对乔治·沃克·布什, 我们只需要搜索谷歌, 这样,我们就能建立一个平均模型, 一个迭代,精炼的模型来恢复表达的细节, 比如折痕和皱纹。 迷人的是 照片集可以来自你的特定照片。 你做何表情或者你在哪里拍照 并不那么关键。 关键的是数量要足够多。 这里我们仍然缺少肤色, 所以下一步, 我们开发了一种新的混合技术 改善了平均模型, 并产生尖锐的面部纹理和肤色。 这可以用于做任何表情。

03:37
现在我们可以 对一个人的模型进行控制, 它现在被控制的方式是 一系列静态的照片。 注意皱纹是如何产生和消失的, 这取决于你的表情。 我们也可以使用视频来驱动模型。

03:50
丹尼尔·克雷格:没错,但不管怎样, 我们能够吸引到更多优秀的人才。

03:58
这是另一个有趣的演示。 所以你们看到的是 我使用人们的互联网图像 建立的个人控制模型。 现在,如果你从视频中传递表情动作, 我们可以让整个派对动起来。

04:09
布什:这是个难以通过的法案, 因为有太多可供商榷的部分, 立法过程可能让人奔溃。

04:19
(鼓掌)

04:20
那么回到正题, 我们的最终目标, 不如说,是捕捉他们的言谈举止, 或者每一个人交谈或微笑的独特之处。 所以这样, 我们能不能只向电脑展示这个人的录像 就能教会电脑 去模仿人们谈话的方式? 而我做的事情是,我让电脑 看了14个小时的奥巴马演讲。 这是我们只通过他的音频生产出来的内容。

04:46
结果非常明显。 在过去75个月中,美国企业已经创造了 1450万新的工作机会。

04:55
所以这里合成的只是嘴巴部分, 这是我们做的方法。 我们的处理系统使用神经网络 来转换和输入音频到这些嘴巴的位置。

05:06
我们通过我们的工作或者医疗保险 或补助来实现这一目标。

05:10
然后我们合成纹理, 增强细节和牙齿, 并将其与源视频中的 头部和背景混合在一起。

05:17
女性可以获得免费的检查, 你不会因为是女性而需要支付更高的费用。 年轻人可以在父母计划中呆到26岁。

05:27
我觉得这些结果看起来非常真实和有趣, 但同时,也让我担忧,即便是我。 我们的目标是构建人的精准模型, 而非歪曲他们。 但让我担忧的是它被错误使用的可能。 人们思考这个问题很长时间了, 从Photoshop进入市场那天就开始了。 作为一名研究人员, 我也在研究对抗技术, 我是人工智能基金会持续努力的一份子, 它结合了机器学习和人工模型 来识别假图像和视频, 与我们自己的工作做斗争。 我们打算发布的一个工具叫做真相卫士, 是个浏览器插件 可以用来自动标记潜在假内容, 在浏览器中就可以使用。

06:12
(掌声)

06:16
此外, 假视频可以带来很大危害, 甚至在人们有机会验证它之前, 所以让大家意识到这可能是什么 非常重要, 这样我们才能得到正确的推断, 并对看到的保持谨慎。

06:32
在个人完全建模 以及确保技术的安全性方面, 仍有很长的路要走。 但我兴奋且充满希望, 因为如果我们正确地使用它, 这个工具可以让 每个人对世界积极的影响 得到大规模的普及 并真正帮助塑造我们想要的未来。

06:55
谢谢。

分享让更多人受益


相关推荐
5/5

原创视频版权为主办方及译直播所有,请勿擅自使用
已赞1
已有 1 条评论 新浪微博
  1. Lazy Cat

    科技是把双刃剑,好好利用才是最重要的

    2019年1月30日 22:52来自移动端 回复