本文系网易智能工作室(公众号smartman 163)出品,此篇为AI英雄人物第65期。
选自:MIT Technology Review 编译:网易智能 参与:小小
本期嘉宾为伊恩·古德费洛(Ian Goodfellow),他因提出了生成对抗网络而闻名,他被誉为“GAN之父”,甚至被誉为人工智能领域的顶级专家。
资料显示,古德费洛等人于2014年10月在Generative Adversarial Networks中提出了一个通过对抗过程估计生成模型的新框架,框架中同时训练两个模型:捕获数据分布的生成模型G,和估计样本来自训练数据的概率的判别模型D。G的训练程序是将D错误的概率最大化,这个框架对应一个最大值集下限的双方对抗游戏。可以证明在任意函数G和D的空间中,存在唯一的解决方案,使得G重现训练数据分布,而D=0.5。在G和D由多层感知器定义的情况下,整个系统可以用反向传播进行训练。在训练或生成样本期间,不需要任何马尔科夫链或展开的近似推理网络,实验通过对生成的样品的定性和定量评估证明了本框架的潜力。
通过让神经网络互相攻击,伊恩·古德费洛(Ian Goodfellow)创造出强大的人工智能(AI)工具,赋予机器以想象的能力,现在,他和我们其他人必须面对这种工具带来的后果。
2014年的的某个晚上,古德费洛和一名刚刚毕业的博士生共同喝酒庆祝。在的蒙特利尔颇受欢迎的酒吧Les 3 Brasseurs,许多朋友请求他的帮助,因为他们正在开发一个棘手的项目,即可以自己创作图片的电脑。
生成对抗网络的诞生
这些研究人员已经在使用神经网络,即模仿人脑神经网络建立的松散模型算法,作为“生成”模型来创建自己的新数据。但结果往往并不如人意:电脑生成的人脸图像往往是模糊的,或者出现像丢失耳朵这样的错误。
古德费洛的朋友们提出的计划,是对构成照片的元素进行复杂的统计分析,以帮助机器自己创作图像。这就需要大量的数字运算,而古德费洛告诉他们,这根本行不通。
但当他边喝啤酒边思考这个问题时,突然想出了一个主意。如果让两个神经网络对抗会产生什么样的结果?朋友们都对此持怀疑态度,所以当他回到家,女朋友已经睡熟后,他决定试一试。古德费洛在最初的几个小时里进行编码,然后测试了他的软件,没想到第一次就取得了成功。
古德费洛在那个夜晚开发出的技术现在被称为“生成对抗网络”(GAN)。这一技术已经在机器学习领域引发了巨大的兴奋,并将其开发者变成了AI领域的名人。
在过去的几年里,AI研究人员使用一种叫做深度学习的技术取得了令人印象深刻的进展。提供足够图像给深度学习系统,它会从中学习,比如识别一个即将穿越马路的行人。这种方法使得无人驾驶汽车和能驱动Alexa、Siri以及其他虚拟助手的对话技术成为可能。
可是,虽然深度学习可以学会识别事物,但他们并不擅长创造它们。GAN的目标就是赋予机器这种类似于想象的天赋。将来,计算机将会更好地享受原始数据,并计算出它们需要从中学到什么。这样做不仅能让它们绘画或作曲,还将使它们减少对人类的依赖,可以自行学习了解世界及其运作方式。
如今,AI程序员们经常需要告诉机器,在训练数据中到底有什么东西,比如数百万张图片中都有行人过马路的场景。这种方法不仅成本高昂,而且劳动强度相当大。此外,哪怕是稍微偏离了所接受的培训,AI系统处理图像数据时都会遭遇挫折。而在将来,电脑将会更好地处理原始数据,并在不被告知的情况下计算出它们需要学习的内容。
这将标志着AI“无监督学习”的巨大进步。无人驾驶汽车可以在不离开车库的情况下了解许多不同的道路状况,机器人可以预见到繁忙仓库中可能遇到的障碍,而不需要再绕过它。
GAN的魔力在于两个神经网络之间的竞争
我们想象和思考许多不同情景的能力是我们身为人类的重要组成部分。将来当科技历史学家回顾现在时,他们很可能会将GAN看作是创造具有人类意识的机器的重要进步。Facebook首席AI科学家雅恩·乐坤(Yann LeCun)把GAN称为“过去20年里深度学习领域最酷的想法”。另一位AI大咖、百度前首席科学家吴恩达(Andrew Ng)也说,GAN代表着“重要的、根本性的进步”,这会为不断壮大的全球研究者社区提供灵感。
古德费洛现在是谷歌Google Brain的研究科学家,该团队位于加州山景城的谷歌总部中。当我最近在那里见到古德费洛时,他似乎仍然对他的“巨星”地位感到惊讶,称其“有点儿不敢相信”。也许同样令人感到惊讶的是,他发现自己现在的大部分时间都要用来对付那些想用GAN作恶的人。
GAN的魔力在于两个神经网络之间的竞争。它模仿了绘画伪造者和艺术侦探之间的反复交锋,他们反复尝试互相欺骗。这两个网络都是使用相同数据集进行训练的,第一个系统被称为“发电机”,负责生成像照片或笔迹这样尽可能逼真的人工输出。第二个系统被称为“鉴别器”,它将发电机生成的东西与原始数据集中的真实图像进行比较,并试图确定哪些图像是真的,哪些是假的。在这些结果的基础上,发电机调整其参数以创建新的图像。这个过程反复持续,直到鉴别器再也无法分辨真假。
接受过真人秀明星照片训练的GAN自己生成了想象中的明星照
去年,在一个广为宣传的例子中,芯片巨头英伟达公司的研究人员对AI进行了大量投资,通过研究真实的明星训练了一个GAN系统,以生成虚构的名人照片。虽然并不是所有虚构的假名星都是完美的,但有些却非常逼真。与其他需要成千上万训练图像的机器学习方法不同,GAN只需几百张照片就会变得“技艺精通”。
尽管这种想象的力量仍然有限,但是只要接受过很多狗狗照片的训练,GAN就能产生令人信服的假狗图像,比如身上会有不同的斑点图案,但它不能想象出全新的动物。原始训练数据的质量对结果也有很大的影响。有这样一个生动的例子,GAN开始将随机字母融入到其组合的猫图中。因为训练数据中包含了来自互联网的猫图,这台机器通过自学,认为单词也是猫图的一部分。
让GAN好好工作是件棘手的事,如果出现故障,结果可能会很奇怪
华盛顿大学机器学习研究员佩德罗·多明戈斯(Pedro Domingos)说,GAN也喜怒无常。如果鉴别器太容易被愚弄,发电机的输出看起来就不太真实。而且,对两种决斗的神经网络进行校正是很困难的,这也可以解释为何GAN有时会吐出许多奇怪的东西,比如有两个头的动物。
不过,这些挑战并没有让研究人员却步。自从古德费洛及其同伴在2014年发表了关于他的发现首份研究之后,已经有数百篇与GAN相关的论文发表。该技术的一个粉丝甚至创建了一个名为“GAN zoo”的网页,专门用来跟踪已经开发出的各种版本技术。
GAN最明显的即时应用是在涉及大量图像的领域,比如视频游戏和时尚行业:比如,游戏角色在雨中会如何奔跑?但是展望未来,古德费洛认为GAN将推动更大的进步。他说:“有很多科学和工程领域需要我们去优化一些东西。举例来说,我们需要更有效的药物,或者需要更高效的电池。这将是下一个大浪潮。”
在高能物理学中,科学家们使用强大的计算机来模拟数百个亚原子粒子的相互作用,比如欧洲核子研究中心的大型强子对撞机。这些模拟是缓慢的,需要巨大的计算能力支持。耶鲁大学和劳伦斯伯克利国家实验室的研究人员已经开发出一种GAN,在利用现有模拟数据进行训练后,它能够对特定粒子的行为做出准确的预测,而且速度要快得多。
古德费洛的发现可以用来想象各种事物,包括新的室内设计
此外,医学研究是另一个非常有前景的应用领域,隐私问题意味着,研究人员有时无法获得足够的真实病人数据,分析为什么药物不起作用。宾夕法尼亚大学的凯西·格林(Casey Greene)说,GAN可以通过生成几乎和真实情况一样好的假病人记录来帮助解决这个问题。这些数据可以被更广泛地分享,有助于推进研究,而真正的记录则受到严格的保护。
GAN拥有黑暗的一面 它们使问题变得更糟
然而,GAN也有黑暗的一面。对于那些想要影响股票价格、选举结果等制造虚假新闻的人来说,被用于设计逼真假图的机器堪称是一件完美武器。这种AI工具已经被用来将其他人的头像安放在色情明星的身体上,并将某些言论强加在特定的政客嘴上。GAN没有制造这个问题,但是它们会使问题变得更糟。
在达特茅斯学院研究数字取证问题的哈尼·法里德(Hany Farid)正在研究更好的方法来识别假视频,比如探测因吸入和呼出气体而导致的脸部颜色发生细微变化,GAN很难精确模仿这些。但他警告说,GAN将会反过来适应这种情况。法里德说:“我们基本上处于弱势。”
这种“猫捉老鼠”的游戏也将在网络安全领域发挥影响。研究人员已经在强调“黑盒”攻击的风险,在这种攻击中,GAN用来找出大量安全程序发现恶意软件的机器学习模式。通过推测某个防御者的算法工作原理,攻击者可以躲开它并插入流氓代码。同样的方法也可以用来躲避垃圾邮件过滤器和其他防御。
古德费洛深知其中的危险。现在,作为谷歌专注于让机器学习安全的团队负责人,他警告说,AI社区必须吸取以往创新浪潮的教训,技术专家需要提前思考安全和隐私问题。以往,当他们意识到风险的时候,“坏人”已经确立了明显的优势。古德费洛称:“很明显,我们已经超越了起点,但希望我们能在安全问题上取得重大进展。”
尽管如此,古德费洛并不认为会有一个纯粹的技术解决方案。相反,他认为,我们将不得不依赖于社会,比如教孩子们养成批判性思维,让他们接受诸如演讲和辩论课之类的东西。他说:“在演讲和辩论中,你是在和另一个学生竞争,而你在思考如何制造误导的言论,或者如何正确地制造那些具有说服力的声明。”他很可能是对的,但他的结论是,技术不能解决假新闻问题,这不是很多人想听到的。(完)
关注网易智能公众号(smartman163),获取人工智能行业最新报告。
点击查看《AI英雄》专题,往期内容一步直击!