在 Nvidia 的新人工智能演示 GauGAN 2 中输入“ZDNet 精湛报告”这些词,你会看到一张看起来像大块泡沫绝缘材料在白雪皑皑的背景下在湖中摔跤的图片。
添加更多的词,比如“ZDNet 精湛的报告”,你会看到图像变成了一些新的东西,一些几乎无法辨认的形式,也许是一辆已经被消化的一级方程式赛车,沿着看起来有点像 道路,在人造结构的模糊视图前。
用两个骰子图像的小按钮掷骰子,同一个短语变成一个幽灵般的、雾气笼罩的风景,带有某种有机性质的打哈欠的嘴,但完全无法识别其确切种类。
输入短语是控制 GauGAN 的最新方式,GauGAN 是图形芯片巨头 Nvidia 开发的一种算法,用于展示人工智能的最新水平。 最初的 GauGAN 程序于 2019 年初推出,作为一种绘图方式,并让程序通过填充绘图自动生成逼真的图像。
名称中的“GAN”一词指的是一大类神经网络程序,称为生成对抗网络,由 Ian Goodfellow 及其同事于 2014 年推出。 GAN 使用两个以交叉目的运行的神经网络,一个产生输出并稳定地改进,直到第二个神经网络将输出标记为有效。 来回的竞争本质是它们被称为“对抗性”的原因。
Nvidia 在扩展 GAN 方面做了开创性的工作,包括在 2018 年推出“Style-GAN”,这使得生成高度逼真的假人照片成为可能。 在那项工作中,神经网络“学习”了面部的高级方面以及肤色等低级方面。
在 2019 年的原始 GauGAN 中,Nvidia 使用了类似的方法,让人们将景观绘制为区域,称为分割图。 那些包含湖泊、河流和田野等基本对象的高级抽象成为结构模板,然后 GauGAN 程序将以照片般逼真的形式填充绘制的分割图。
该程序的第二版已更新以处理语言。 这样做的目的是让 GuaGAN 2 可以使用与风景有关的有意义的短语,例如“海岸涟漪悬崖”。 GauGAN 2 程序将通过生成与该输入匹配的逼真场景来做出响应。
Nvidia 表示,GauGAN 2 是在“训练”阶段通过输入 1000 万张高质量风景图像而开发的,使用的是 Nvidia GPU 构建的 Selene 超级计算机。
分割图也可以根据输入的单词自动创建,允许人们返回并编辑景观布局,就像原始 GauGAN 允许人们从头开始创建地图一样。
正如 Nvidia 在博客文章中描述的 GauGAN 2,文本和图像以及分割图的结合是多模态 AI 的突破:
GauGAN2 将分割映射、修复和文本到图像生成结合在一个模型中,使其成为一个强大的工具,可以通过混合文字和绘图来创建逼真的艺术。 该演示是首批在单个 GAN 框架内结合多种模式(文本、语义分割、草图和样式)的演示之一。 这使得将艺术家的愿景转化为人工智能生成的高质量图像变得更快、更容易。
Nvidia 表示,实际的好处是,人们可以使用几个词来获得基本图像,而无需任何绘图,然后调整细节以完善最终输出。
但是添加与景观没有任何关系的词,例如“ZDNet”,开始生成疯狂的人工制品,这些人工制品有时具有令人反感的怪异,有时具有令人震惊的美丽——取决于你的品味。 在深度学习的术语中,由无意义短语产生的怪异图像是由于程序必须处理“分布不均”的语言,这意味着没有在提供给机器的训练数据中捕获。 面对不可调和的短语,程序很难将图像与短语相匹配。
从一系列图像中可以看出,“海岸波纹悬崖”最初产生了非常忠实的图像。 用不恰当的词添加限定词——自行车、纽约市、卡桑德拉这个名字——开始以奇怪的方式改变和塑造景观。
当所有的风景词都被去掉,只剩下废话时,更有趣的事情发生了。 奇怪的、未来主义的风景或多色的变形虫进入视野。
这个实验可以用暗示性的扩展短语进行得更远,而不是完全描述性的。 尝试在第一行输入 T.S. 艾略特的诗荒原,“四月是最残酷的月份,从死地中孕育丁香花。”
结果是一些引人注目的图像,实际上有些合适。 掷骰子时,会出现许多合适的景观变体,在某些情况下只有轻微的人工制品。
得益于 StyleGAN 的创新,GauGAN 能够将一种风格应用于图像,从根本上将输出调节为其他图像的形式,而不是像混搭。
风格在艾略特诗歌中的应用扭曲了忠实的风景图像,面目全非。 再一次,一大堆奇怪的物体出现了,对其中一些来说有一种令人作呕的有机质量,而另一些则只是曾经是图像的破碎碎片。
人们还可以提交图像,甚至可以在 GauGAN 2 中进行手绘。提交一张在冰岛古议会所在地辛格维利尔拍摄的旧照片并没有多大作用。 在有限的测试中,图像大部分保持未转换。
然而,加上“Þingvellir”这个词,就产生了一个足够逼真的景观,与 Þingvellir 遗址保持一致。