英伟达推出“超级缝合体”PoE GAN，输入文字草图-头条123

继 GauGAN2 以后，英伟达推出了一个 GAN 的“超等缝合体”——PoE GAN。PoE GAN 能够接管多种模态的输进，笔墨描写、图象朋分、草图、气概都能够转化为图片。

并且它能够同时接管以上几种输进模态的肆意两种组合，那即是 PoE 的寄义。

所谓 PoE 是 Hinton 正在 2002 年提出的“专家乘积”(product of experts)观点，每一个专家(零丁模子)被界说为输进空间上的一个几率模子。

而每种零丁的输进模态都是分解图象必需知足的束缚前提，是以知足一切束缚的一组图象是知足每一个束缚调集的交集。

假定每种束缚的结合前提几率散布都从命高斯散布，就用单前提几率散布的乘积来表述交集的散布。

正在此前提下，为了使乘积散布正在一个地区具有高密度，每一个零丁的散布需求正在该地区具有高密度，从而知足每一个束缚。而 PoE GAN 的重点是若何将每种输进夹杂正在一路。

PoE GAN 的设想

PoE GAN 的天生器利用全局 PoE-Net 将分歧范例输进的转变夹杂起来。

我们将每一个模态输进编码为特点向量，然后利用 PoE 汇总到全局 PoE-Net 中。解码器不但利用全局 PoE-Net 的输出，还间接毗连朋分和草图编码器，以此来输出图象。

全局 PoE-Net 的布局以下，那里利用一个潜伏的特点矢量 z0 做为样本利用 PoE，然后由 MLP 处置以输出特点向量 w。

正在辨别器部门，做者提出了一种多模态投影辨别器，将投影辨别器推行处处理多个前提输进。与计较图象嵌进和前提嵌进之间单个内积的尺度投影辨别器分歧，那里要计较每一个输进模态的内积，并将其相加以取得终究丧失。

随便变更输进的 GAN

PoE 能够正在单模态输进、多模态输进乃至无输进时天生图片。

当利用单个输进模态停止测试时，PoE-GAN 的表示优于之前专门为该模态设想的 SOTA 方式。

比方正在朋分输进模态中，PoE-GAN 优于此前的 SPADE 和 OASIS。

正在文本输进模态中，PoE-GAN 优于文本到图象模子 DF-GAN、DM-GAN+CL。

当以形式的肆意子集为前提时，PoE-GAN 能够天生分歧的输出图象。上面展现了 PoE-GAN 的随机样本，前提是两种形式(文本 + 朋分、文本 + 草图、朋分 + 草图)正在景不雅图象数据集上。

PoE-GAN 乃至还能没有输进，此时 PoE-GAN 就会成为一个无前提的天生模子。以下是 PoE-GAN 无前提天生的样本。

团队先容

论文通信做者是英伟达闻名工程师刘洺堉，他的研讨重点是深度天生模子及其利用。英伟达 Canvas 和 GauGAN 等风趣的产物均出自他手。

论文一做是黄勋，北京航空航天年夜学本科结业，康奈尔年夜学博士，此刻正在英伟达事情。

论文地点：

https://arxiv.org/abs/2112.05130

PoE：

https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影辨别器：

https://arxiv.org/abs/1802.05637

本文地址：https://www.toutiao123.net/news/30172.html
版权声明：本文为原创文章，版权归头条123 所有，欢迎本文，转载请保留出处！