
继 GauGAN2 以后,英伟达推出了一个 GAN 的“超等缝合体”——PoE GAN。PoE GAN 能够接管多种模态的输进,笔墨描写、图象朋分、草图、气概都能够转化为图片。
并且它能够同时接管以上几种输进模态的肆意两种组合,那即是 PoE 的寄义。
所谓 PoE 是 Hinton 正在 2002 年提出的“专家乘积”(product of experts)观点,每一个专家(零丁模子)被界说为输进空间上的一个几率模子。
而每种零丁的输进模态都是分解图象必需知足的束缚前提,是以知足一切束缚的一组图象是知足每一个束缚调集的交集。
假定每种束缚的结合前提几率散布都从命高斯散布,就用单前提几率散布的乘积来表述交集的散布。
正在此前提下,为了使乘积散布正在一个地区具有高密度,每一个零丁的散布需求正在该地区具有高密度,从而知足每一个束缚。而 PoE GAN 的重点是若何将每种输进夹杂正在一路。
PoE GAN 的设想
PoE GAN 的天生器利用全局 PoE-Net 将分歧范例输进的转变夹杂起来。
我们将每一个模态输进编码为特点向量,然后利用 PoE 汇总到全局 PoE-Net 中。解码器不但利用全局 PoE-Net 的输出,还间接毗连朋分和草图编码器,以此来输出图象。
全局 PoE-Net 的布局以下,那里利用一个潜伏的特点矢量 z0 做为样本利用 PoE,然后由 MLP 处置以输出特点向量 w。
正在辨别器部门,做者提出了一种多模态投影辨别器,将投影辨别器推行处处理多个前提输进。与计较图象嵌进和前提嵌进之间单个内积的尺度投影辨别器分歧,那里要计较每一个输进模态的内积,并将其相加以取得终究丧失。
随便变更输进的 GAN
PoE 能够正在单模态输进、多模态输进乃至无输进时天生图片。
当利用单个输进模态停止测试时,PoE-GAN 的表示优于之前专门为该模态设想的 SOTA 方式。
比方正在朋分输进模态中,PoE-GAN 优于此前的 SPADE 和 OASIS。
正在文本输进模态中,PoE-GAN 优于文本到图象模子 DF-GAN、DM-GAN+CL。
当以形式的肆意子集为前提时,PoE-GAN 能够天生分歧的输出图象。上面展现了 PoE-GAN 的随机样本,前提是两种形式(文本 + 朋分、文本 + 草图、朋分 + 草图)正在景不雅图象数据集上。
PoE-GAN 乃至还能没有输进,此时 PoE-GAN 就会成为一个无前提的天生模子。以下是 PoE-GAN 无前提天生的样本。
团队先容
论文通信做者是英伟达闻名工程师刘洺堉,他的研讨重点是深度天生模子及其利用。英伟达 Canvas 和 GauGAN 等风趣的产物均出自他手。
论文一做是黄勋,北京航空航天年夜学本科结业,康奈尔年夜学博士,此刻正在英伟达事情。
论文地点:
https://arxiv.org/abs/2112.05130
PoE:
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf
投影辨别器:
https://arxiv.org/abs/1802.05637
版权声明:本文为原创文章,版权归 头条123 所有,欢迎 本文,转载请保留出处!