英伟达推出“超级缝合体”PoE GAN,输入文字草图

 头条123   2025-01-12 03:31   2464 人阅读  0 条评论
英伟达推出“超级缝合体”PoE GAN,输入文字草图

继 GauGAN2 以后,英伟达推出了一个 GAN 的“超等缝合体”——PoE GAN。PoE GAN 能够接管多种模态的输进,笔墨描写、图象朋分、草图、气概都能够转化为图片。

并且它能够同时接管以上几种输进模态的肆意两种组合,那即是 PoE 的寄义。

所谓 PoE 是 Hinton 正在 2002 年提出的“专家乘积”(product of experts)观点,每一个专家(零丁模子)被界说为输进空间上的一个几率模子。

而每种零丁的输进模态都是分解图象必需知足的束缚前提,是以知足一切束缚的一组图象是知足每一个束缚调集的交集。

假定每种束缚的结合前提几率散布都从命高斯散布,就用单前提几率散布的乘积来表述交集的散布。

正在此前提下,为了使乘积散布正在一个地区具有高密度,每一个零丁的散布需求正在该地区具有高密度,从而知足每一个束缚。而 PoE GAN 的重点是若何将每种输进夹杂正在一路。

PoE GAN 的设想

PoE GAN 的天生器利用全局 PoE-Net 将分歧范例输进的转变夹杂起来。

我们将每一个模态输进编码为特点向量,然后利用 PoE 汇总到全局 PoE-Net 中。解码器不但利用全局 PoE-Net 的输出,还间接毗连朋分和草图编码器,以此来输出图象。

全局 PoE-Net 的布局以下,那里利用一个潜伏的特点矢量 z0 做为样本利用 PoE,然后由 MLP 处置以输出特点向量 w。

正在辨别器部门,做者提出了一种多模态投影辨别器,将投影辨别器推行处处理多个前提输进。与计较图象嵌进和前提嵌进之间单个内积的尺度投影辨别器分歧,那里要计较每一个输进模态的内积,并将其相加以取得终究丧失。

随便变更输进的 GAN

PoE 能够正在单模态输进、多模态输进乃至无输进时天生图片。

当利用单个输进模态停止测试时,PoE-GAN 的表示优于之前专门为该模态设想的 SOTA 方式。

比方正在朋分输进模态中,PoE-GAN 优于此前的 SPADE 和 OASIS。

正在文本输进模态中,PoE-GAN 优于文本到图象模子 DF-GAN、DM-GAN+CL。

当以形式的肆意子集为前提时,PoE-GAN 能够天生分歧的输出图象。上面展现了 PoE-GAN 的随机样本,前提是两种形式(文本 + 朋分、文本 + 草图、朋分 + 草图)正在景不雅图象数据集上。

PoE-GAN 乃至还能没有输进,此时 PoE-GAN 就会成为一个无前提的天生模子。以下是 PoE-GAN 无前提天生的样本。

团队先容

论文通信做者是英伟达闻名工程师刘洺堉,他的研讨重点是深度天生模子及其利用。英伟达 Canvas 和 GauGAN 等风趣的产物均出自他手。

论文一做是黄勋,北京航空航天年夜学本科结业,康奈尔年夜学博士,此刻正在英伟达事情。

论文地点:

https://arxiv.org/abs/2112.05130

PoE:

https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影辨别器:

https://arxiv.org/abs/1802.05637

本文地址:https://www.toutiao123.net/news/30172.html
版权声明:本文为原创文章,版权归 头条123 所有,欢迎 本文,转载请保留出处!
 相关文章  关键词:英伟 推出 超级缝合体 PoE