当前位置:返回首页

iPhone动嘴10秒P图！UCSB苹果全华人团队发布多模态MGIE官宣开源人人

日期：2024-02-07 来源：原创/投稿/转载浏览次数：67

　　ChatGPT掀起全球热潮之后，苹果也在悄悄发力AI，曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。

　　6月举办的WWDC上，这家曾霸占全球市值第一公司，将会宣布各种AI能力整合到iOS 18、iPadOS 18等软件产品中。

　　此外，你还可以随意选一张图，可以让图片中哭脸变成笑脸、照片提亮、移除背景人物，甚至可以将绿植景色更换成海洋。

　　这项神奇的技术背后是由一个基于自然语言修改图片的新模型——MGIE加持，由UCSB和苹果全华人团队共同完成。

　　大模型在各种语言任务中，包括机器翻译、文本摘要和问答，展现出强大的能力。LLM通过从大规模语料库中学习，包含潜在的视觉知识和创造力，可以协助各种视觉和语言任务。

　　另外，多模态大模型（MLLM）可以自然地将图片作为输入，在提供视觉感知响应，以及充当多模态助手展现出强大的能力。

　　受MLLM的启发，研究人员将其合并以解决指令引导不足的问题，并引入MLLM引导图像编辑（MGIE）。

　　如图2所示，MGIE由MLLM和扩散模型组成。MLLM学习导出简洁的表达指令，并提供明确的视觉相关指导。

　　它们将指导扩散模型F实现预期的编辑目标。然后，MGIE能够通过视觉相关感知来理解模糊命令，以进行合理的图像编辑。

　　为了进行全面评估，研究人员考虑了编辑的各个方面，包括EVR、GIER、MA5k、MagicBrush，并发现MGIE可进行Photoshop风格的修改、全局照片优化和局部对象修改。

　　研究人员将InsPix2Pix作为基线，它建立在CLIP文本编码器上，具有用于基于指令的图像编辑的扩散模型。

　　按照GILL的方法，研究人员使用N =8个视觉token。编辑头T是一个4层的Transformer，它将语言特征转化为编辑指导。我们采用批大小为128的AdamW来优化 MGIE。

　　对于涉及Photoshop风格修改的EVR和GIER，表达性指令可以揭示具体目标，而简短但模糊的命令去无法让编辑更接近意图。

　　LGIE和MGIE虽然是同一来源的训练，但可以通过LLM的学习提供详细的解释，但LGIE仍然局限于其单一的模式。

　　它可以带来显着的性能提升，另外在MagicBrush也发现了类似的结果。MGIE也在精确的视觉上获得了最佳的表现。

　　对于EVR和GIER，所有模型在适应Photoshop风格的编辑任务后都获得了改进。由于微调也使表达指令更加针对特定领域，因此MGIE通过学习领域相关指导来增加最多。

　　从上面的实验中，说明了使用表达指令进行学习，可以有效地增强图像编辑，而视觉感知在获得最大增强的明确指导方面起着至关重要的作用。

　　表3中，研究人员将FZ、FT和E2E架构进行了对比，结果表明，图像编辑可以从LLM/MLLM指令推导过程中的明确指导中受益。

　　E2E与LM一起更新编辑扩散模型，LM学习通过端到端的隐藏状态，同时提取适用的指导，并丢弃不相关的叙述。

　　因此，研究人员观察到全局优化（MA5k）和本地编辑（MagicBrush）方面的增强最多。在FZ、FT、E2E中，MGIE持续超过LGIE。这表明具有关键视觉感知的表达指令，在所有消融设置中始终具有优势。

　　输入图像的CLIP-S分数越高，说明指令与编辑源相关。更好地与目标图像保持一致可提供明确、相关的编辑指导。

　　由于无法获得视觉感知，LGIE的表达式指令仅限于一般语言想象，无法针对源图像量身定制。CLIP-S甚至低于原始指令。

　　相比之下，MGIE更符合输入/目标，这也解释了为什么表达性指令很有帮助。有了对预期结果的清晰叙述，MGIE可以在图像编辑方面取得最大的改进。

　　研究人员具体为每个数据集随机采样25个示例（共100个），并考虑由人类对基线和MGIE进行排名。

　　首先，超过53%的人支持MGIE提供更实用的表达式指导，这有助于在明确的指导下完成图像编辑任务。

　　同时，有57%的标注者表示，MGIE可以避免LGIE中由语言衍生的幻觉所产生的不相关描述，因为它认为图像有一个精确的编辑目标。

　　图6比较了InsPix2Pix、LGIE和MGIE在指令遵循、地面真值相关性和整体质量方面的图像编辑结果。排名分数从1-3不等，越高越好。

　　利用从LLM或MLLM派生的表达式指令，LGIE和MGIE的表现均优于基线，其执行的图像编辑与指令相关，并与地面真值目标相似。

　　此外，由于研究中的表达式指令可以提供具体的视觉感知指导，因此MGIE在包括整体编辑质量在内的各个方面都具有较高的人类偏好。这些性能趋势也与自动评估结果一致。

　　尽管依靠MLLM来促进图像编辑，MGIE仅给出了简洁的表达指令（少于32个token）并包含与InsPix2Pix一样的可行效率。

　　对于单次输入，MGIE可以在10秒内完成编辑任务。随着数据并行化程度的提高，我们花费了相似的时间（例如，当批大小为8时，需要37秒）。

　　总之，在最新研究中，UCSB和苹果团队提出了MLLM引导图像编辑（MGIE），通过学习生成表达指令来增强基于指令的图像编辑。

关键字：

推荐阅读

本网转载作品的目的在于传递更多信息，涉及作品内容、

版权等问题，请联系我们进行修改或删除！

欢迎访问！