利用配对数据复现 GPT-4o 的出色风格化一致性

更新时间:2025-06-09 08:10 类型:新闻资讯 来源:网络整理

  

利用配对数据复现 GPT-4o 的出色风格化一致性

  本文由 NUS ShowLab 主导已毕。第一作家宋亦仁为新加坡邦立大学 ShowLab@NUS 正在读博士生,讨论偏向是视觉天生和众模态,正在 CVPR、SIGGRAPH、NeurIPS 等邦际顶级集会上发布众篇讨论结果。共统一作刘成为 NUS 重庆讨论院四年级本科生,讨论偏向是视觉天生。项目掌管作家为该校校长青年传授寿政。

  不久前,GPT-4o 的最新图像风致化与编辑技能横空出生,用吉卜力等风致天生的成果令人惊艳,也让咱们真切看到了开源社区与贸易 API 正在图像风致化同等性上的强大差异。

  目前,开源扩散模子正在 image-to-image 风致迁徙中众数面对一个跷跷板逆境:要念加强风致化成果,往往会去世细节、组织和语义同等性;而要维持同等性,风致外达则昭着退化。

  为领会决这一困难,咱们提出OmniConsistency,行使配对数据复现 GPT-4o 的增光风致化同等性,为开源生态注入切近贸易级的技能。

  咱们提出 OmniConsistency, 一个基于 DiT 的通用同等性加强插件,它可能正在维持热烈风致化成果的同时,精准保存输入图像的细节、语义和组织。

  目前各大厂商的 AI 图生图营业的主流做法是组合风致化 LoRA + 同等性插件 + image2image pipeline。正在特定风致数据上微调获得的风致 LoRA 模块,不妨正在文本到图像(text-to-image, T2I)做事中竣工高质料风致图像天生。同等性模块(如 ControlNet、IP-Adapter、Redux 等)掌管正在图像到图像(image-to-image, I2I)做事中维护组织、角落或姿势等条目,应许行使更大的去噪强度来取得更强的风致化成果。

  题目是,当把这两类模块组合正在一道用时,风致模块要的 “自正在外现” 和同等性模块要的 “苛谨驾御” 相互掣肘。加倍正在 I2I 做事中,风致外达往往会被衰弱,闪现昭着的风致退化。换句话说,现有设施被困正在风致化强度和同等性之间的跷跷板上,无法兼顾。

  OmniConsistency 的主题宗旨是粉碎图像风致化做事中 “风致外达” 与 “同等性维持” 之间的跷跷板逆境。为领会决这一题目,咱们提出了一种全新的、风致 - 同等性解耦研习设施,其包含以下三项环节安排:

  OmniConsistency 立异性地提出了一种基于风致化图像对的同等性研习机制:不是像现有设施那样先正在风致结果上锻炼 LoRA,再用同等性插件去适配(这往往带来冲突);而是直接行使原图与其高同等性风致化结果的成对合联,特意研习图像正在风致迁徙中的同等性维持纪律。

  实在做法是:将原图颠末 VAE 编码获得的 clean latent token 拼接到 denoise token 上,通过因果防卫力机制指挥模子研习配对图像风致化前后的同等性。

  为了从锻炼计谋上彻底折柳风致外达与同等性维持,咱们采用了阶段化解耦锻炼机制:

  第一阶段:风致研习。咱们基于 22 种区别的艺术风致,用风致化结果图为每种风致独立锻炼一个 LoRA 模块,最终构修出一个坚固的 风致 LoRA 模块库。

  第二阶段:同等性研习。正在该阶段,咱们冻结全部风致 LoRA,用风致化前后的配对数据锻炼一个轻量级的同等性模块(Consistency LoRA)。咱们安排了 LoRA Bank 滚动加载机制,即锻炼时动态轮换风致 LoRA 与其对应的锻炼子集。如此能确保同等性模块静心于跨风致维持组织和语义,而不研习任何实在风致实质。

  这种锻炼解耦计谋正在维持风致外达技能的同时,极大提拔了模子对众风致场景下的同等性泛化技能。

  OmniConsistency 被安排为一套全部模块化的插拔体例,兼容性极强:

  Plug-and-Play LoRA:同等性模块特意效用于条目分支,与风致 LoRA 行使独立 “插槽”,二者正在架构上无参数冲突。以是,任何 HuggingFace 社区风致 LoRA 模子均可直接与 OmniConsistency 联动,无需修削或重锻炼。

  兼容 EasyControl/ IP-Adapter 等驾御信号:因为同等性模块采用因果防卫力 + 条目注入计谋,其他驾御设施也可无缝集成,互不骚扰。

  咱们采用 GPT-4o 自愿天生了一套高质料配对数据:安排 22 种区别风致的提示词,上传原始图像,天生对应的风致化版本,还配上仔细文本描摹。

  然后,咱们通过人工筛选,剔除了风致区别等、细节过失、姿势错位等题目图,最终精选出 2600 对高质料图像对,涵盖了动漫、素描、像素画、水彩、赛博朋克等风致。

  直接上图, OmniConsistency 能很好的维护风致化前后构图、语义、细节同等,对人物面部特点的维护也有肯定效用。对众人合影等纷乱场景,很好的维护了人数、式样、性别、种族、年纪,以至还能维护图片中的英文文字精确性。

  论文构修了一个全新数据集,包含:22 种风致、2600 对高质料图像对, 由 GPT-4o 构修并实行人工筛选。用 100 张纷乱场景测试图(众人合影、制造、动物等)动作 benchmark。行使 LibLib 网站上 5 个锻炼阶段未睹过的全新风致 LoRA ,实行定量策画。

  ✅风致同等性:FID 和 CMMD 目标明显优于基线,风致化水准切近 LoRA 文生图 成果。

  ✅泛化技能:正在未睹过的 LoRA 风致上泛化成果增光,显示出重大的风致无合性。

  ✅轻量高效:得益于特点复用和位子编码差值时间,推理显存与岁月开销比拟 Flux text2image pipeline 仅补充约 5%,适合安置到临盆情况。

  ✅即插即用、普遍兼容:模块化安排援助与社区 LoRA、EasyControl、IPAdapter 等主流插件无缝集成,无需重训即可行使。