找回密码
 立即注册
科技快报网 首页 科技快报 快报 查看内容
鸿蒙5终端突破2000万!超百家伙伴齐贺,近20家伙伴携手带来“鸿蒙有礼特别版”数字人惊艳2025云栖大会!NuwaAI开创“真人+数字人”搭档协作新模式腕上米兰时装周惠聚京东 时尚智能手表享国补再叠12期免息猛士M817 Max+版新款上市,如何用“超200km纯电续航+顶级智驾”构建代差级领先?科脉云帆OS平台:以产品力重构零售结算生态从3G、4G到5G,高通孟樸回顾携手中国伙伴30年发展历程长城汽车魏建军:反对内卷和过度夸张营销,高管在发布会上若过度夸张宣传,回来受处分从“人找信息”到“信息追人”:鸿蒙5实况窗让出行“一眼安心”国庆宅家新潮流,让小艺当你的贴心家教与专属摄影师工博会技术深观察:加特兰如何用感知通信融合破解辅助驾驶难题当可以“玩”的电子家具成为情绪充电站,情绪经济推动下的产品变革为放心消费加码!箭牌瓷砖主编《佛山陶瓷放心消费品牌规范》英特尔联动「扣子 AI 工坊」启动高校计划——让校园创意一键开挂从优篮子到 JOBY:唯迹科技的全球化成长之路哈曼携手高通,助推汽车生成式AI跃迁华为坤灵发布IdeaHub千行百业体验官计划,助力中小企业跃升智能化天玑9500征服《崩坏:星穹铁道》,实测57.64FPS,功耗6W出头哈曼完成对 Sound United收购,强化高端音频领域领导地位戴尔科技:从“模型驱动”到“数据驱动”,重塑企业智能化转型新范式企业新型生产力平台ZENAVA正式发布,AI员工全面落地客服与营销场景

【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

2024-10-16 13:47:37

近期,阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。

文本到图像合成 (TIS) 已成为计算机视觉与自然语言处理 (NLP) 交叉领域的重要前沿,其能够根据文本描述生成视觉上引人注目的图像。基于文本引导的图像编辑任务使用户能够通过简单的文字描述来指导图像的修改,无需使用复杂的图像编辑软件或具备专业知识即可实现编辑效果。其中 Traing-free 的文本引导图像编辑 (TIE) 已成为一个重要的研究方向,利用预训练的 TIS 模型,直接通过文本提示来编辑图像,用户可以直接输入文本,对图像进行多种编辑操作,包括颜色变化、物体的添加或去除、风格转换等。这种交互式编辑方式显著降低了图像编辑的门槛,使得创意表达变得更加便捷和个性化。

尽管当前的 TIE 算法取得了显著进展,但它们仍存在一些局限性。如图1所示,现有 TIE 方法在编辑多个对象时面临挑战。多对象编辑的复杂性会导致编辑对象丢失(例如,丢失一个苹果)、属性缺失(例如,斑点)和背景保留不完整等问题。


图1. 图像编辑的效果对比以及我们提出方法的结果

在本文中,我们提出了 VICTORIA 编辑算法,它利用语言知识来解决在对象场景编辑中因缺失目标(如对象、属性和背景)而导致的问题。VICTORIA 通过分析输入编辑文本中单词之间的依存关系,并将这种关系反映在注意层的中间表示中,从而修正并生成目标图像。图2展示了 VICTORIA 的整体框架。首先,我们通过控制自注意机制来确保原始图像和编辑后图像之间的空间一致性。其次,VICTORIA 分析输入编辑文本中单词之间的依存关系,并在生成目标编辑图像的过程中主动干预交叉注意力图,从而提升目标编辑区域的生成结果。最后,VICTORIA 通过交叉注意图进行图像部分掩码,有效保留原始图像中无需被编辑的区域。


图 2:VICTORIA 在对图像进行编辑的过程示意图

VICTORIA 伪代码如下:

图 3:VICTORIA 在合成图像编辑和真实图像编辑场景下的伪代码

图4展示了 VICTORIA 的编辑结果,它成功地修改了原始图像中多个物体的各种属性、风格、场景和类别。


图 4:VICTORIA编辑结果示例

图5对比展示了 VICTORIA 与其他一些 SOTA 图像编辑技术的效果。无论是对真实照片还是合成图像,VICTORIA 均展现出了高效的编辑能力。在所有的案例中,VICTORIA 都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。


图 5:VICTORIA与其他编辑方法的对比


为了更好地服务开源社区,这一算法的源代码已经贡献在自然语言处理算法框架 EasyNLP 中,欢迎各界从业人员和研究者使用。

阿里云人工智能平台 PAI 长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。


论文信息

论文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing

论文作者:刘冰雁、汪诚愚、黄俊、贾奎

论文pdf链接:https://openreview.net/pdf?id=efTur2naAS

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:sophia

相关阅读

微信公众号
意见反馈 科技快报网微信公众号