当前位置: 首页 > news >正文

手机营销型网站建设公司小学校园网站建设方案工作职责

手机营销型网站建设公司,小学校园网站建设方案工作职责,wordpress图片命名,安阳企业网站优化排名文章目录 摘要算法Step1:计算编辑maskStep2:编码Step3:使用mask引导进行解码理论分析: 实验数据集:扩散模型:ImageNet数据集上实验消融实验IMAGEN数据集上实验COCO数据集上实验 结论 论文: 《D…

文章目录

  • 摘要
  • 算法
    • Step1:计算编辑mask
    • Step2:编码
    • Step3:使用mask引导进行解码
    • 理论分析:
  • 实验
    • 数据集:
    • 扩散模型:
    • ImageNet数据集上实验
    • 消融实验
    • IMAGEN数据集上实验
    • COCO数据集上实验
  • 结论

论文: 《DiffEdit: Diffusion-based semantic image editing with mask guidance》
github: https://github.com/johnrobinsn/diffusion_experiments/blob/main/DiffEdit.ipynb

摘要

图像生成最佳展现巨大优势,扩散模型对于各种文本prompt可生成令人信服图片。作者提出DiffEdit,基于文本query进行图像编辑。当前基于扩散模型图像编辑方法,通常需要提供mask,转为条件修复任务。作为对比,DiffEdit可基于prompt自动生成mask,高亮需要编辑区域。在ImageNet达到SOTA,同时作者在COCO及基于文本生成的图像上进行验证。

算法

在这里插入图片描述
DIFFEDIT依据文本推理需要编辑的mask区域,图2表示该方法的三个步骤:

Step1:计算编辑mask

进行图像去噪时,不同文本输入,扩散模型给出不同噪声估计,根据噪声估计的差异找到那些图像区域与条件文本变换有关。如图2所示。本算法中使用高斯噪声,通过去除10个输入噪声极值并进行平均化进行稳定预测,归一化到[0, 1],通过阈值0.5进行二值化。

Step2:编码

使用DDIM中编码器 E r E_r Er对输入图 x 0 x_0 x0编码到隐空间,直到达到编码比例 r r r,该过程未使用文本条件;

Step3:使用mask引导进行解码

获得隐向量 x r x_r xr后,基于编辑文本Q使用扩散模型解码 x r x_r xr,同时利用mask M引导扩散过程,该过程通过替换mask以外区域像素值为DDIM编码得到的 x t x_t xt对应区域像素值,因此可映射回源图。
编码比例r决定可编辑能力,该值越大编辑能力更强,从而更好地匹配文本Q,代价为与输入图偏差更大。

理论分析:

对于输入图 x 0 x_0 x0经编码得到的 x r x_r xr,通过无条件DDIM可解码为 x 0 x_0 x0,虽然DIFFEDIT中基于文本Q为条件进行解码,但仍存在强偏置使得与原图接近。

实验

数据集:

ImageNet、Imagen、COCO

扩散模型:

mask分辨率32 * 32(ImageNet)、64 * 64(Imagen及COCO),使用DDIM采样50 step

ImageNet数据集上实验

评估:使用LPIPS感知距离评估与输入图像距离,使用CSFID评估图片真实性以及与文本一致性,ImageNet为单目标因此适合。
越强的图像编辑能力,CSFID得分越低,但是导致图片与输入图不一致,导致LPIPS得分变高。图4表明DIFFEDIT相对于其他方案,在两者之间获得不错均衡。
在这里插入图片描述

消融实验

在这里插入图片描述
图6中Encode-Decode表示增加DDIM encoding,DiffEdit w/o Encode表示仅使用mask,图6左展示与SDEdit相比,两者均分别提升均衡性,并且两者结合展示出互补性。图5展示可视化结果。
在这里插入图片描述
图6右侧展示不同二值化阈值,阈值越低,mask区域越大,0.5可达到不错CSFID-LPIPS均衡。

IMAGEN数据集上实验

评估:使用FID评估图像逼真度,CLIP-Score评估图文一致性。
在这里插入图片描述
图7表明DIFFEDIT CLIP-LPIPS及FID-CLIP均衡。其中mask计算有两种:
w/ref. text:使用原始caption 作为参考text;
w/o ref. text:输入空text;
使用原始caption作为参考text获得最佳均衡。图8为可视化结果。使用参考text更容易忽视参考text及query text都描述的部分。
在这里插入图片描述
图9展示通过对比caption及query text推理所得mask。
在这里插入图片描述

COCO数据集上实验

作者使用COCO验证集,query text与图片对应caption相似但不一致,如图15,以此评估图像编辑能力。评估指标使用CLIPScore, FID and LPIPS。
在这里插入图片描述
图10展示DIFFEDIT达到CLIP-LPIPS最佳均衡,但是最大CLIP得分低于SDEdit。
在这里插入图片描述
可视化结果如图11,第一列展示DDIM编码好处:能够纠正mask中目标的主要特性;最后三列表明允许选择输入图中不同目标进行不同编辑。
在这里插入图片描述

结论

DIFFEDIT,一种新颖的基于扩散模型的语义图像编辑算法。给出文本query,使用扩散模型,DIFFEDIT推理相关区域进行编辑而无用用户提供mask。利用DDIM编码输入图进行初始化生成过程,作者进行理论分析及实验表明该方法保留输入图更多的外观信息。在ImageNet,COCO,Imagen数据集展示不错编辑能力,并且超越之前方法。

http://www.yayakq.cn/news/220662/

相关文章:

  • 苏州吴江网站建设wordpress 注册码
  • 响应式网站难做旅游网络营销
  • 国建设银行e路通网站申竞价推广方案怎么写
  • 上海建筑网站大全佛山市建设工程有限公司
  • 后台管理网站模板下载代做一个网站多少钱
  • 菜户营做网站国内html5网站
  • 如何利用div做网站装潢设计图片大全
  • 重庆模板自助建站哪种公司一般会做网站
  • 世界上做的最好的前端网站网站开发要求描述
  • 海外购物网站哪个最好wordpress 静态化插件
  • 咖啡的网站建设策划书线上推广宣传方式有哪些
  • 河南卫生基层系统网站建设建设银行国际互联网网站是什么
  • 手机网站建设优化软件海丰县建设局官方网站
  • 松原做网站巴彦淖尔网站建设
  • 茂名中小企业网站制作网站做seo要多少钱
  • 在pc端预览手机网站建设网站需要两种服务支持
  • 肇庆建设工程备案的网站设计师学编程能自己做网站吗
  • 上海商城网站开发手机上怎么做能打开的网站
  • 亿网中国网站管理系统网站开发公司oa
  • 网站建设的栏目内容pc端与手机端网站开发的区别
  • 朋友圈网络营销长沙优化网站建设
  • 通达oa 做网站美橙西安网站备案拍照
  • 南阳网站制作价格建设商城网站的书籍钱
  • 做纱线的网站网店装修
  • 邯郸做网站推广的地方网站权重最高
  • 济南搜索引擎优化网站企业建站的作用是什么
  • 百色市右江区了建设局网站网站开发设计前景
  • 人才招聘网站开发 源代码南通营销网站开发
  • 设计师网上接单的网站表白网页生成器下载
  • 加强普法网站建设的通知微信广告投放推广平台