当前位置: 首页 > news >正文

简洁中文网站模板动态Js文件 做网站标题

简洁中文网站模板,动态Js文件 做网站标题,个人网站建设 免费,计算机专业做网站运营GitHub - Kosinkadink/ComfyUI-AnimateDiff-Evolved: Improved AnimateDiff for ComfyUI and Advanced Sampling Support 视频编码 定义: 首先,将视频数据转换为一系列的潜变量代码(latent codes)。这是通过一个预训练的自动编码器(auto-encoder)来完成的。操作: …

GitHub - Kosinkadink/ComfyUI-AnimateDiff-Evolved: Improved AnimateDiff for ComfyUI and Advanced Sampling Support

视频编码

  • 定义: 首先,将视频数据转换为一系列的潜变量代码(latent codes)。这是通过一个预训练的自动编码器(auto-encoder)来完成的。
  • 操作: 对于每个视频帧,自动编码器将其转换成一个低维的潜变量代码。这些潜变量代码捕捉了视频帧的主要特征,并且在高维空间中表示视频帧的内容。

噪声添加

  • 定义: 按照预定的扩散过程,在潜变量代码上添加噪声。这一过程模拟了图像退化的过程,即从清晰的图像逐渐变为噪声图像。

需要细化的部分:

  • 视频编码:这一步是正确的,但值得强调的是,使用的是基础T2I模型(如Stable Diffusion)中预训练的自动编码器,而不是单独训练的编码器。
  • 噪声添加:这里可以补充,噪声添加遵循预定义的前向扩散进度表,不同时间步的噪声强度是不同的。
  • 预测噪声:运动模块不是独立工作的,而是作为扩展后的T2I模型的一部分。整个模型(包括基础T2I部分和运动模块)共同参与噪声预测过程。
  • 固定权重:值得强调的是,在这个阶段,只有运动模块的权重是可训练的,而基础T2I模型和域适配器的权重是固定的。

运动模块 的输入和输出分别是什么?具体如何使用这个运动模块

  • 运动模块的输入:
    • 形状为 (b×h×w)×c×f 的特征图,其中: b: 批次大小 h, w: 空间维度(高度和宽度) c: 通道数 f: 帧数(时间维度)
    • 位置编码:用于表示每一帧在时间序列中的位置
  • 运动模块的输出:
    • 与输入形状相同的特征图,但经过了时间维度上的信息交换和处理
  • 运动模块的内部处理:
    • 将输入重塑为 (b×h×w)×f×c 的形状,将空间维度合并到批次维度
    • 通过自注意力机制处理时间维度上的信息
    • 输出再次重塑回原始形状
  • 如何使用运动模块: a. 模型扩展:
    • 将原始的2D T2I模型扩展为能处理3D(时间+空间)数据的模型
    • 在适当的位置插入运动模块,通常在每个分辨率级别的主要处理块之后
    b. 推理过程:
    • 输入:文本提示和初始噪声(代表多帧)
    • 逐步去噪:
      • 在每一步,特征图通过扩展的T2I模型的各层
      • 当特征图通过到达运动模块时:
        • 运动模块处理时间维度上的信息
        • 输出被传递到模型的下一层
    • 这个过程重复多次,直到生成最终的无噪声潜在表示
    • 最后通过解码器生成实际的视频帧

  • 训练过程:
    • 类似于推理,但包括反向传播来更新运动模块的权重
    • 使用视频数据集,将视频帧编码为潜在表示
    • 添加噪声,然后通过模型(包括运动模块)预测噪声
    • 计算预测噪声与实际噪声之间的损失,并用于更新运动模块

在AnimateDiff的第三阶段训练中,主要目标是使预训练的motion module能够适应新的运动模式。这一阶段被称为MotionLoRA,它是一种轻量级的微调技术,允许模型快速适应特定的运动效果,如不同的镜头类型等,而不需要大量的参考视频或长时间的训练。

第三阶段训练概述

  1. 保持第二阶段权重不变:在第三阶段,motion module的权重(即第二阶段训练得到的权重)是固定的,不会被更新。这意味着前两个阶段学到的一般运动先验知识不会丢失。

  2. 引入MotionLoRA:在motion module的基础上,通过引入LoRA层(一种低秩适配方法)来进行微调。这些LoRA层被添加到motion module的自注意力层中,使得模型能够学习到特定的新运动模式。

  3. 微调MotionLoRA层:只对这些新增的LoRA层进行训练,而不是整个motion module。这样做的好处是可以高效地学习新运动模式,同时保留原有的通用运动能力。

第三阶段的具体步骤

  1. 准备少量参考视频:收集20至50个具有特定运动模式的参考视频,例如想要实现缩放效果的视频。

  2. 数据增强:通过规则性的数据增强技术来生成更多具有所需运动模式的视频。例如,为了获得缩放效果的视频,可以通过逐步缩小(缩放)或放大(缩放)视频帧的裁剪区域来创建这种效果。

  3. 训练MotionLoRA层:在这些参考视频上训练MotionLoRA层。训练的时间通常较短,大约需要2000次迭代(大约1到2小时)。这使得用户能够在较低的成本下快速调整模型以适应特定的运动模式。

  4. 存储空间:训练好的MotionLoRA模型额外占用大约30MB的存储空间。这不仅使得模型易于分享,也降低了用户的成本负担。

结论

在第三阶段中,AnimateDiff通过MotionLoRA技术使得预训练的motion module能够高效地适应新的运动模式,同时保持了第二阶段训练得到的motion module权重固定不变。这样既保证了模型能够学习到通用的运动模式,又能够快速地针对特定需求进行调整。

http://www.yayakq.cn/news/330551/

相关文章:

  • 培训网站导航河南省住房和城乡建设厅官网查询
  • 网站做seo外链广州pc网站建设
  • 淘宝活动策划网站结婚证app制作软件
  • 做冷冻食品的网站将公司网站建设成
  • 表白网站制作系统源码企帮手logo设计官网
  • 做网站托管网站自然排名往后掉
  • 河南省建设厅网站建设领域涉黑旅游网站后台管理系统
  • 泰州网页网站制作天津做网站优化的公司
  • 建筑品牌网站做外贸的网站怎么建立
  • 网站建设达到什么水平建设银行网站开通查询密码
  • CMS源码就可以做网站吗深圳出国劳务公司官网
  • 网站开发的名称叫什么wordpress防止爆破
  • 简答网站内容建设的时候内链重要性wordpress 禁止更新提示
  • 在哪个网站可以做酒店预定单163网站视频动做
  • 各大网站收录提交入口网站建设基础与网页设计
  • 合肥大型网站设计公网站城市切换如何做
  • 订餐网站模板下载线框图网站
  • 布局网站开发网站怎么投放广告
  • 建设银行 网站用户广告软文营销平台
  • 社交网络服务网站家装装饰设计
  • 学做缝纫的网站网站建设与维护试卷分析
  • 如何进行网站运营与规划中国电力工程造价信息网
  • 广州比较好的网站设计wordpress 的论坛
  • 网站虚拟主机哪个好网站建设图片流程
  • 网站建设目标和功能介绍网站建设业务员怎么做
  • 织梦免费购物网站广州定制网站设计
  • 清浦网站建设怎样在电脑登录wordpress
  • 网站开发需要哪些岗位常见的网络广告
  • 东莞四网合一网站建设汽车网站 源码
  • 郑州网站建设的软件设计师培训学校有哪些