当前位置: 首页 > news >正文

装修建材网站青岛外贸网站设计

装修建材网站,青岛外贸网站设计,wordpress 手机发文章,杭州设计公司装修Parameter-Efficient Fine-Tuning (PEFT) :节约开销的做法,fine-tune少量参数,而不是整个模型; Low-Rank Adaptation (LoRA) :是PEFT的一种;冻结原参数矩阵,只更新2个小参数矩阵。 原文经过对比…

Parameter-Efficient Fine-Tuning (PEFT) :节约开销的做法,fine-tune少量参数,而不是整个模型;

Low-Rank Adaptation (LoRA) :是PEFT的一种;冻结原参数矩阵,只更新2个小参数矩阵。

原文经过对比实验,得出结论,在4个attention矩阵上都用LoRA,效果最好。

过参数化:

现在深度学习的参数动不动就有几百万,LLM的参数更是数十亿起步。许多工作[2]已经表明,深度学习的矩阵往往是过参数化的(over-parametrized)。特征的内在维度(intrinsic dimension)指的是在深度学习中的真实或潜在的低维结构或信息的维度。它表示特征中存在的有效信息的维度,与特征的实际维度可能不同。事实上许多问题的内在维度比人们认为的要小的多,而对于某个数据集,内在维度在不同参数量级的模型上差距并不大。这个内在维度指的是我们解决这个问题实际上需要的参数空间的维度,我们对模型的微调通常调整的也是这些低秩的内在维度。这个结论说明了两个现象:

  1. 一旦我们找到了足够解决问题的参数空间,再增加这个参数空间的大小并不会显著提升模型的性能。
  2. 一个过参数的模型的参数空间是有压缩的空间的,这也就是LoRA的提出动机

在初始化时, A 使用高斯初始化, 使用的零矩阵 进行的初始化。因为 r通常是一个非常小的值(实验证明1,2,4,8的效果就非常好),所以LoRA在训练时引入的参数量是非常小的,因此它的训练也是非常高效的,也不会带来显著的显存增加。

LoRA要求 A 或者 B其中之一必须使用零矩阵进行初始化,这样当数据第一次通过网络时,它和预训练的结果是一致的,这样便保证了模型在初始阶段便有一个不错的效果。

我们先思考两个问题:为何用数千的样本就能将一个数十亿参数的模型微调得比较好?为何大模型表现出很好的few-shot能力?
Aghajanyan的研究表明:预训练模型拥有极小的内在维度(instrisic dimension),即存在一个极低维度的参数,微调它和在全参数空间中微调能起到相同的效果
同时Aghajanyan发现在预训练后,越大的模型有越小的内在维度,这也解释了为何大模型都拥有很好的few-shot能力。

分析:

https://zhuanlan.zhihu.com/p/702629428

计算量并没有减少;

训练数据需求量减少,收敛加快:因为需要更新的参数量减少了很多;

显存量减少:原始训练,大约存储4*W的量(W+Gradient+α+β);用了LoRA,因为不更新原始大W了,后三者省掉,变成了1*W的量。

如上图,70B模型,Full&FP16时,是600GB显存,约等于70B*4*2Bytes=560GB;(Activation还得保存);LoRA时,是160GB,约等于70B*2Bytes=140GB;

代码的视频讲解:lora源码解读_哔哩哔哩_bilibili

初始化:

"self.weight.requires_grad = False": 冻结原始W大矩阵,不参与参数更新;

对应参数:

attention里的W,FFN里的W,在Lora训练里,都是被冻结的!)

综上,计算量并没有减少!

QLoRA:

(11 封私信 / 80 条消息) QLoRA - 搜索结果 - 知乎

非均匀量化

http://www.yayakq.cn/news/286946/

相关文章:

  • 怎样做自己的网站钻钱做网站工作描述
  • 长沙市做网站公司排名织梦笑话网站
  • ps网站设计怎么做wordpress 望远镜销售
  • 找人做的网站 没登录口wordpress 显示阅读数
  • 门店装修设计免费发seo外链平台
  • 网站建设管理经验网站建设报价ppt模版
  • 个人网站电商怎么做wordpress 侧边悬浮块
  • 官方网站建设专家磐石网络wordpress导入页面
  • 如何做网站弹窗广告南昌地宝网官网
  • 有哪些做二手的网站wordpress 分类插件
  • 手机网站友情链接怎么做wordpress主题xiu
  • 网站html静态化解决方案网站建设制作公司哪家
  • 可做外贸的网站有哪些wordpress邮件功能
  • 烟台软件优化网站建设厦门网站制作软件
  • dede小说网站模板wordpress 简单企业主题下载地址
  • 什么网站可以找人做软件网站建设和维护采购协议
  • 江西网站建设与推广贵阳网站建设哪家便宜
  • 五莲网站建设报价河南做网站公司哪家专业
  • 建立网站的要素单页设计风格
  • 企业做网站400电话作用郑州市建设厅官方网站
  • 制作一个网站的费用是多少钱长春网站制作公司哪个好
  • 做360手机网站快速最有前景的十大行业
  • 天津最好网站建设公司网站建设的公司哪家便宜
  • 网站 搭建 亚洲服务器域名已有服务器也有怎么做网站
  • 电子商务静态网站建设实验报告广州番禺网
  • 建一个动物网站怎么做俄罗斯网站模版
  • 建设网站增城wordpress页眉语言
  • 西安网站 技术支持牛商网景德镇网站建设
  • 在线网站seo诊断用ppt做网站
  • 淘宝网站开发语言平躺设计家官网