当前位置: 首页 > news >正文

信息网站推广深圳企业排行榜

信息网站推广,深圳企业排行榜,wordpress实现注册登陆,商城网站建设服务哪家好如何利用硬件 这个单元分为内核、并行处理和推理。 内核(Kernels) 我们说的内核一般指的就是GPU,这是我们用于计算的地方,一般说的计算资源就指的是GPU的大小。我们模型所用的数据和参数一般存储在内存里,假设把内存…

如何利用硬件

这个单元分为内核、并行处理和推理。

内核(Kernels)

我们说的内核一般指的就是GPU,这是我们用于计算的地方,一般说的计算资源就指的是GPU的大小。我们模型所用的数据和参数一般存储在内存里,假设把内存比喻为仓库,GPU比喻为工厂,那么我们所要做的就是最大限度提高数据在仓库和工厂之间运输的效率,像我们常说的矩阵乘法、融合或分块等算法都是在减少数据运输的成本。

并行处理(parallelism)

就如字面意思一样,多个GPU连接着一个个CPU,彼此并行传输数据,我们需要思考如何防止模型参数、激活值(模型在处理输入数据时,每一层神经网络的中间输出结果。这些值反映了模型在特定层对输入信息的非线性变换结果,是模型理解和生成文本的关键中间状态)或梯度来提高运输效率,与内核的本质是一样的,只是这个的关键在于并行链接的处理方式。

推理(inference)

推理指的是我们实际使用模型的方式,指的是在给定提示的情况下完成生成提示词的任务。推理的成本比训练模型的成本大得多,后者是一次性成本,而前者伴随着模型使用者的增多,需要不断地提高推理的高效,这就需要不断地投入成本。推理分为两个阶段:预填充和解码。预填充阶段,模型会根据提示词,运行得到一些激活值,然后在解码阶段自回归地生成一个个词元(token)。在推理中,比较困难的就是解码阶段,因为是一次生成一个token,这很难让我们的并行处理的GPU进行饱和式的运行,在这里会浪费一些资源,同时由于不断地移动数据,进一步地放大这种损失。当然,我们可以选择一些快速推理模型来降低1成本浪费,比如推理型解码,通过预设一些tokens,假设这些是我们需要的或通过评分认为这些是好的,就全部接受,从而省去了生成一部分token所花费的资源。

在构建这些部分的过程中,我们要养成总是进行基准测试和性能分析的习惯。因为在过程中我们可以写想要实现的任何一个功能,但我们需要反馈来确定进展在哪个阶段以及定位瓶颈,也就是上限在哪里,以便我们确认我们构筑的方向是对的以及处理好一些细节来提高上限。

缩放法则(scaling laws)

之前我们说到过理想情况是在小规模上做实验并弄清楚问题,然后预测大模型下的超参数和损失。这里会引出一个基本问题,假设给出一个浮点运算预算,应该用多大的模型。如果使用更大的模型,就意味着可以在更少的数据上训练,相反则是可以在更多的数据上训练。那么该如何找到这里的平衡点呢?我们一般会根据一个经验法则去判断:假定有一个大小为n的模型,那么将n乘以20,得到的结果就是我们要训练的token的数量。当然这里指的是如何训练出最佳的模型,而不是最划算的模型,是忽略了模型的推理成本的。

数据

即使我们做好了架构,调试好了参数,但模型会用于做什么还是取决于我们输入的数据。如果是多语言数据,那么训练出的就是多语言模型,输入的是代码数据,训练出的就是代码模型。那么我们该如何评估模型的能力呢。这就需要用到困惑度指标、标准化测试、跟随回复以及其他的一些包括评估整个模型的方法。

讨论完了评估,我们继续回溯,就到了如何筛选要训练的数据了。毕竟我们平时练习用到的数据,很多都是别人处理好的,不管是在网站爬取的统计数据,还是网页上的文本,都是需要进行大量的细节操作来进行筛选的,以确保数据尽可能多保留我们想要的信息的前提下(一般会用到分类器来过滤掉垃圾信息,以及用去重来保证信息的唯一性,不让模型重复识别某类信息),更好地被模型识别。

在经历了这么多步骤后,我们就得到了一个可以预测下一个token的基础模型。我们会通过对齐(通过技术手段使得模型的输出是符合我们期望的)的操作来满足三件事:让语言模型的能够跟随指令去生成对应的token;确定模型的风格;模型能够拒绝回答一些性质是有害的问题。对其一般分为两个阶段,一个是监督微调,通过少数的数据(一般在一千个就可以让模型可以跟随指令了)来达成好的学习效果,另一个是让模型去学习偏好的数据。即给定问题让模型去回答,并让用户给回答打分,从而得到偏好数据让模型去学习。最后是在这些数据的基础上,应用算法,让模型进行真正的训练以拥有对应的功能。

学习来源于B站教程:【斯坦福大学 • CS336】从零开始构建语言模型 | 2025 年春季_哔哩哔哩_bilibili

http://www.yayakq.cn/news/79059/

相关文章:

  • 1 童装网站建设目标外贸做网站
  • 郑州网站优化推广方案湛江麻章区
  • 设计师网站崩了南京做网站的客户电话
  • 盐城网站建设培训班wordpress 别名 自动
  • 去哪找网站建设公司好wordpress怎么实现注册登录
  • 网站域名备案流程淘掌门官方网站
  • 包装设计网站素材wordpress 文章分类id
  • 网站的优点和缺点哪里有营销型网站
  • 聊城网站空间公司网站建设公司怎么选
  • 长沙seo网站建设费用50个优秀网站
  • 百姓网网站建设苏州建设网站的公司
  • 两学一做网站源码一 网站建设管理基本情况
  • wordpress整站手机端重庆网址大全
  • 南京网站建设知识wordpress 远程ftp
  • 上海网站建设价位淘宝客做动态广告的网站
  • 全面的网站建设企业网站布局960
  • 山东建设银行招聘网站怎么改wordpress的html5
  • 商丘建设网站大气企业网站模板
  • as.net 网站开发视频教程wordpress默认邮件文件夹
  • 义乌外贸公司建站进入公众号继续阅读下一章
  • 沥林网站建设马甲比较好自己搭建app托管平台
  • 网站开发转移合同百度seo排名优化软件
  • 免费网站推广服务做企业网站的意义
  • 国外h5分享网站云彩网站
  • 个人门户网站模板下载织梦网站程序安装
  • 17一起广州做网站wordpress删除文章数据库
  • 建设各网站需要多久培训体系包括四大体系
  • 房地产行业网站建设报价方案如何设计制作一般企业网站
  • 做公司网站需要会什么科目长春朝阳学校网站建设
  • 外贸网站商城施工企业的项目负责人应当对( )负责