当前位置: 首页 > news >正文

电子商务网站分类合肥网站推广外包公司

电子商务网站分类,合肥网站推广外包公司,邢台公司做网站多少钱,巴南市政建设网站当模型参数越来越大的情况下,如果我们的GPU内存比较小,那么就没办法直接进行全参数微调,此时我们可以借助deepspeed来进行微调。 1、deepspeed的配置文件:deepspeed.json {"train_batch_size": 4,"train_micro_b…

当模型参数越来越大的情况下,如果我们的GPU内存比较小,那么就没办法直接进行全参数微调,此时我们可以借助deepspeed来进行微调。

1、deepspeed的配置文件:deepspeed.json

{"train_batch_size": 4,"train_micro_batch_size_per_gpu": 1,"zero_optimization": {"stage":1}
}

这里我们启动的ZeRO-1:优化器状态跨 GPU 分区

2、在TrainingArguments里面增加配置参数,来加载deepspeed的配置文件:

training_args = TrainingArguments(output_dir=output_dir, 
evaluation_strategy="steps", num_train_epochs=100,learning_rate=5e-6,
save_strategy="steps", greater_is_better=True, metric_for_best_model="precision",
per_device_train_batch_size=1,per_device_eval_batch_size=1,
load_best_model_at_end=True,local_rank=0,save_total_limit=10,deepspeed="deepspeed.json"
)

3、利用deepspeed的命令来启动训练:

nohup deepspeed train.py > logd.txt 2>&1 &

当前我们利用44G的GPU全参微调了Qwen2.5-3B的模型

http://www.yayakq.cn/news/597307/

相关文章:

  • 景区旅游网站平台建设wordpress 百度推广
  • 婚嫁网站模板卖摄影作品的网站
  • 益阳学校网站建设财经类 直播类网站开发
  • 怎么做百度快照让网站排前面成都最好的seo外包
  • 旅游网站效果图快手app下载安装免费下载
  • 做网站实训目的和意义漯河网站建设
  • 不懂技术与产品怎样做网站淘宝店铺怎么推广
  • 来广营做网站360建筑网发布的简历
  • 网站留言效果怎么做学校网站建设分工
  • 岐山县住房和城市建设局网站免费网页转app
  • 企业网站总承包建设模式关键步骤优秀网站设计案例
  • 网站怎么做架构网站的发展趋势
  • 网站优化排名工具云服务器配置
  • 牛商网 做的p2p网站吉林智能网站建设找哪家
  • 龙岗网站建设过程代理公司注册有什么猫腻
  • 网站seo方案案例网站地图生成软件
  • 自己做的网站打开速度慢WordPress管理app
  • html5和ria网站设计wordpress 移动端双模板
  • 多少企业需要网站建设asp如何做网站
  • 扬州整站seo找别人做网站需要注意什么
  • 做电影网站选择什么配置的服务器wordpress搜索内容
  • 做网站运维应该看的书引流推广话术文案
  • 黄骅市网站建设价格平台代理商
  • 网站开发学些什么软件腾讯官方网站建设
  • 广州建设企业网站机械加工网名大全
  • 网站建设行内资讯我注册过的网站
  • 淘宝客网站搭建营销咨询
  • 导航滑动整屏网站百度收录时间
  • 莱城高新区建设局网站九冶建设有限公司官方网站
  • 如何在网站后台找到死链接怎么做网页挣钱