当前位置: 首页 > news >正文

厦门做企业网站支付公司网站建设费怎么入账

厦门做企业网站,支付公司网站建设费怎么入账,网站用哪些系统做的比较好,建站系统平台浅谈人工智能之Llama3微调后使用cmmlu评估 引言 随着自然语言处理(NLP)技术的发展,各类语言模型如雨后春笋般涌现。其中,Llama3作为一个创新的深度学习模型,已经在多个NLP任务中展示了其强大的能力。然而&#xff0c…

浅谈人工智能之Llama3微调后使用cmmlu评估

引言

随着自然语言处理(NLP)技术的发展,各类语言模型如雨后春笋般涌现。其中,Llama3作为一个创新的深度学习模型,已经在多个NLP任务中展示了其强大的能力。然而,仅仅使用预训练模型往往无法满足特定应用的需求,因此微调成为了提升模型表现的重要步骤。本文将集中讨论Llama3模型在微调后的推理和评估过程
在之前文章中我们已经介绍了如何使用LLaMA-Factory工具进行模型微调和推理,本文介绍如何在微调以后对模型进行评估

评估阶段

模型的评估是验证微调效果的重要步骤。评估通常采用以下方法:

  1. 性能指标:根据任务类型,选择适合的评估指标。例如,对于分类任务,可以使用准确率、精确率、召回率和F1-score;而对于生成任务,则可以使用BLEU、ROUGE等指标。
  2. 验证集与测试集:在微调过程中,通常会划分出验证集来监控模型的表现,最终评估则应在未见过的测试集上进行,以评估模型的泛化能力。
  3. 错误分析:在评估过程中,分析模型的错误输出,以识别潜在的问题和改进方向。
  4. 用户反馈:在实际应用中,从用户那里获取反馈,进一步评估模型的实用性和准确性。
    当前我们可以使用cmmlu进行微调后的模型评估。

CMMLU介绍

CMMLU是针对中国的语言和文化背景设计的评测集,用来评估LLM的知识蕴含和推理能力。该评测集跨多个学科,由67个主题组成。其中大多数任务的答案都是专门针对中国的文化背景设计,不适用于其它国家的语言。如下图所示,除了涵盖人文科学、社会科学、STEM(科学、技术、工程和数学)以及其他在人类日常生活中很重要的四个通用领域的知识外,还涵盖一些特定领域的知识,用于验证模型的中国知识的蕴含能力以及对中文的理解和适应能力。

模型评估

第一步:进入llama_factory虚拟环境,若已经进入请忽略

conda activate llama_factory

第二步:然后进入/mnt/workspace/LLaMA-Factory/examples/train_lora路径

cd /mnt/workspace/LLaMA-Factory/examples/train_lora

第三步:我们可以看到在该目录下有文件llama3_lora_eval.yaml,我们打开文件内容,并且把文件内容修改成如下内容

### model
model_name_or_path: /mnt/workspace/models/Meta-Llama-3-8B-Instruct
adapter_name_or_path: /mnt/workspace/models/llama3-lora-zh### method
finetuning_type: lora### dataset
task: cmmlu_test  # choices: [mmlu_test, ceval_validation, cmmlu_test]
template: fewshot
lang: en
n_shot: 5### output
save_dir: saves/llama3-8b/lora/eval_cmmlu### eval
batch_size: 1

第四步:我们回到/mnt/workspace/LLaMA-Factory路径

cd /mnt/workspace/LLaMA-Factory

第五步:我们执行如下命令

llamafactory-cli eval examples/train_lora/llama3_lora_eval.yaml

第六步:我们可以看到模型微调后的模型已经开始评估

Generating test split: 179 examples [00:00, 13736.47 examples/s] | 12/67 [04:35<26:02, 28.41s/it, 中国文学]
Generating train split: 5 examples [00:00, 1315.82 examples/s]
Generating test split: 106 examples [00:00, 11332.20 examples/s] | 13/67 [05:01<24:56, 27.71s/it, 中国教师资格]
Generating train split: 5 examples [00:00, 825.29 examples/s]
Generating test split: 107 examples [00:00, 11506.56 examples/s] | 14/67 [05:19<21:59, 24.90s/it, 大学精算学]
Generating train split: 5 examples [00:00, 1331.61 examples/s]
Generating test split: 106 examples [00:00, 11195.51 examples/s] | 15/67 [05:33<18:31, 21.38s/it, 大学教育学]
Generating train split: 5 examples [00:00, 1258.64 examples/s]
Generating test split: 108 examples [00:00, 11522.52 examples/s] | 16/67 [05:46<16:02, 18.87s/it, 大学工程水文学]
Generating train split: 5 examples [00:00, 1374.28 examples/s]
Generating test split: 105 examples [00:00, 10783.59 examples/s] | 17/67 [06:02<15:01, 18.03s/it, 大学法律]
Generating train split: 5 examples [00:00, 959.49 examples/s]
Generating test split: 106 examples [00:00, 11444.80 examples/s] | 18/67 [06:20<14:40, 17.98s/it, 大学数学]
Generating train split: 5 examples [00:00, 1384.17 examples/s]
Generating test split: 237 examples [00:00, 14848.76 examples/s] | 19/67 [06:34<13:25, 16.78s/it, 大学医学统计]

第七步:评估的时间会比较久,这里笔者用了差不多半个小时,评估分数结果如下

        Average: 47.70                                      STEM: 41.05
Social Sciences: 49.23Humanities: 47.61Other: 51.65

至此分数评估结束。

http://www.yayakq.cn/news/459228/

相关文章:

  • 江苏省住房和城乡建设厅 官方网站电影项目做产品众筹哪个网站好
  • 杭州置地电商基地网站建设python基础知识
  • 桂林做旅游网站失败的网站全球网站排行
  • 腾云网站建设怎么样aso排名
  • 东明网站建设中国软件公司排名100强
  • mysql数据库建设网站德兴网站建设公司
  • 网站建设基本流程价格网站建设趋势
  • 学校网站建设需要多少钱手机端网站seo
  • 蓬莱做网站哪家好上海网站开发哪家好
  • 如何做网站的图片滑动块建设一个网站的支出
  • 婚嫁网站设计wordpress怎样添加备案
  • 网站开发体会范文石狮市住房和城乡建设局网站
  • 黄页网站大全通俗易懂9元建站节
  • 浙江省住房和城乡建设厅 官方网站wordpress汉化插件库
  • 如何建wap网站wordpress 导航网站
  • 料远若近网站建设网站开发数据共享
  • 选择网站建设公司好室内设计主要是干什么的
  • 网站建设技术人员工作总结如何查看网站在哪里做的
  • 网站建设阐述网站建设从入门到精通
  • 自己做的商业网站在那里发布建立网站大概需要多少钱
  • 怎么看网站被降权遵义相亲平台
  • 个人网站怎么做有创意网站建设工作讲话
  • 南阳网站排名优化公司莱芜住房和城乡建设部网站
  • 整站seo优化公司代理加速器
  • 外贸品牌网站设计公司手机网站怎么做的好
  • 南阳网站推广优化公司哪家好如何做一个电商
  • 网站方案制作的培训苏州app推广团队
  • 广州企业模板建站手机 网站 翻页 外部
  • 大气企业网站源码php成都甲壳虫品牌设计公司
  • 做移动端网站设计设计师之家官网首页