购物网站开发和运行环境重庆seo推广外包
LLM加速方法
目录
- LLM加速方法
 - 整体结构
 - 各分支内容
 
- Adapter Tuning和Prompt Tuning的区别及原理举例
 - 一、区别
 - 二、总结
 
整体结构
基于模型微调、基于模型压缩、基于分布式并行处理。
各分支内容
- 基于模型微调: 
- 包含Adapter Tuning、Prompt Tuning、LoRA三个子类别。这些技术主要通过对模型进行微调来优化传输,
 - 例如Adapter Tuning是在模型中添加一些小的适配模块,
 - Prompt Tuning是通过调整提示信息来优化模型,
 - LoRA则是一种低秩适配方法,以减少模型训练和传输的参数量。
 
 - 基于模型压缩: 
- 又细分为剪枝、知识蒸馏、量化、低秩分解。剪枝是指去除模型中一些不重要的连接或参数,以减小模型规模;
 - 知识蒸馏是让一个小模型去学习大模型的知识,从而在保持性能的同时降低模型复杂度;
 - 量化是将模型的参数用更低精度的数据表示,减少数据量;
 - 低秩分解则是将模型的参数矩阵进行分解,降低计算和存储成本。
 
 - 基于分布式并行处理: <
 
