乌审旗建设局网站普洱北京网站建设
0. 资源链接
-  
论文: https://arxiv.org/pdf/2403.03853
 -  
项目代码: 待开源
 
1. 背景动机
现有的大语言模型 LLM 推理存在以下问题:
-  
LLM 模型因为 scale law 极大的提高模型的预测能力,但是同样带来较大的推理延时;对于 LLM 应用部署带来较大的挑战。
 -  
目前的大模型加速的方法主要分为量化和压缩两种,目前量化和压缩一般需要训练以恢复模型精度,尤其量化较低比特时。
 
2. 内容提要
-  
通过分析大模型存在的冗余性,发现在模型深度的维度存在大量的冗余;可以通过简单的去除冗余层来加速。
 -  
本文提出了一个 BI score 的指标来表征层的重要性,基于 BI score,本文提出一个简单的深度剪枝方法。
 -  

 
3. 技术细节
-  
BI score 计算公式:
 
-  

 -  
层冗余分析:
 -  

 
-  

 -  
Layer 剪枝
-  
基于 BI score 排序,减去 BI score 小的层。
 
 -  
 
4. 实验分析

5. 一些思考
-  
ShortGPT 给大模型剪枝提供了一个新视角,对后续的剪枝算法有较大启发。
 -  
ShortGPT 目前还比较简单,后续应该会有更多的工作出现,优化当前的方案。
 
