五莲网站设计,如何查询网站建设时间,展示型网站设计公司,网站标题是什么计算资源消耗 
计算资源的消耗分成: 
模型参数本身的存储。模型参数的梯度以及梯度momentum的存储。token的传播过程 
例如以llama3-7b为例: 
模型参数存储: 模型参数量 * fp32 例如llama3-70b为例,7 * 10^9 * 4 模型参数的梯度以…计算资源消耗
 
计算资源的消耗分成:
 
- 模型参数本身的存储。
 - 模型参数的梯度以及梯度momentum的存储。
 - token的传播过程
 
 
例如以llama3-7b为例:
 
- 模型参数存储: 模型参数量 * fp32 
- 例如llama3-70b为例,7 * 10^9 * 4
 
  - 模型参数的梯度以及momentum存储:模型参数量 * fp32 ; 模型参数量 * fp32
 - activition : 一个batch的token数量* embed维度 * 传播层数 * fp32