高明网站建设报价,wordpress上传图片x,第二次使用wordpress,网站怎么做图片动态图片大全计算资源消耗
计算资源的消耗分成:
模型参数本身的存储。模型参数的梯度以及梯度momentum的存储。token的传播过程
例如以llama3-7b为例:
模型参数存储: 模型参数量 * fp32 例如llama3-70b为例,7 * 10^9 * 4 模型参数的梯度以…计算资源消耗
计算资源的消耗分成:
- 模型参数本身的存储。
- 模型参数的梯度以及梯度momentum的存储。
- token的传播过程
例如以llama3-7b为例:
- 模型参数存储: 模型参数量 * fp32
- 例如llama3-70b为例,7 * 10^9 * 4
- 模型参数的梯度以及momentum存储:模型参数量 * fp32 ; 模型参数量 * fp32
- activition : 一个batch的token数量* embed维度 * 传播层数 * fp32