当前位置: 首页 > news >正文

泉州网站建设qzdzi建电影网站赚钱挣钱吗

泉州网站建设qzdzi,建电影网站赚钱挣钱吗,公众号开发一般收费,深圳十大甲级装饰公司0. 前言 llama.cpp是一个基于纯C/C实现的高性能大语言模型推理引擎,专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术,实现在多样化硬件平台上的高效推理,同时保持低资源占用与易用性。 最近DeepSeek太火了&#x…

0. 前言

llama.cpp是一个基于纯C/C++实现的高性能大语言模型推理引擎,专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术,实现在多样化硬件平台上的高效推理,同时保持低资源占用与易用性。

最近DeepSeek太火了,就想用llama.cpp在本地部署一下试试效果,当然在个人电脑上部署满血版那是不可能的,选个小点的蒸馏模型玩一玩就好了。

1. 编译llama.cpp

首先从Github上下载llama.cpp的源码:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

llama.cpp支持多种硬件平台,可根据实际的硬件配置情况选择合适的编译参数进行编译,具体可以参考文档docs/build.md

编译CPU版本

cmake -B build
cmake --build build --config Release -j 8

编译GPU版本

编译英伟达GPU版本需要先装好驱动和CUDA,然后执行下面的命令进行编译

cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_ENABLE_UNIFIED_MEMORY=1
cmake --build build --config Release -j 8

编译完成后,可执行文件和库文件被存放在build/bin目录下。

2. 模型转换与量化

本文以DeepSeek R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例进行介绍。

2.1 模型下载与转换

首先从魔搭社区下载模型:

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir DeepSeek-R1-Distill-Qwen-7B

下载好的模型是以HuggingFacesafetensors格式存放的,而llama.cpp使用的是GGUF格式,因此需要先要把模型转换为GGUF格式:

# 安装python依赖库
pip install -r requirements.txt
# 转换模型
python convert_hf_to_gguf.py DeepSeek-R1-Distill-Qwen-7B/

转换成功后,在该目录下会生成一个FP16精度、GGUF格式的模型文件DeepSeek-R1-Distill-Qwen-7B-F16.gguf

2.2 模型量化

FP16精度的模型跑起来可能会有点慢,我们可以对模型进行量化以提升推理速度。

llama.cpp主要采用了分块量化(Block-wise Quantization)和K-Quantization算法来实现模型压缩与加速,其核心策略包括以下关键技术:

  1. 分块量化(Block-wise Quantization)
    该方法将权重矩阵划分为固定大小的子块(如3264元素为一组),每个子块独立进行量化。通过为每个子块分配独立的缩放因子(Scale)和零点(Zero Point),有效减少量化误差。例如,Q4_K_M表示每个权重用4比特存储,且子块内采用动态范围调整。

  2. K-Quantization(混合精度量化)
    在子块内部进一步划分更小的单元(称为“超块”),根据数值分布动态选择量化参数。例如,Q4_K_M将超块拆分为多个子单元,每个子单元使用不同位数的缩放因子(如6bit的缩放因子和4bit的量化值),通过混合精度平衡精度与压缩率。

  3. 重要性矩阵(Imatrix)优化
    通过分析模型推理过程中各层激活值的重要性,动态调整量化策略。高重要性区域保留更高精度(如FP16),低重要性区域采用激进量化(如Q2_K),从而在整体模型性能损失可控的前提下实现高效压缩。

  4. 量化类型分级策略
    提供Q2_KQ8_K等多种量化级别,其中字母后缀(如_M_S)表示优化级别:

    • Q4_K_M:中等优化级别,平衡推理速度与精度(常用推荐)。
    • Q5_K_S:轻量化级别,侧重减少内存占用

    典型场景下,Q4_K_M相比FP16模型可减少70%内存占用,推理速度提升2-3倍,同时保持95%以上的原始模型精度。实际部署时需根据硬件资源(如GPU显存容量)和任务需求(如生成文本长度)选择量化策略。

执行下面的命令可将FP16精度的模型采用Q4_K_M的量化策略进行量化:

./build/bin/llama-quantize DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-F16.gguf DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf Q4_K_M

量化完成后,模型文件由15.2G减少到4.7G

3. 运行模型

模型量化完后,我们就可以运行模型来试试效果了。llama.cpp提供了多种运行模型的方式:

命令行方式

执行下面的命令就可以在命令行与模型进行对话了:

./build/bin/llama-cli -m DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf -cnv

HTTP Server方式

由于模型是以Markdown格式输出内容,因此用命令行的方式看着不太方便。llama.cpp还提供HTTP Server的方式运行,交互性要好很多。

首先在终端执行命令

./build/bin/llama-server -m DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf --port 8088

然后打开浏览器,输入地址http://127.0.0.1:8088就可以在网页上与模型进行交互了,非常方便!

http://www.yayakq.cn/news/161313/

相关文章:

  • 免费可商用的素材网站做电子请帖网站有哪些
  • 潮动九州网站建设网络营销工具及其特点
  • 网站建设策划书提纲有趣的网站官网
  • 网站建设与维护中国出版社小说阅读网站开发源码
  • 做移动端网站软件系统优化大师官方下载
  • 网站开发需要的学历wordpress怎么固定导航栏
  • 成都网站建设网络公司各种资源都有的搜索引擎
  • 网站备案 新闻审批号wordpress的登录页面模板
  • 网站开发实战wordpress降低数据库查询时间
  • 网站模版 百度云网站备案 接入商名称
  • 网站seo入门企业网站制作公司盈利
  • 网站优化搜索网站运营一般做那些分析
  • dw可以做网站吗国家林业建设工程协会网站
  • 重庆大足网站制作公司哪家专业天津塘沽爆炸
  • 做竞猜网站犯法吗中国icp备案网站
  • 怎么做网站策划中国网新山东
  • 常德政务网站阿里云的虚拟主机用什么做网站
  • 什么做网站的公司好高大上网站
  • 潍坊做电商的网站wordpress分享有图片
  • 网站建设咨询哪家性价比高网站建设费用详细表
  • 合理规划网站结构wordpress 小米商城模板
  • 网站开发工具教程免费网站app下载
  • 中小学网站建站模板石家庄抖音推广公司
  • 外发加工网站网站后台网址后缀
  • 如何实现网站开发手机验证码租用大型服务器多少钱
  • 唐山建网站网页开发外包
  • 做类似返利网的网站有哪些wordpress后台不能拖动
  • 冠辰网站马蹄室内设计官网
  • 泰州快速建站模板免费的ppt模板下载网站有哪些
  • wordpress英文仿站wordpress网站图片丢失