当前位置: 首页 > news >正文

网站假设公司排名网站关键词排名

网站假设公司排名,网站关键词排名,wordpress网站标题自定义,啊里云服务器怎么做网站前言:vllm是一个大语言模型高速推理框架,旨在提高大模型的服务效率。优势是内存管理,实现的核心是pageattetion算法。仅在gpu上加速,不在cpu加速。 目录 1. PageAttention2. 实践2.1 安装2.2 离线推理2.3 适配OpenAI的api 1. Page…

前言:vllm是一个大语言模型高速推理框架,旨在提高大模型的服务效率。优势是内存管理,实现的核心是pageattetion算法。仅在gpu上加速,不在cpu加速。

目录

  • 1. PageAttention
  • 2. 实践
    • 2.1 安装
    • 2.2 离线推理
    • 2.3 适配OpenAI的api

1. PageAttention

  • 核心思想:将每个序列的KV cache(键值缓存)分块处理,每块包含固定数量的token。
  • 灵感来源:操作系统中的虚拟内存和分页管理技术,旨在动态地为请求分配KV cache显存,提升显存利用率
  • 评估结果:vLLM可以将常用的LLM吞吐量提高了2-4倍

2. 实践

2.1 安装

 pip install vllm

2.2 离线推理

示例一

from vllm import llmllm = LLM("facebook/opt-13b", tensor_parallel_size=4)
output = llm.generate("San Franciso is a")

示例二

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams# Initialize the tokenizer
tokenizer = AutoTokenizer.from_pretrained("/data/weisx/model/Qwen1.5-4B-Chat")# Pass the default decoding hyperparameters of Qwen1.5-4B-Chat
# max_tokens is for the maximum length for generation.
sampling_params = SamplingParams(temperature=0.7, top_p=0.8, repetition_penalty=1.05, max_tokens=512)# Input the model name or path. Can be GPTQ or AWQ models.
llm = LLM(model="Qwen/l/Qwen1.5-4B-Chat", trust_remote_code=True)# Prepare your prompts
prompt = "Tell me something about large language models."
messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True
)# generate outputs
outputs = llm.generate([text], sampling_params)# Print the outputs.
for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
  • SamplingParams:在VLLM模型中主要负责调整采样过程。采样是在模型生成文本或其他类型输出时的一个关键步骤,它决定了模型如何从可能的输出中选择一个。
  • LLM的参数model是模型名,还可以输入其他大语言模型,但要注意不是所有的llm都被vllm支持。
  • message中定义了系统的角色内容以及用户的角色内容

2.3 适配OpenAI的api

a. 命令行输入

python -m vllm.entrypoints.openai.api_server --model your_model_path --trust-remote-code

默认监听 8000 端口,–host 和–port 参数可以指定主机和端口。
b. 使用curl与Qwen对接(命令行)

curl http://localhost:8000/generate \-d '{"prompt": "San Francisco is a","use_beam_search": true,"n": 4,"temperature": 0}'
  • http://localhost:8000/generate是访问的http地址,也就是客户端地址
  • -d后面跟的是参数,可以根据需求配置不同的参数

c. 使用python和Qwen对接

from openai import OpenAI
# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,
)chat_response = client.chat.completions.create(model="Qwen/Qwen1.5-4B-Chat",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Tell me something about large language models."},]
)
print("Chat response:", chat_response)
http://www.yayakq.cn/news/46365/

相关文章:

  • 网站 设计 语言有没有做武棍的网站
  • 微网站和h5有什么区别专门做产品测评的网站
  • ks免费刷粉网站推广低价沧州哪里做网站
  • 和一起做网店类似的网站有限公司破产后债务谁承担
  • 东莞企业网站排名柳州网站建设哪家
  • 网站建设布局样式微信公众号登录怎么退出
  • 张家界网站建设公司京东上怎样做网站
  • 网站建设淘宝公司网站服务费计入什么科目
  • 备案 网站建设方案书设计师图库网站
  • 手机网站下拉菜单代码wordpress自定义404页面
  • 中英文企业网站php源码网站建设与代运营产品介绍
  • 2008iis7怎么搭建网站专业网络营销外包公司
  • 建设校园门户网站理由深圳东莞的网站建设公司
  • 东莞定制网站建设爱情表白制作网页的网站
  • 深圳建设 骏域网站建设专家小辉seo
  • 外链网站推荐东道设计招聘
  • 换网站后台深圳罗湖医疗集团网站建设
  • 音响网站模板网 页
  • ps常用素材网站有哪些j2ee只做网站
  • html5门户网站模版一个做音乐的网站
  • 成都附近旅游景区哪里好玩云南效果好的网站优化
  • 西宁网站建设索王道下拉品牌整合营销传播
  • 做淘宝客网站需要多大空间建站模板建网站
  • 广州微信网站建设价格做动态图片下载哪个网站好
  • 建一个小型的购物网站服务器一年要多少钱微信公众号影视网站怎么做
  • 广州网站建设如何做wordpress 添加文章格式
  • 网站开发要多久网站建设硬件开支
  • 深圳好的网站建网站做seo优化有什么优势
  • 英文网站的建设意义做外贸怎么找客户
  • 西安网站建设推广优化wordpress作用