当前位置: 首页 > news >正文

网站开发排期表模板在线设计房屋效果图

网站开发排期表模板,在线设计房屋效果图,网站优化总结,个人网站设计及实现论文文章目录 一、模型介绍二、预期用途1. 视觉问答(VQA)与视觉推理2. 文档视觉问答(DocVQA)3. 图像字幕4. 图像-文本检索5. 视觉接地 三、本地部署1. 下载模型2. 模型大小3. 运行代码 四、ollama部署1. 安装ollama2. 安装 Llama 3.2 Vision 模型3. 运行 Llama 3.2-Vision 五、效果…

文章目录

  • 一、模型介绍
  • 二、预期用途
    • 1. 视觉问答(VQA)与视觉推理
    • 2. 文档视觉问答(DocVQA)
    • 3. 图像字幕
    • 4. 图像-文本检索
    • 5. 视觉接地
  • 三、本地部署
    • 1. 下载模型
    • 2. 模型大小
    • 3. 运行代码
  • 四、ollama部署
    • 1. 安装ollama
    • 2. 安装 Llama 3.2 Vision 模型
    • 3. 运行 Llama 3.2-Vision
  • 五、效果展示

一、模型介绍

Llama 3.2-Vision 是一系列多模态大语言模型(LLM),包括预训练和指令调优的图像推理生成模型大小分别为11B和90B(输入为文本+图像/输出为文本)。Lama 3.2-Vision 指令调优模型针对视觉识别、图像推理、字幕生成以及回答关于图像的一般问题进行了优化。这些模型在常见的行业基准测试中表现优于许多可用的开源和闭源多模态模型,
模型开发者: Meta
模型架构: Llama 3.2-Vision 基于 Lama 3.1 文本模型构建,后者是一个使用优化的Transformer架构的自回归语言模型。调优版本使用有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。为了支持图像识别任务,Llama 3.2-Vision 模型使用了单独训练的视觉适配器,该适配器与预训练的 Llama 3.1 语言模型集成。适配器由一系列交叉注意力层组成,将图像编码器表示传递给核心LLM。
支持的语言:对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama3.2的训练数据集包含了比这八种语言更广泛的语言。注意,对于图像+文本应用,仅支持英语。
开发者可以在遵守 Llama 3.2 社区许可证和可接受使用政策的前提下,对 Lama 3.2 模型进行其他语言的微调。开发者始终应确保其部署,包括涉及额外语言的部署,是安全且负责任的。
模型发布日期:2024年9月25日
在这里插入图片描述

二、预期用途

预期用途案例: Llama 3.2-Vision旨在用于商业和研究用途。经过指令调优的模型适用于视觉识别、图像推理、字幕添加以及带有图像的助手式聊天,而预训练模型可以适应多种图像推理任务。此外,由于Llama 3.2-Vision能够接受图像和文本作为输入,因此还可能包括以下用途:

1. 视觉问答(VQA)与视觉推理

想象一台机器能够査看图片并理解您对其提出的问题。

2. 文档视觉问答(DocVQA)

想象计算机能够理解文档(如地图或合同)中的文本和布局,并直接从图像中回答问题。

3. 图像字幕

图像字幕架起了视觉与语言之间的桥梁,提取细节,理解场景,然后构造一两句讲述故事的话。

4. 图像-文本检索

图像-文本检索就像是为图像及其描述做媒人。类似于搜索引擎,但这种引擎既理解图片也理解文字。

5. 视觉接地

视觉接地就像将我们所见与所说连接起来。它关乎于理解语言如何引用图像中的特定部分,允许AI模型基于自然语言描述来精确定位对象或区域。

三、本地部署

1. 下载模型

#模型下载 
from modelscope import snapshot_download model_dir = snapshot_download('AI-ModelScope/Llama-3.2-11B-Vision-Instruct-GGUF')

2. 模型大小

在这里插入图片描述

3. 运行代码

在运行代码前先确保安装了transformers包
pip install --upgrade transformers

import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor
from modelscope import snapshot_download
model_id = "LLM-Research/Llama-3.2-11B-Vision-Instruct"
model_dir = snapshot_download(model_id, ignore_file_pattern=['*.pth'])model = MllamaForConditionalGeneration.from_pretrained(model_dir,torch_dtype=torch.bfloat16,device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_dir)url = "https://www.modelscope.cn/models/LLM-Research/Llama-3.2-11B-Vision/resolve/master/rabbit.jpg"
image = Image.open(requests.get(url, stream=True).raw)messages = [{"role": "user", "content": [{"type": "image"},{"type": "text", "text": "If I had to write a haiku for this one, it would be: "}]}
]
input_text = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(image, input_text, return_tensors="pt").to(model.device)output = model.generate(**inputs, max_new_tokens=30)
print(processor.decode(output[0]))

四、ollama部署

ollama部署模型最为方便,不需要写运行代码,也不需要安装各种库,ollama安装好后,run相应模型,它会自动下载,然后直接可以进行提问,不需要运行什么代码。

1. 安装ollama

#o11ama版本需大于等于0.4.0
curl -fsSL https://ollama.com/install.sh | sh
#查看o1lama版本
ollama --version

2. 安装 Llama 3.2 Vision 模型

o1lama run 1lama3.2-vision:1lb

3. 运行 Llama 3.2-Vision

将 images.png替换为自己的图像路径。模型将分析图像并根据其理解提供响应。

ollama run x/llama3.2-vision:latest "which era does this piece belong to? Give details about the era: images.png

五、效果展示

在这里插入图片描述
给大模型一张图片,然后附带问题是:这件作品属于哪个时代?详细介绍那个时代。下面是模型输出

The piece is a painting of a woman in a red dress, surrounded by gold and white ornate details.The woman is depicted in mid-air, with her arms outstretched and her legs bent at the knees. Sheis holding a bouquet of flowers in her right hand and a fruit in her left hand.
The background of the painting is a light blue sky with pink clouds, and there are also some pinkflowers and green leaves surrounding the woman. The overall atmosphere of the painting is oneof joy and celebration, as if the woman is dancing or celebrating something.
This piece belongs to the Rococo era, which was a style of art and architecture that emerged inEurope in the 18th century. The Rococo style is characterized by its use of pastel colors, curvedlines, and ornate details. lt was popularized during the reign of King Louis XV of France, who ruledfrom 1715 to 1774.

为更直观翻译下,可以看到基本把图片细节都描述很清楚,同事也给出了大致时代。
在这里插入图片描述

http://www.yayakq.cn/news/200956/

相关文章:

  • 网站建设会出现的问题潍柴新建站登录网址
  • 有那些专门做职业统计的网站phpcms v9网站地图
  • 大兴网站开发网站建设咨询甘肃建设局网站首页
  • 湖南营销型网站建设 j磐石网络长链接转化成短链接工具
  • 长沙做痔疮东大医院L网站无锡住房和城乡建设局网站
  • 毕业设计做网站还是系统好网站建设的税率是多少
  • 做3d图的网站营销网站结构图
  • 微信公众号网站怎么做宁波最专业的seo公司
  • 果洛电子商务网站建设哪家快小地方做外卖网站怎样
  • 物流信息网站cms中国能源建设集团招聘网站
  • 老薛主机做两个网站招聘网站有哪些
  • 法律行业网站建设关于网络营销的网站
  • 怎样申请做c c 网站南昌高端网站定制
  • 制作网站一般多少钱现在装宽带多少钱
  • 网站排名影响因素网站合作流程
  • 亚马逊网站链接wordpress装饰公司主题
  • 财经资讯网站该怎么做推广wordpress支持手机吗
  • 网站开发工程师公司小型企业oa办公系统
  • 溧水114网站开发简述建设一个网站的具体过程
  • 做网站需要编程吗英德市住房城乡建设网站
  • 企业建设网站有哪些怎么在360自己做网站吗
  • 网站建设毕业报告拜年图片制作
  • 全景网站如何做wordpress最火模板
  • 网站开发准备工作seo竞价网站建设
  • 成都 建设网站wordpress自带主题下载失败
  • 装修网站cmswordpress 更改插件目录
  • 个人可否建立网站网站宣传册怎么做的
  • 广东模板网站建设报价落实20条优化措施
  • 山东省网站备案怎么做企业网站推广需要多少钱
  • 网站克隆下来了然后再怎么做微网站制作