当前位置: 首页 > news >正文

电脑版和手机版网站怎么做哪里可以做拍卖网站

电脑版和手机版网站怎么做,哪里可以做拍卖网站,政务服务网站建设运行情况,书签制作方法图片简单又好看图像检索(包括文搜图和图搜图)是各个行业中常见的一个应用场景。比如在电商场景中,基于以图搜图做相似商品查找;在云相册场景中,基于文搜图来找寻所需的图像素材。 传统基于标签的图像检索方式,即先使用目标…

 图像检索(包括文搜图和图搜图)是各个行业中常见的一个应用场景。比如在电商场景中,基于以图搜图做相似商品查找;在云相册场景中,基于文搜图来找寻所需的图像素材。

 传统基于标签的图像检索方式,即先使用目标检测/图像分类产品(如亚马逊云科技Amazon Rekognation)产生图片标签,再存储标签并在检索时匹配标签,存在一些局限性。第一是该方法受限于产品本身支持的标签数量,比如Amazon Rekognation支持3000个左右的标签,对于标签之外的目标无法检测并检索。第二是标签检索对动词、数量、方位等信息不敏感。诸如“两个孩子在一栋房子前面奔跑”,会出现包含“孩子,房子”标签的图像,但容易忽略“两个,前面,奔跑”等信息。

 下文将将介绍两种基于语义的搜图检索方式以及部署方案,可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性,并选择更加适合的方案使用。

 方案一:利用CLIP模型的文本编码器和图像编码器,将图像和文本放入同一维度的潜在向量空间中,找到与文本向量最相近的图像向量以实现基于语义的图像搜索。如下图所示,可以看到图像对应的Image embedding在向量空间的位置,不同文本会同样被编码至向量空间中,当图像和文字语义最相近时,其Image embedding和Text embedding的余弦距离最近。

 方案二:利用图生文模型(案例使用vit-gpt2-image-captioning模型,可替换)先对图像产生对应的文本描述,再将生成的图片描述文本与查询文本放入同一维度的潜在向量空间中,找到与查询文本向量最相近的描述文本向量所对应的图像,以实现基于语义的图像搜索。如下图所示,可以看到图像经过vit-gpt2-image-captioning模型后,产生“a black and white dog and a brown and white dog”的描述文本。对于语义最相近的文本,其Text embedding之间的余弦距离最近。

 CLIP模型介绍

 CLIP(Contrastive Language-Image Pre-Training)是由OpenAI于2021年推出的一种深度学习模型。它主要包含两个组成部分:一个用于图像编码的卷积神经网络(Convolutional Neural Network,CNN)和一个用于文本编码的Transformer模型。这两个编码器将图像和文本编码输入至相同的潜在向量空间中,并使得相似的图像和文本在潜在向量空间中的距离更近。

 vit-gpt2-image-captioning模型介绍

 vit-gpt2-image-captioning模型利用Vision Transformer(例如ViT、BEiT、DeiT、Swin)对图像进行编码,然后基于预训练的语言模型(例如RoBERTa、GPT2、BERT、DistilBERT)产生文本,从而实现“看图说话”的能力。

 OpenSearch k-NN介绍

 Amazon OpenSearch支持k-NN搜索,可让在向量空间中通过欧几里得距离或余弦距离查找点之间的“最近邻”。在语义搜图检索方案中,主要包括两个阶段:

  • 构建k-NN index——在此阶段,将产生的图像向量,或描述文本向量,保存到OpenSearch服务中的k-NN index中。k-NN的基本概念是相似数据点存在于嵌入空间中非常接近的位置。例如,文本“一朵红花”、文本“红玫瑰”和“红玫瑰”图像语义相似,因此这些文本和图像在潜在向量空间的位置是彼此接近的。

  • 查询k-NN index——在此阶段,通过实时机器学习模型对查询文本或者图像进行编码,形成向量。随后使用该文本向量来查询存储在OpenSearch服务中的k-NN index,k-NN index从潜在向量空间返回相似的向量。例如,如果您的查询文本是“一朵红花”,它将返回红玫瑰图像的向量作为类似的项目。

 方案架构

 整体方案架构及介绍如下:

  • 通过预训练的CLIP模型和vit-gpt2-image-captioning模型创建一个用来进行批量和实时推理的SageMaker模型。

  • 使用SageMaker批量转换作业生成图像Embedding或图像描述文本Embedding。

  • 使用SageMaker实时推理(或无服务器推理)来将图像和文本进行实时编码,产生图像Embedding或图像描述文本Embedding。

  • 使用Amazon Simple Storage Service(Amazon S3)作为主要存储服务,存储原始图像以及SageMaker批量转换作业产生的Embedding文件。

  • 使用OpenSearch服务来存储向量并查找相关的向量。

  • 使用一个查询函数来编排查询编码并执行k-NN搜索。

 该方案具有以下优势:

  • 灵活构建。可以非常方便的替换CLIP模型或vit-gpt2-image-captioning模型至其他模型,只需要在SageMaker上创建相关模型并部署终端节点即可;也可以替换OpenSearch使用其他的向量数据库。

  • 可快速构建大规模生产应用。该方案基于SageMaker,OpenSearch,S3等服务构建,生产应用时无需过多担心资源限制及拓展,帮助您在快速进行场景测试后进入大规模生产应用。

 结语

 综上所诉,探究了基于CLIP模型和图生文模型的语义搜图检索方案,适用于以图搜图做相似商品查找、基于文搜图来找寻所需的图像素材等众多场景。并且此方案具有灵活构建的特性,并可以快速构建大规模生产应用的优势,有助于客户提高生产效率。

http://www.yayakq.cn/news/491257/

相关文章:

  • 网络营销有哪些特点东莞网站建设地点优化
  • 东昌府网站建设公司网站建设的心得
  • 网站开发网站设计制作动画制作的基本流程
  • 网站建设服务合同模板下载wordpress积分等级
  • 怀化找什么人做网站短链短网址在线生成工具
  • 360外链seo专业培训技术
  • 网站入侵怎么做wordpress 模板之家
  • 镇江地区做网站的公司有哪些一起爱又一个wordpress站点
  • 网页设计实用教程网站优化培训好学吗
  • 汽车网站模板免费下载工信网企业查询
  • 淘客怎么建网站做推广wordpress 4.4
  • 有网站源码怎么建站南头做网站公司
  • 新乡网站开发的公司最新的网站建设架构
  • 建设隔离变压器移动网站seo作用与原理思维导图
  • 色彩搭配比较好的网站seo培训教程
  • 临沂专业网站建设公司哪家好建立网站准备工作
  • 自己做资讯网站亚马逊网站 如何做站内seo
  • 洛阳建网站网站建设入门要求以及建站流程
  • 福建八大员建设厅延续的网站网站建设与维护功能意义
  • 比较好的做淘客网站新媒体seo指的是什么
  • 北京网页设计公司网站网站设计制作合同范本
  • 网博士自助建站系统学校的网站的代码模板
  • 亚马逊中国网站建设目标前端工程师招聘
  • 个人网站icp备案做网站代理好吗
  • 手机怎么上wap网站红和蓝的企业网站设计
  • 适合新手的网站开发网站推广排名服务
  • 北京市公司网站制作网站建设备案优化
  • 51购物网官方网站赣州网站建设需要多少钱
  • 郑州汽车网站建设哪家好深圳设计展2022
  • 新乡网站关键词优化网站工程和网络工程有什么区别