当前位置: 首页 > news >正文

如何建设营销型的网站北京软件开发公司企云云

如何建设营销型的网站,北京软件开发公司企云云,一张图片切块做网站背景,北京网站优化推广收集内容来源:xiaohuggg GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。 它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。 它通过视觉理解技术识别网页上的元素,就像…

内容来源:@xiaohuggg

GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。

它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。

它通过视觉理解技术识别网页上的元素,就像人眼一样,能够“看到”按钮、文本框、图片等,并理解它们的功能和用途。

这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。

工作原理:

GPT-4V-Act利用GPT-4V语言理解能力和视觉处理能力以及一套特定的自动标记工具(Set-of-Mark)的视觉定位能力,该工具为每个可交互的UI元素分配一个唯一的数字ID。

通过结合任务和截图作为输入,GPT-4V-Act可以推断出完成任务所需的后续动作。它能够检查UI截图并提供精确的像素坐标,以指导鼠标/键盘执行特定任务。

目前,这个演示还很基础,它利用网页抓取技术将ChatGPT Plus变形为一个非官方的GPT-4V API后端。尽管目前的测试有限,但该代理已经显示出了在Reddit上发布帖子、搜索产品和启动结账过程的能力。

主要特点:

1、视觉处理:能够处理视觉信息,但支持程度有限。

2、自动标记:使用JS DOM自动标记器为UI元素分配数字ID,支持COCO数据格式的导出。

3、鼠标和键盘操作:能够执行点击和输入字符操作。

4、特殊键码输入:目前还不支持输入特殊键码(如回车、页面上移、页面下移)。

5、其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。

GitHub:httpshttps://github.com/ddupont808/GPT-4V-Act

视觉定位:https://https://som-gpt4v.github.io/
原帖:httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?rdt=50049ent_gpt4vact/

http://www.yayakq.cn/news/368465/

相关文章:

  • 厦门网站公司河北保定网站建设
  • 建筑企业网站天津哪家制作网站好
  • 临沂做网站优化天津专业制作企业官网
  • 天津通用网站建设收费前端开发工具哪个好
  • 坂田网站建设费用明细装修123网
  • 网站运营和管理湘潭网站建设 问下磐石网络
  • 移动网站建站wap网站开发实例
  • 网站开发与解决技巧安居客二手房
  • 网站里自已的微信联系如何做廊坊网站建设方案开发
  • 鹤峰网站建设河南郑州网站建设哪家公司好
  • 成品网站10款全网vip影视网站一键搭建
  • 李沧网站建设公司做谐和年龄图的网站
  • 重庆建设教育培训管理系统网站高校门户网站的建设
  • 成都论坛网站建设做百度推广送的网站
  • 免费网站模板下载大全下载表情包制作在线
  • 网站备案幕布大小手机版网站制作费用
  • 做细胞激活的母液网站购物网站开发 项目描述
  • net网站建设多少前公司企业做网站怎么做
  • 服务 好的网站制作如何自己编写一个程序
  • 做网站怎么接单域名及网站建设实验报告
  • 网站地图 seo网页美工制作流程
  • 设计精美的国外网站上海上市装修公司
  • 单位网站备案济南网站建设培训学校
  • 监控企业网站模板好医生网站继续教育网
  • 深圳市住房和建设局网站变更网站ui界面设计软件
  • 有没有IT做兼职的网站做仿站如何获取网站源码
  • 企业网站cms模板网站开发技术发展
  • 南京市网站开发婚庆5个坑
  • wordpress整站主题app开发工具排行
  • 网站建设 市场规模网站开发是前端还是后台