当前位置: 首页 > news >正文

网站制作有限公司设计门户网站

网站制作有限公司,设计门户网站,网络规划设计师教材,公关负面处理公司AgentStudio: A Toolkit for Building General Virtual Agents 前言AbstractMotivationFramework评估GUI GroudingReal-World Cross-Application Benchmark Suite Conclusion 前言 来自昆仑万维的一篇智能体环境数据大一统框架工作,对未来计算机智能体的发展具有指…

AgentStudio: A Toolkit for Building General Virtual Agents

  • 前言
  • Abstract
  • Motivation
  • Framework
  • 评估
    • GUI Grouding
    • Real-World Cross-Application Benchmark Suite
  • Conclusion

前言

来自昆仑万维的一篇智能体环境数据大一统框架工作,对未来计算机智能体的发展具有指导性意义,作者在环境上对计算机智能体的输入输出进行了统一,基于该环境又设计了智能体数据的收集评估框架,通过实验也验证了数据集收集的重要性。此外它还提供了丰富的文档,便于初学者学习。

Paperhttps://arxiv.org/pdf/2403.17918.pdf
Documenthttps://skyworkai.github.io/agent-studio/
FromArxiv 26 Mar 2024

Abstract

创造在任意数字设备上操作任意软件的自主虚拟智能体仍然是当前AI的主要挑战。关键的两点障碍在于:现实环境中构建虚拟智能体的基础设施不足,以及对基础智能体能力评估的需求。为了解决这些问题,本文提出AgentStudio,一个在线、现实、多模式的工具包,可以涵盖智能体开发完整的生命周期。包括环境设置,数据收集,智能体评估以及可视化。观察和动作空间高度通用,支持函数调用和人机界面。AgentStudio的图形用户界面进一步增强了这种多功能性,允许在现实环境中高效开发数据集和基准。为了说明这一点,作者引入了一个视觉基础数据集和一个真实世界的基准套件,二者都是通过图像化界面创建的。此外,作者还提出一些源自AgentStudio的可行解,例如通用视觉基础、开放式工具创建、视频学习等。作者开源了环境、数据集、基准测试和界面,以促进开发更通用的虚拟智能体。

Motivation

image.png
image.png

  1. 受到环境和数据的限制,现有的智能体仅在简单、受限的场景下评估演示,缺乏实用性和可靠性。
  2. 真实环境难以收集数据,阻碍智能体的提升。

AgentStudio工具包如何解决上述问题?

  1. 包括了智能体观察和动作空间的定义工具。
  2. 提供了跨平台的在线环境支持。
  3. 支持交互式数据的收集与评估,以及可扩展的任务套件,增强实用性和灵活性。

上图展示AgentStudio如何在环境上和数据集上解决之前工作的问题。

Framework

image.pngAgentStudio优势:

  • 可复现、多模态、跨平台的在线环境。支持docker、FastAPI以及虚拟机连接各种操作系统和设备,注重真实落地场景。
  • 统一标准输入输出。和人类保持一致,通过观察屏幕输入,控制键鼠和命令行输出,也支持函数调用和API。
  • 全面、可扩展、可组合的任务集。包含在十余个应用上全面评估AI智能体的能力,覆盖各种应用场景,包含不同难度任务。
  • 完整的智能体数据收集和评估代码。可用于人工标注数据集,也可用于智能体自行收集经验。
  • 关注工具创造和应用。支持智能体在交互中自行创造并复用新的工具。
  • 交互式可视化界面。提供用户友好的轻量化GUI界面,帮助用户一键自动化创建任务并收集数据。

下图是使用AgentStudio人工标注数据以及自动标注数据的过程。
image.png

评估

除了工具包的搭建,研究团队评估了多个多模态智能体完成任务的能力。为了全面评估智能体的能力,AgentStudio的实验从多个角度考虑:

  1. 图形界面grounding数据集。任务为单步动作,指令无需规划, 关注智能体与图形界面交互的能力。
  2. 日常任务与组合任务数据集。任务涉及调用复杂API,或者多步动作以及跨软件交互。用于评估智能体完成日常任务、以及进行复杂动作规划的能力。

GUI Grouding

每个数据都是三元组: T = ( g , s , a ) T=(g,s,a) T=(g,s,a),分别代表instruction、截图和鼠标动作。基于AgentStudio,团队设计了一个包含 227 条鼠标点击指令的数据集,涵盖三种流行的桌面操作系统和九种应用程序。在当前多模态模型上进行评估,结果如下表所示:
image.png
在闭源模型上,模型展示了在不同操作系统下泛化的差异性,并且得分都不高,GUI能力不足。在开源模型上,基于Qwen-VL微调的SeeClick在每个任务上都是最高分,凸显了进一步扩展GUI基础数据的重要性,以通过数据驱动的方法改进多模式模型,从而实现有效的现实部署。
image.png
上图是在位置和点击类型两个指标上的比较。可以看到,所有模型在精确定位上得分较低,有很大改进空间,b表明点击成功率和元素大小相关,分而治之的方法可能提升点击的准确率。

Real-World Cross-Application Benchmark Suite

为了说明AgentStudio在复杂的场景促进评估,作者引入了由77个现实任务组成的基准套件,包括工具使用、GUI基础、长期规划等。每个任务形式化为一个三元组,包括自然语言描述,重置环境组件(防止其它项干扰实验),评估结果轨迹组件。结果如下:
image.png
虽然GPT-4在大多数API任务中表现出色,但是在GUI和组合任务上面临挑战,另一方面,Gemini-1.0 Pro 和 GPT-3.5 Turbo 总体上表现出相对较低的成功率,但它们较高的批评准确率意味着这些模型可能有潜力通过开发新颖的自校正算法来提高其性能。

Conclusion

本文介绍了AgentStudio,一个开放的工具包,用于开发在现实数字世界中的通用智能体,它包括数据收集评估、可视化和用户界面,允许在任意人类任务上开发测试。这篇工作非常solid ,在各种智能体打架的今天,AgentStudio从另一个角度出发, 在底层统一了各种计算机智能体的评估和交互,工作合理且完整, 有极强的扩展性和自定义性,具有特别大的发展前途。我认为基于这篇工作,未来可以考虑的方向有:

  1. 通用工具的积累。即插即用的工具,可以为任何智能体所用,这也涉及相关的框架与协议。
  2. 更丰富的输入输出接口。目前只支持键鼠、bash,如果能够泛化到各种设备,那会在更多场景解放人类双手。
  3. 评估的方式不是很合理,毕竟有的操作没有固定的流程,遇到特殊情况也无法评估。
  4. 数据集规模不大,覆盖面不够广。
http://www.yayakq.cn/news/426133/

相关文章:

  • 国外创意网站设计欣赏灵雀云 wordpress
  • 国外做二手服装网站有哪些租用海外服务器的网站有域名吗
  • 景区宣传网站制作模板如何做网络营销推广啃26金手指效果牛x
  • 石家庄网站制作工具成都网站seo推广
  • 网站设计培训课程怎样制作网站建设规划图
  • 跨境网站有哪些平台做网站都有备案吗
  • 二手车网站策划网站建设的五类成员
  • 音乐影视网站建设方案女装商城网站建设
  • 广州官网建站深圳 网页设计公司
  • 网站备案 每年做360手机网站首页
  • 注册域名成功后怎样建设网站免费网页在线代理服务器
  • 招代理网站建设公司高端轻奢品牌
  • 一诺互联网站建设公司自己做的网站算广告吗
  • 动易网站风格免费下载做网站报价单
  • 电商网站的付款功能一键wordpress建站
  • 百度提交收录入口广州市口碑seo推广
  • 无锡企业网站制作公司网站建设设计公司 知乎
  • 长沙装修网站排名一个好的网站应该具有什么
  • 成都h5建站花都有沒有网站建设的
  • 做公司网站需要会什么科目网站建设策划书有哪些内容
  • 怎么用ps做网站海淀网站开发
  • 永久免费生成app网站wordpress模版标签
  • dedecms行业协会网站织梦模板wordpress怎么改
  • wordpress管理网站东莞官方网站建设
  • 如何查看网站有没有收录搜索引擎是什么意思啊
  • 建设银行成都开发中心网站龙华网站建设全包
  • 响应式网站如何设计互联网推广方案
  • 为什么做免费视频网站html制作一个个人主页网站
  • 长春电商网站建设价格租用外国服务器网站网站建设
  • 网站建设需要什么知识2012r2做网站