img
来源:https://arxiv.org/abs/2404.07972
人类的工作方式人类工作 = (学习过程 + 推理能力 + 视觉感知 + 环境中的行动 + 环境反馈)
其中:

img
人工智能代理如何可能执行相同的人类工作AI代理工作 = (快速学习 + 高级推理 + 增强视觉处理 + 不知疲倦的行动 + 实时环境反馈)
其中:

img
本文的要点是什么?智能计算机程序(称为AI)正在发生重大变化。这些AI助手在做人类工作方面变得越来越聪明和高效。很快,它们将无处不在。
让AI理解和使用人类语言的语言程序正在迅速改进。在GPT-4之后,将会出现更智能的语言AI,如GPT-5或其他。它们几乎可以像人类一样推理和思考。
与此同时,能够看到和理解图片和视频的视觉AI也在不断改进。能够在计算机和网站上采取行动的AI也取得了很大进展。
人类使用推理、视觉和行动能力来完成任务。由于AI在这些方面变得如此出色,意味着AI助手将开始为我们做许多以前只有人类才能做的任务。
就像我们习惯了智能手机和应用程序的帮助一样,我们很快就会有能够理解我们、看到世界并采取有用行动来帮助我们日常生活的AI助手。这将是一个巨大的变化!
我们现在应该开始熟悉AI。了解它并准备欢迎这些智能AI助手进入我们的世界。通过一些准备,我们可以与AI很好地合作并充分利用它。
因此,本文的要点是,让我们今天学习OS世界,将OS世界视为一个巨大的游乐场,AI代理可以在其中学习和实践我们在计算机上进行的各种不同任务。
什么是OS世界?OS世界是一个专门为测试名为多模态代理的智能AI助手而设计的特殊计算机环境。这些AI助手可以像人类一样使用真实的计算机程序来看、理解和执行任务。以下是它的特点:
适用于所有操作系统: OS世界适用于最流行的计算机系统——Windows、Linux和Apple(macOS)。这意味着AI代理可以在各种各样的软件和程序上进行训练。真实世界训练: 想象一下,一个AI代理试图写邮件、编辑电子表格或在互联网上搜索信息。OS世界为AI提供了一个安全的空间来练习这些真实任务,就像我们一样。从错误中学习: OS世界关注的是反馈。它帮助AI理解什么有效,什么无效,这样代理就可以在每次尝试中变得更好。更大的目标: OS世界的目标不仅仅是训练AI使用一个程序,而是制作能够在任何计算机上解决任何任务的AI代理,就像技能超群的数字助手一样。为什么OS世界很重要?想想每天人们在计算机上做的所有工作:
写邮件、报告和演示文稿制作用于跟踪预算和数据的电子表格设计网站或图形在互联网上搜索信息还有更多!OS世界正在训练AI代理学习这些同样的技能。这并不意味着人们会失去工作,但确实意味着一些任务可能会发生变化。我们可能会有AI助手来制作初稿、查找信息或检查错误。目标是让工作变得更容易,让我们专注于创造性的、解决问题的一面。
OS世界是如何工作的?首先,让我们了解人类的工作方式img
来源:https://arxiv.org/abs/2404.07972
比如,当人类被要求组装一把宜家椅子时:
在组装宜家椅子时,人们从逐步图片说明的指南开始。然而,仅仅有指南还不足以成功组装椅子。人们需要将指南与现实世界的物体和所需的行动联系起来。这种联系被称为基础。 接地(Grounding)是指根据指令逐步进行物理操作,例如找到正确的零件,使用工具将零件连接在一起,并通过目视检查确认操作是否正确完成。人类使用双手操纵椅子的组件,通过目视检查每个步骤中的零件是否正确拼合。将指令应用于完成任务的这个接地过程对于人类准确地组装椅子至关重要。
让我们来看一个数字任务的例子img
图片来源:https://arxiv.org/abs/2404.07972
比如,当人类被要求在 Mac 上更改桌面背景时:
在 Mac 上更改桌面背景需要按照 Apple 的帮助网站上的指示进行操作。然而,仅仅阅读指示是无法成功完成任务的。人类需要将这些指示与实际的 Mac 计算机连接起来,并采取实际的行动。这就是所谓的接地。
为了接地指示,人类使用 Mac 上的鼠标和键盘。他们的眼睛扫描屏幕和菜单选项,将所看到的与指示中的步骤进行匹配。他们的手控制鼠标打开菜单并点击按钮。他们的手指在键盘上输入,打开首选项窗格并选择新的桌面图像。通过在遵循指示的同时通过输入设备与 Mac 进行物理交互,人类可以成功地更改桌面背景。接地填补了阅读步骤和执行所需的实际操作之间的差距。
AI 代理(LLM/VLM)在操作系统世界中的行为没有操作系统世界,LLM(例如 ChatGPT 4)会做什么如果你问 ChatGPT 4 “如何更改我的 Mac 桌面背景?”,它可以通过查找其训练数据中的信息提供完美的逐步指示。这个语言模型可以轻松地用详细的书面步骤解释这个过程。
img
图片来源:https://arxiv.org/abs/2404.07972
然而,ChatGPT 4 不能实际执行这些指示并为您更改背景。它无法控制或与真实的 Mac 计算机进行交互。这个语言模型只能提供信息,而不能进行实际的现实世界操作。
类似地,如果你问“如何组装一把宜家椅子?”,ChatGPT 4 可以从其训练数据中以高层次的方式描述一般的过程。但它无法为特定的宜家椅子型号提供具体的逐步指示,也无法为您组装椅子。
img
图片来源:https://arxiv.org/abs/2404.07972
像 ChatGPT 4 这样的语言模型缺乏接地能力,即将指示与现实世界中的实际对象和环境联系起来的能力。它们无法控制计算机、机器人或电器。虽然在查找信息方面非常有帮助,但是在没有操作系统世界这样的模拟环境中,语言模型无法自行执行数字或物理任务。
在操作系统世界中,LLM(例如 ChatGPT 4)会做什么进入由操作系统世界定义的 AI 代理img
图片来源:https://arxiv.org/abs/2404.07972
通过操作系统世界,像 ChatGPT 4 这样的大型语言模型(LLM)可以成为一个智能代理,接受指示并将其转化为编码行动。LLM 将拥有一套可以执行的操作,例如运行 SQL 查询,进行 API 调用,控制网站和应用程序,甚至指挥机器人。
LLM 代理不仅仅提供信息,还可以与实际环境(如 macOS、Windows、网站、应用程序、数据库和物理空间)进行交互。它将通过摄像头和麦克风等传感器从这些环境中收集观察结果,并将这些观察结果反馈给 LLM。
这创建了一个连续循环,LLM 根据用户的指示计划行动,执行这些编码行动在环境中,通过传感器观察结果,并使用这些信息来完善下一次迭代的计划。在 OS World 中,像 Hugging Face、SQL 和 Python 这样的工具可以在这个规划、执行和观察的迭代过程中辅助 LLM。
关键点:Xlang(自然语言到执行代码)img
图片来源:https://arxiv.org/abs/2404.07972
在我看来,一个关键的创新是被称为 Xlang 的东西,它使得大型语言模型(LLM)能够接受人类的简单自然语言指令,并将其转化为可执行的代码。然后,这个编码输出可以在模拟或真实世界的环境中运行,执行动作和任务。 例如,如果您向一个支持 Xlang 的 LLM 提供指令“将我的桌面背景更改为海滩场景”,它将生成相应的代码与您计算机的操作系统进行交互,并实际修改桌面壁纸图像。指令作为输入,LLM 将其转换为可运行的代码作为输出。
通过 Xlang,LLM 不仅仅是回答信息,它们可以理解指令并将其转化为数字环境中的行为,甚至可能是机器人或智能家居设置中的行为。这弥合了我们自然交流和基于简单指令进行真实世界行动的 AI 代理之间的差距。
好的,那么它是如何工作的呢?
假设我们的任务是:
打开办公套件应用程序打开包含收据的不同图像从图像中读取项目和价格将信息输入电子表格这对于在 macOS 或 Windows 环境中执行的 AI 代理来说是一个复杂的任务,因为没有一个连接指令和操作系统中的动作的基础层。
OS World - 解决方案
它提供了:
OS World 为多模态代理提供计算机环境它作为一个统一的环境来评估开放式计算机任务代理可以在不同的操作系统和应用程序之间操作代理可以与图形用户界面(UI)和命令行界面(CLI)进行交互OS World 为代理提供观察结果,使它们能够生成与计算机环境交互的指令代理任务形式化
自主代理任务被形式化为部分可观察马尔可夫决策过程(POMDP)
POMDP 的组成部分:
状态空间:当前的桌面环境观察空间:指令、屏幕截图、可访问性树动作空间:点击、输入、滚动等转移函数:定义动作如何改变状态奖励函数:评估任务完成情况当生成每个任务时,包括以下组件:
初始状态
如上图所示的起始状态或环境位于任务配置中指令
任务的文本指令,如图所示配置
代表任务环境的当前状态评估器
确定任务是否完成将结果与预期结果进行比较带有选项的函数
为任务执行提供不同的选项或参数初始状态、指令、配置、评估器和函数选项是定义和评估 AI 代理在给定环境中的任务的关键要素。
获取观察结果
获取观察结果的两种主要方法:
标记集:以网格格式表示屏幕上可点击的对象可访问性树:用户界面元素的代码表示代理交互
代理生成动作(鼠标移动、点击、文本输入、键盘快捷键)每个动作都会导致新的状态和观察结果任务评估
提供任务指令和初始状态评估脚本检查代理是否正确完成任务例如:
删除亚马逊的跟踪 cookie在电子表格中重命名和复制工作表这种评估方法可以对 AI 代理在 OS World 中完成各种开放式计算机任务的性能进行基准测试。
LLM/VLM 代理基线的结果
被测试的内容:研究人员正在比较向 AI 代理提供信息的不同方式,以帮助它们完成任务。选项包括:
可访问性树:一种描述计算机屏幕上按钮和布局的代码。屏幕截图:屏幕上的图像。可访问性树和屏幕截图两者都有冠军:总体而言,一个名为GPT-4的AI代理在大多数测试中表现最好。一个例外:当只提供一张屏幕截图时,另一个名为Gemini Pro V的AI表现最好。
总体最佳结果:给予AI代理无障碍树或无障碍树加上屏幕截图似乎能够获得最佳结果。
LLM/VLM代理基准结果分析img
图片来源:https://os-world.github.io/
主要发现:当AI代理只使用屏幕截图来完成任务时,提供更清晰、高质量的图片有助于它们更好地完成工作。
随着屏幕截图质量的提高,成功率也会提高。因此,模糊的图片意味着AI的结果更差,但是一张超清晰、详细的图片可以帮助它更准确地理解和完成任务。
总结思考像ChatGPT这样的大型语言模型与OS World这样的环境的结合代表了AI系统能力的重大进步。
通过提供一个基础层,OS World使LLM能够不仅提供信息,而且在真实的计算机环境中将指令转化为可执行的操作。这弥合了自然语言和AI代理直接与软件、操作系统甚至物理设备和机器人进行交互和控制之间的差距。
随着在OS World上开展开放式任务的基准测试的进展,我们可以期待AI代理通过自然语言指令来自动化复杂的数字工作流程和物理任务。语言理解和基于实践的执行的共生互动为AI助手在真实世界中解释我们的命令并无缝执行它们铺平了道路。