Nova Act是什么?
Nova Act 是由 Amazon AGI Lab(通用人工智能实验室)推出的首个通用 AI 智能体产品,具备自动操控网页浏览器的能力。它能够理解自然语言任务描述,自主执行真实网页上的一系列操作,如点击、填写表单、选择日期、提交内容等。Nova Act 是 Amazon 在 Agent 方向迈出的关键一步,旨在赋予 AI 系统“像人一样使用电脑”的执行能力。
该项目由两位前 OpenAI、深度强化学习领域专家 David Luan 与 Pieter Abbeel 领导开发,当前以研究预览形式对开发者开放,配套提供了 Nova Act SDK。

Nova Act的主要功能
- 网页级任务自动执行:支持真实网页中的点击、拖动、输入、确认、取消等基本操作,实现完整任务链条的自动执行。
- 自然语言任务理解:用户可通过自然语言描述任务目标,系统自动将其转化为页面操作流程。
- 技能链与步骤拆解:Agent 内部将复杂目标拆分为子任务,每步都以“技能块”方式执行,可中途干预或调整。
- Playwright 深度集成:基于无头浏览器 Playwright 执行任务,具备极高稳定性与真实兼容性。
- 多样工作流控制:支持开发者指定哪些操作由 AI 执行,哪些需人工确认,增强任务可控性。
- 性能领先基准:在 Amazon 内部的网页操作任务测试中,Nova Act 在文本交互能力上得分高达 94%,领先 OpenAI 和 Anthropic 的 Agent。
Nova Act的技术亮点
- 架构融合大语言模型与环境感知:Nova Act 架构中,语言模型负责理解任务与表达,环境模型负责执行与观察状态变化。
- 人类级操作建模:不使用 API 接口调用网页,而是模拟鼠标点击、输入框定位等真实用户行为。
- 研究级任务验证基准:使用自研“ScreenSpot WebText”任务测试 Agent 的操作稳定性、语言理解与任务完成度,精准量化 Agent 能力。
- 逐步通往 AGI 的技术路线:将网页操作作为“通用 Agent 能力验证场”,构建“能在计算机上完成所有任务”的 AI 原型。
Nova Act的适用场景
- 网页交互自动化:在线购物、订餐、填写调查、预约系统等用户常见操作流程。
- 语音助手增强模块:作为 Alexa+ 的执行引擎,实现从语音意图到网页行为的完整链路。
- 企业级轻量 RPA 替代方案:用于 HR、财务、IT 部门的网页重复流程自动化。
- 智能体产品原型开发:适合 AI 产品开发者构建网页执行类助手工具。
- Agent 能力研究与评测:为高校、机构、研究者提供 Agent 基准研究样本和实验平台。
如何使用Nova Act?
- 访问平台入口:前往 nova.amazon.com 注册并查看技术文档与案例。
- 下载 Nova Act SDK:获取开发工具包并了解 Agent 任务定义结构。
- 创建任务描述脚本:通过 YAML/JSON 等格式定义任务目标、每步技能块、参数限制与 UI 元素定位方式。
- 运行无头浏览器执行任务:本地模拟或部署 Agent 行为,支持无界面后台运行。
- 调试与迭代:通过测试集或真实任务运行日志优化 Agent 流程,提升鲁棒性与成功率。
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
