Google正在为其 Chrome 浏览器推出一项名为“Auto Browse”的新功能,这是一种基于Gemini系统的代理式AI,可以自动化网页上常规操作,例如填写表单、收集数据和规划行程。这种技术可以通过具备上下文理解能力的推理,对用户界面进行自动化操作。
当用户启动一次Auto Browse任务时,Chrome会打开专用标签页,并以动态AI图标加以标识。这一代理可以在不同网站之间跳转、跟随链接,并通过模拟键盘与鼠标输入来与表单字段互动。系统会在任务完成后发出通知;若涉及访问密码、发起支付等敏感操作,则会中途弹出请求用户授权的提示。
类似OpenAI的Atlas工具,Auto Browse在用户意图与网页界面之间增加了一个新的抽象层。用户不再直接操控浏览器,而是以自然语言描述目标,由Gemini将这些目标拆解为一系列操作并逐步执行。这种方式允许多个后台任务并行运行,旨在降低用户在重复性网页操作上的认知负担。
围绕Auto Browse,Chrome的界面也进行了调整。以前静态的Gemini按钮如今默认以侧边栏(Sidepanel)的形式常驻,而不是弹出式窗口,从而让AI能够持续访问当前页面内容。在这一侧边栏中,Gemini可以直接在Chrome内协调Gmail、日历、地图、YouTube、购物和机票等Google服务,实现跨服务联动。
同时,Google也引入了Nano Banana图片编辑功能,使用户无需下载文件即可在本地对图片进行编辑。在处理视觉任务时,用户可以在速度更快的标准模型与画质更高的Gemini Pro之间切换,以兼顾效率与质量。不過,Auto Browse的运行高度依赖云端:代理在网页上执行的所有互动操作,会被实时传输至Google服务器,由Gemini模型进行处理。
根据Google的说明,网页内容可能会在用户账户下被临时记录,并保存在Gemini应用活动数据中,具体取决于用户的隐私设置。 Google尚未明确,这些在Auto Browse会话中访问的内容是否会被用于训练未来的AI系统。
使用门槛方面,AI Pro订阅用户每天可启动最多20次浏览任务,AI Ultra用户每天可获得200次会话配额。虽然目前的预览功能无需额外购买,但Google尚未公布何时向免费用户开放访问权限。 为减少误操作风险,Google称已为Auto Browse设置保护规则,禁止其在未经用户明确确认的情况下执行交易性操作,例如直接提交支付信息。
当用户启动一次Auto Browse任务时,Chrome会打开专用标签页,并以动态AI图标加以标识。这一代理可以在不同网站之间跳转、跟随链接,并通过模拟键盘与鼠标输入来与表单字段互动。系统会在任务完成后发出通知;若涉及访问密码、发起支付等敏感操作,则会中途弹出请求用户授权的提示。
类似OpenAI的Atlas工具,Auto Browse在用户意图与网页界面之间增加了一个新的抽象层。用户不再直接操控浏览器,而是以自然语言描述目标,由Gemini将这些目标拆解为一系列操作并逐步执行。这种方式允许多个后台任务并行运行,旨在降低用户在重复性网页操作上的认知负担。
围绕Auto Browse,Chrome的界面也进行了调整。以前静态的Gemini按钮如今默认以侧边栏(Sidepanel)的形式常驻,而不是弹出式窗口,从而让AI能够持续访问当前页面内容。在这一侧边栏中,Gemini可以直接在Chrome内协调Gmail、日历、地图、YouTube、购物和机票等Google服务,实现跨服务联动。
同时,Google也引入了Nano Banana图片编辑功能,使用户无需下载文件即可在本地对图片进行编辑。在处理视觉任务时,用户可以在速度更快的标准模型与画质更高的Gemini Pro之间切换,以兼顾效率与质量。不過,Auto Browse的运行高度依赖云端:代理在网页上执行的所有互动操作,会被实时传输至Google服务器,由Gemini模型进行处理。
根据Google的说明,网页内容可能会在用户账户下被临时记录,并保存在Gemini应用活动数据中,具体取决于用户的隐私设置。 Google尚未明确,这些在Auto Browse会话中访问的内容是否会被用于训练未来的AI系统。
使用门槛方面,AI Pro订阅用户每天可启动最多20次浏览任务,AI Ultra用户每天可获得200次会话配额。虽然目前的预览功能无需额外购买,但Google尚未公布何时向免费用户开放访问权限。 为减少误操作风险,Google称已为Auto Browse设置保护规则,禁止其在未经用户明确确认的情况下执行交易性操作,例如直接提交支付信息。