吴恩达:新的图灵测试要设计专用 AGI
吴恩达近期表示,图灵测试不再足够用了,他将在2026年公开一个新版的图灵测试称为“图灵-AGI测试”。这种测试专门针对 AI 生成的 AGI 。
去年是 AGI 水涨船高的一年,吴恩达在其年度总结中也曾表示:2025 年或许会被铭记为人工智能工业时代的开端。创新的模型性能到达新高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。
但是,关于 AGI 的定义还没有统一标准,现有的基准测试常常误导大众,使其高估当前的 AI 水平。吴恩达注意到这一趋势,因此新的图灵测试将试图弥补这一空白。
新版“图灵-AGI测试”设想
传统的图灵测试在 AGI时代显然不够用了,它由艾伦·图灵于上世纪五十年代提出,提出用人机对话来测试机器的智能水平。在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。
但是,现在的 AI 不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量 AI 工作能力的测试。这种测试将试图让 AI 系统像人类一样智能,并完成大部分的知识型工作。
测试对象将会是 AI 系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。在裁判的设计下,测试对象将会面临一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。
只要 AI 能够像人类一样熟练完成工作任务,就会被认为通过测试。这种测试将聚焦 AGI 的经济性和实际产出,更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。
它也会比基准测试更考验 AI 的通用能力。现有的 AI 基准测试,例如 GPQA、AIME 和 SWE-bench 等,都预先确定一个测试集,这意味着 AI团队都会直接针对已发布的测试集来调整他们的模型。这就导致很多 AI 模型榜单排名靠前,但真实物理世界中又能力不够。
去年闹得沸沸扬扬的 Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。固定测试集只能衡量 AI 在某一狭窄领域的能力。相比之下,图灵-AGI测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。
因此,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有 AI 参与其中,即便最后的结果会是所有 AI 系统均未能达到标准,但也能平息长期以来对 AGI 的过度炒作。
吴恩达近期表示,图灵测试不再足够用了,他将在2026年公开一个新版的图灵测试称为“图灵-AGI测试”。这种测试专门针对 AI 生成的 AGI 。
去年是 AGI 水涨船高的一年,吴恩达在其年度总结中也曾表示:2025 年或许会被铭记为人工智能工业时代的开端。创新的模型性能到达新高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。
但是,关于 AGI 的定义还没有统一标准,现有的基准测试常常误导大众,使其高估当前的 AI 水平。吴恩达注意到这一趋势,因此新的图灵测试将试图弥补这一空白。
新版“图灵-AGI测试”设想
传统的图灵测试在 AGI时代显然不够用了,它由艾伦·图灵于上世纪五十年代提出,提出用人机对话来测试机器的智能水平。在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。
但是,现在的 AI 不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量 AI 工作能力的测试。这种测试将试图让 AI 系统像人类一样智能,并完成大部分的知识型工作。
测试对象将会是 AI 系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。在裁判的设计下,测试对象将会面临一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。
只要 AI 能够像人类一样熟练完成工作任务,就会被认为通过测试。这种测试将聚焦 AGI 的经济性和实际产出,更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。
它也会比基准测试更考验 AI 的通用能力。现有的 AI 基准测试,例如 GPQA、AIME 和 SWE-bench 等,都预先确定一个测试集,这意味着 AI团队都会直接针对已发布的测试集来调整他们的模型。这就导致很多 AI 模型榜单排名靠前,但真实物理世界中又能力不够。
去年闹得沸沸扬扬的 Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。固定测试集只能衡量 AI 在某一狭窄领域的能力。相比之下,图灵-AGI测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。
因此,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有 AI 参与其中,即便最后的结果会是所有 AI 系统均未能达到标准,但也能平息长期以来对 AGI 的过度炒作。