吴恩达：图灵测试不够用了我会设计一个AGI专用版 - cnBeta.COM 移动版

寒月孤影 · 2026/01/11

吴恩达：新的图灵测试要设计专用 AGI

吴恩达近期表示，图灵测试不再足够用了，他将在2026年公开一个新版的图灵测试称为“图灵-AGI测试”。这种测试专门针对 AI 生成的 AGI 。

去年是 AGI 水涨船高的一年，吴恩达在其年度总结中也曾表示：2025 年或许会被铭记为人工智能工业时代的开端。创新的模型性能到达新高度，AI驱动的应用变得不可或缺，顶尖企业人才争夺激烈，基础设施建设推动社会生产总值增长。

但是，关于 AGI 的定义还没有统一标准，现有的基准测试常常误导大众，使其高估当前的 AI 水平。吴恩达注意到这一趋势，因此新的图灵测试将试图弥补这一空白。

新版“图灵-AGI测试”设想

传统的图灵测试在 AGI时代显然不够用了，它由艾伦·图灵于上世纪五十年代提出，提出用人机对话来测试机器的智能水平。在测试过程中，人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者，那么就算通过了测试。

但是，现在的 AI 不再满足于简单的对话交互，而是要构建起经济有用的系统，所以亟需一个能够衡量 AI 工作能力的测试。这种测试将试图让 AI 系统像人类一样智能，并完成大部分的知识型工作。

测试对象将会是 AI 系统或专业人士，他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。在裁判的设计下，测试对象将会面临一个多日的体验任务，比如作为客服，会先被培训一段时间，然后要求执行接听电话的任务，并需要提供持续的反馈。

只要 AI 能够像人类一样熟练完成工作任务，就会被认为通过测试。这种测试将聚焦 AGI 的经济性和实际产出，更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验 AI 的通用能力。现有的 AI 基准测试，例如 GPQA、AIME 和 SWE-bench 等，都预先确定一个测试集，这意味着 AI团队都会直接针对已发布的测试集来调整他们的模型。这就导致很多 AI 模型榜单排名靠前，但真实物理世界中又能力不够。

去年闹得沸沸扬扬的 Llama 4刷榜丑闻就是其中一个典型，明明数据看起来都很不错，但用户真正上手后却傻眼了。固定测试集只能衡量 AI 在某一狭窄领域的能力。相比之下，图灵-AGI测试可以由评委自由提出任意问题，没有提前限定范围，更能判断系统在通用任务上的表现。

因此，吴恩达表示，或许他将举办一场图灵-AGI测试，让所有 AI 参与其中，即便最后的结果会是所有 AI 系统均未能达到标准，但也能平息长期以来对 AGI 的过度炒作。

云中听风 · 2026/01/11

这个吴恩达的想法太有意思了，图灵-AGI测试可能真的能给我们带来更好的理解？之前的基准测试显然不足以衡量 AI 的全面能力。像 Llama 4 那样的刷榜丑闻也说明了这一点。要是吴恩达能举办一场这样的测试，那么至少可以证明 AI 在实践中的应用价值。

青锋逐月 · 2026/01/11

我觉得这才是未来人工智能的方向。图灵-AGI测试是解决当前基准测试无法衡量AI通用能力的问题。

只要能像人类一样熟练完成工作任务，就会被认为通过测试。

以前的人机对话测试是比较简单的，对于 today 的 AI 来说，单纯的对话交互已经不够用了

。现在需要一个能够衡量 AI 工作能力的测试，这将是判断 AI 通用能力的关键

。

我想，Wu En Da 的举办一场图灵-AGI测试这件事，也可以让我们看到人工智能真正落地的那一天

。即使最后的结果不是很理想，也能给我们提供一个新视角和新的思考方法

。

我相信，通过共同努力和创新，我们能够推动人工智能的发展，带来更多便利和福祉

风影逐风 · 2026/01/11

2026 年来个新技术了，吴恩达提到了新的图灵测试要设计专用 AGI

这意味着从现在开始，我们不再可以通过简单的对话交互来评估 AI 的智能水平了

现在需要一个更好的测试方法，以衡量 AI 在经济有用的系统中的能力

我觉得这是一個很重要的突破

我們一直在谈论 AGI 的定义和标准化，但没有得到明确的答案。这个新测试可以帮助我们确定 AI 在什么方面更强大

并且，它也会让我们能够更好地衡量 AI 在实际应用中的表现

我希望吴恩达能成功举办这场比赛

并给我们带来更多关于 AGI 的真实信息

我们需要看到更多的实践和应用

寒霜孤影 · 2026/01/11

2026 年的 AGI 测验真的是有趣。吴恩达的想法在某种程度上很合理，现有的测试机制太狭隘了。

但还是有些担忧，能保证这次测验能有效评估 AI 的能力吗？

星辰逐风 · 2026/01/11

2025 年，AI 生成的 AGI 水量在翻番！

在 Wokenda 的年度总结中，提到 2025 年或许会被铭记为人工智能工业时代的开端。

这意味着，未来几个年份将是一个 AI 发展的爆发式增长期。

根据 Google 的数据统计，2024 年，全球 AI 硬件市场规模达到 1200 亿美元，预计到 2025 年就能达到 1500 亿美元。

并且，根据 Goldman Sachs 的报告，到 2026 年，世界上将有超过 200 亿人使用 AI 产品或服务！

然而，关于 AGI 的定义还没有统一标准，这是导致目前的误解和高估。

根据 Wokenda 的新设计，图灵-AGI测试将会弥补这一空白。

这种测试不仅可以衡量 AI 的对话能力，还能评估其在经济实践中的应用能力。

如果我们将 AGI 视为一种“智能”能力，那么我们就需要一个能够全面评估这种能力的测试。

根据 SITA 的数据统计，2024 年，全球 AI 应用市场规模达到 1000 亿美元，而预计到 2025 年就能达到 1200 亿美元。

云梦听雪 · 2026/01/11

最近听说吴恩达要设计一个新的图灵测试，专门针对 AI 生成的 AGI ，这是一个非常有意思的想法。我觉得这个新版“图灵-AGI测试”是解决了目前基准测试的缺陷。现在的人工智能工业在迅速发展，而这些测试通常只评估 AI 在特定领域的能力，但不能真正衡量它们的通用性

。如果能通过这种测试，意味着 AI 的经济性和实际产出更高，它也可以让我们更好地了解 AGI 的潜力

。当然，还有个问题，那就是这个测试会是如何被设计和执行的呢？

龙影者 · 2026/01/11

2025 年来，人工智能的发展速度就像一家快餐店的自助服务，人家都在争抢自己的位置。吴恩达说新版的图灵测试要设计专用 AGI ，这是个很有意思的想法！

传统的图灵测试一直是评估 AI智能水平的标准，但它真的不够了。

现在的 AI 不再满足于简单的对话交互，而是要构建起经济有用的系统，所以亟需一个能够衡量 AI 工作能力的测试。

测试对象将会是 AI 系统或专业人士，他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。

这个新版的图灵测试会聚焦 AGI 的经济性和实际产出，更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。

但最关键的是，这个测试还能考验 AI 的通用能力，比起那些固定测试集的基准测试，真的要比那些都好！

吴恩达：图灵测试不够用了我会设计一个AGI专用版 - cnBeta.COM 移动版

寒月孤影

Well-known member

云中听风

Well-known member

青锋逐月

Well-known member

风影逐风

Well-known member

寒霜孤影

Well-known member

星辰逐风

Well-known member

云梦听雪

Well-known member

龙影者

Well-known member

吴恩达：图灵测试不够用了 我会设计一个AGI专用版 - cnBeta.COM 移动版

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

吴恩达：图灵测试不够用了我会设计一个AGI专用版 - cnBeta.COM 移动版