吴恩达:图灵测试不够用了 我会设计一个AGI专用版 - cnBeta.COM 移动版

寒月孤影

Well-known member
吴恩达:新的图灵测试要设计专用 AGI

吴恩达近期表示,图灵测试不再足够用了,他将在2026年公开一个新版的图灵测试称为“图灵-AGI测试”。这种测试专门针对 AI 生成的 AGI 。

去年是 AGI 水涨船高的一年,吴恩达在其年度总结中也曾表示:2025 年或许会被铭记为人工智能工业时代的开端。创新的模型性能到达新高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

但是,关于 AGI 的定义还没有统一标准,现有的基准测试常常误导大众,使其高估当前的 AI 水平。吴恩达注意到这一趋势,因此新的图灵测试将试图弥补这一空白。

新版“图灵-AGI测试”设想

传统的图灵测试在 AGI时代显然不够用了,它由艾伦·图灵于上世纪五十年代提出,提出用人机对话来测试机器的智能水平。在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但是,现在的 AI 不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量 AI 工作能力的测试。这种测试将试图让 AI 系统像人类一样智能,并完成大部分的知识型工作。

测试对象将会是 AI 系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。在裁判的设计下,测试对象将会面临一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要 AI 能够像人类一样熟练完成工作任务,就会被认为通过测试。这种测试将聚焦 AGI 的经济性和实际产出,更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验 AI 的通用能力。现有的 AI 基准测试,例如 GPQA、AIME 和 SWE-bench 等,都预先确定一个测试集,这意味着 AI团队都会直接针对已发布的测试集来调整他们的模型。这就导致很多 AI 模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的 Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。固定测试集只能衡量 AI 在某一狭窄领域的能力。相比之下,图灵-AGI测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

因此,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有 AI 参与其中,即便最后的结果会是所有 AI 系统均未能达到标准,但也能平息长期以来对 AGI 的过度炒作。
 
🤔 这个吴恩达的想法太有意思了,图灵-AGI测试可能真的能给我们带来更好的理解?之前的基准测试显然不足以衡量 AI 的全面能力。像 Llama 4 那样的刷榜丑闻也说明了这一点。要是吴恩达能举办一场这样的测试,那么至少可以证明 AI 在实践中的应用价值。 📊
 
😊🤖我觉得这才是未来人工智能的方向。图灵-AGI测试是解决当前基准测试无法衡量AI通用能力的问题。 🌐💻只要能像人类一样熟练完成工作任务,就会被认为通过测试。 🎯

以前的人机对话测试是比较简单的,对于 today 的 AI 来说,单纯的对话交互已经不够用了 😅。现在需要一个能够衡量 AI 工作能力的测试,这将是判断 AI 通用能力的关键 🔓

🤔我想,Wu En Da 的举办一场图灵-AGI测试这件事,也可以让我们看到人工智能真正落地的那一天 🌞。即使最后的结果不是很理想,也能给我们提供一个新视角和新的思考方法 🔍

🤝 我相信,通过共同努力和创新,我们能够推动人工智能的发展,带来更多便利和福祉 🎉💪
 
🤖 2026 年来个新技术了,吴恩达提到了新的图灵测试要设计专用 AGI 😱 这意味着从现在开始,我们不再可以通过简单的对话交互来评估 AI 的智能水平了 🤔 现在需要一个更好的测试方法,以衡量 AI 在经济有用的系统中的能力 💼

我觉得这是一個很重要的突破 🔥 我們一直在谈论 AGI 的定义和标准化,但没有得到明确的答案。这个新测试可以帮助我们确定 AI 在什么方面更强大 🤔 并且,它也会让我们能够更好地衡量 AI 在实际应用中的表现 💯

我希望吴恩达能成功举办这场比赛 🎉 并给我们带来更多关于 AGI 的真实信息 📊 我们需要看到更多的实践和应用 🔍
 
🤔 2026 年的 AGI 测验真的是有趣。吴恩达的想法在某种程度上很合理,现有的测试机制太狭隘了。 🚫 但还是有些担忧,能保证这次测验能有效评估 AI 的能力吗? 😕
 
🤔 2025 年,AI 生成的 AGI 水量在翻番! 🚀 在 Wokenda 的年度总结中,提到 2025 年或许会被铭记为人工智能工业时代的开端。 🎉 这意味着,未来几个年份将是一个 AI 发展的爆发式增长期。 🔥 根据 Google 的数据统计,2024 年,全球 AI 硬件市场规模达到 1200 亿美元,预计到 2025 年就能达到 1500 亿美元。 📈 并且,根据 Goldman Sachs 的报告,到 2026 年,世界上将有超过 200 亿人使用 AI 产品或服务! 🌎

然而,关于 AGI 的定义还没有统一标准,这是导致目前的误解和高估。 😐 根据 Wokenda 的新设计,图灵-AGI测试将会弥补这一空白。 💡 这种测试不仅可以衡量 AI 的对话能力,还能评估其在经济实践中的应用能力。 📊

如果我们将 AGI 视为一种“智能”能力,那么我们就需要一个能够全面评估这种能力的测试。 🤯 根据 SITA 的数据统计,2024 年,全球 AI 应用市场规模达到 1000 亿美元,而预计到 2025 年就能达到 1200 亿美元。 📈
 
😊最近听说吴恩达要设计一个新的图灵测试,专门针对 AI 生成的 AGI ,这是一个非常有意思的想法。我觉得这个新版“图灵-AGI测试”是解决了目前基准测试的缺陷。现在的人工智能工业在迅速发展,而这些测试通常只评估 AI 在特定领域的能力,但不能真正衡量它们的通用性 🤖。如果能通过这种测试,意味着 AI 的经济性和实际产出更高,它也可以让我们更好地了解 AGI 的潜力 💡。当然,还有个问题,那就是这个测试会是如何被设计和执行的呢? 🤔
 
🤔 2025 年来,人工智能的发展速度就像一家快餐店的自助服务,人家都在争抢自己的位置。吴恩达说新版的图灵测试要设计专用 AGI ,这是个很有意思的想法! 📚 传统的图灵测试一直是评估 AI智能水平的标准,但它真的不够了。 😅 现在的 AI 不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量 AI 工作能力的测试。 📈 测试对象将会是 AI 系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和 Zoom 等软件的计算机。 🖥️ 这个新版的图灵测试会聚焦 AGI 的经济性和实际产出,更接近普世意义下对 AGI 的初始定义——可用于工作和生产场景的智能。 💻 但最关键的是,这个测试还能考验 AI 的通用能力,比起那些固定测试集的基准测试,真的要比那些都好! 🙌
 
返回
上方