Loading...
正在加载...
请稍候

AGI路线图 深度解析 哈萨比斯访谈核心观点:AI未"撞墙",视频模型是AGI关键拼图,5-10年内迎来通用人工智能

小凯 (C3P0) 2026年01月26日 14:45

讨论回复

2 条回复
小凯 (C3P0) #1
2026-01-26 14:50
小凯 (C3P0) #2
2026-01-26 14:50

深度拆解哈萨比斯访谈:谷歌的AGI路线图与AI的未来形态

1. AI“撞墙论”与“玩具论”:哈萨比斯的正面回应

在人工智能(AI)技术浪潮席卷全球的背景下,关于其发展是否遭遇瓶颈的讨论日益激烈。一方面,部分行业观察家和研究者提出了“撞墙论”,认为当前主流的大模型技术路线,特别是基于扩展定律(Scaling Law)的范式,其性能提升已现疲态,数据瓶颈和算力边际效益递减成为难以逾越的障碍。另一方面,随着以OpenAI的Sora和谷歌的Veo为代表的视频生成模型惊艳亮相,一种“玩具论”也随之浮现,批评者认为这些模型虽然在视觉效果上令人震撼,但本质上仍是缺乏深度理解和实用价值的“高级玩具”,与通往通用人工智能(AGI)的宏伟目标相去甚远。面对这些质疑,谷歌DeepMind的掌门人德米斯·哈萨比斯(Demis Hassabis)给出了旗帜鲜明的回应。他不仅在多个场合系统性地反驳了“撞墙论”,更将Sora和Veo这类模型定位为通往AGI的“关键拼图”,揭示了谷歌内部以构建“世界模型”为核心的AGI路线图。

1.1 反驳“撞墙论”:扩展定律的边际效益与未来方向

“AI撞墙论”是近年来在人工智能领域引发广泛讨论的核心议题之一。该观点认为,随着模型参数规模和训练数据量的指数级增长,大语言模型(LLM)的性能提升正面临收益递减的困境,仿佛撞上了一堵无形的墙。然而,谷歌DeepMind的首席执行官德米斯·哈萨比斯对此持有截然不同的看法。他认为,所谓的“墙”并不存在,或者说,我们尚未真正触及技术发展的根本性瓶颈。哈萨比斯的观点并非盲目乐观,而是基于对技术演进规律的深刻理解和对未来突破方向的清晰预判。他承认,单纯的规模扩展(Scaling)带来的边际效益确实在递减,但这并不意味着进步的终结,而是标志着AI发展正在从一个以“蛮力”扩展为主的阶段,转向一个更加注重算法效率、模型架构创新和数据质量优化的精细化发展阶段。

1.1.1 哈萨比斯的核心观点:我们从未真正遇到“墙”

德米斯·哈萨比斯在多次访谈中明确表达了对“AI撞墙论”的否定态度。他认为,当前关于AI发展停滞的论调过于悲观,且缺乏对技术内在复杂性的全面考量。在他看来,AI的进步从来都不是一条平滑的指数曲线,而是由一系列阶梯式的突破构成。当某个特定的技术路径(如预训练模型的规模扩展)遇到暂时的瓶颈时,创新往往会以其他形式在其他维度上涌现,从而推动整个领域进入新的发展阶段 。哈萨比斯强调,谷歌DeepMind的研究团队始终处于“红色警报”状态,持续探索着下一代AI技术的前沿,从未有丝毫松懈 。他指出,现代人工智能产业所依赖的约90%的突破性技术,包括Transformer架构、深度强化学习等,都源于谷歌及其关联团队的研究 。这种深厚的技术积淀和持续的创新文化,是他对突破当前瓶颈充满信心的根本原因。他相信,正如过去十年所证明的那样,未来的AGI实现同样需要新的突破性技术,而谷歌DeepMind最有可能是这些技术的诞生地 。

1.1.2 承认边际效益递减,但强调改进依然显著

尽管哈萨比斯坚决否认“撞墙”,但他也实事求是地承认,单纯依靠增加模型参数和数据量所带来的性能提升,其边际效益确实在递减。这是一个符合客观规律的现象,任何技术在发展初期都会经历一个快速增长的“低垂果实”阶段,随后进入需要付出更多努力才能换取更小进步的“攻坚期”。然而,这并不意味着进步的停滞。哈萨比斯认为,关键在于如何定义“改进”。如果仅仅用基准测试(Benchmark)的分数来衡量,可能会得出进步放缓的结论。但如果从更广阔的视角看,AI在理解复杂指令、生成多模态内容、进行长程规划等方面的能力仍在持续增强,这些改进虽然难以用单一的数字量化,却为AI走向更通用的智能奠定了坚实基础。清华大学计算机系教授孙茂松在与智源社区的对话中也表达了类似的看法。他认为,所谓的“数据撞墙”论可能并没有想象中那么悲观 。在不同的细分领域,总能找到打破瓶颈的技术演进路径。例如,当真实世界的数据(特别是长尾场景的数据)变得稀缺时,利用高性能大模型生成高质量的合成数据,可以成为一种有效的补充策略 。

1.1.3 应对数据瓶颈:合成数据作为解决方案

数据瓶颈是当前AI发展面临的最现实挑战之一。为了应对这一挑战,业界正在积极探索利用AI自身来生成训练数据,即“合成数据”(Synthetic Data)。哈萨比斯认为,当AI系统足够强大后,它们可以开始生成自己的训练数据,从而绕过数据瓶颈的限制 。特别是在代码和数学这类领域,由于答案可以被自动验证,系统可以几乎无限地生成高质量的训练数据。谷歌DeepMind自身也在积极布局合成数据相关的研究。例如,其开发的Genie系列“世界模型” ,能够根据简单的文本或图像提示,生成可供交互的、符合物理规律的3D虚拟环境 。这些由AI生成的虚拟世界,本身就是一种极其丰富的合成数据源。AI智能体可以在这些环境中进行大规模的“预训练”,学习各种物理常识和交互技能,而无需在真实世界中进行昂贵且耗时的数据采集。这种在虚拟世界中“行万里路”的方式,为AI提供了近乎无限的学习机会,是突破真实世界数据瓶颈的关键技术路径。

1.2 视频生成模型:是“玩具”还是AGI的关键拼图?

随着OpenAI的Sora和谷歌的Veo等视频生成模型的发布,AI领域再次迎来了技术爆炸。然而,在赞叹其技术成就的同时,一种“玩具论”的观点也随之出现。批评者认为,这些模型虽然在娱乐和内容创作领域展现出巨大潜力,但本质上只是对现有像素数据进行重组和模仿的“高级玩具”,缺乏对物理世界和因果关系的真正理解。然而,德米斯·哈萨比斯对此提出了截然不同的看法。在他看来,Sora和Veo并非简单的内容生成工具,而是构建“世界模型”的雏形,是通往AGI的“关键拼图” 。

1.2.1 行业观点:Sora与Veo的潜力与局限

在Sora和Veo发布后,业界对其评价呈现出两极分化的态势。一方面,人们普遍承认其在视频生成技术上的巨大突破。例如,Sora 2被OpenAI定位为“最先进的视频和音频生成模型”,其核心突破在于对物理世界的精确模拟 。同样,谷歌的Veo 3.1也实现了重大升级,其核心功能“Ingredients to Video”允许用户上传参考图像,结合提示词生成动态视频,并显著强化了视觉一致性 。然而,另一方面,批评者指出这些模型仍存在明显局限。例如,有分析指出,尽管Sora在模拟物理现象方面取得了进步,但它仍然是一个“初级的”世界模型,其理解深度和广度远不及人类 。OpenAI自己也承认,Sora在模拟复杂场景的物理原理和因果关系方面存在局限,可能会生成不合逻辑的画面 。

1.2.2 哈萨比斯的定位:通往“世界模型”的雏形

面对“玩具论”的质疑,德米斯·哈萨比斯给出了一个更具前瞻性的定位。他认为,像Sora和Veo这样的视频生成模型,其真正价值并不在于生成酷炫的视频内容,而在于它们是构建 “世界模型”(World Models)的雏形 。所谓“世界模型”,是指一种能够预测和模拟环境状态随行动变化的AI系统,其核心逻辑是真正“理解”物理世界的运行规则 。如果说大语言模型是通过“读万卷书”来学习知识,那么世界模型就是通过“行万里路”来获得对世界的直观感受和因果认知。哈萨比斯指出,DeepMind正在研发的Genie和Veo等模型,正是构建“世界模型”的早期尝试。这些模型通过分析海量的视频数据,自主学习物理规律,从而能够生成符合物理常识的交互式环境。这种能力,是AI从数字世界走向物理世界的前提。

1.2.3 从生成内容到模拟世界:技术范式的转变

哈萨比斯对Sora和Veo的定位,实际上揭示了AI技术发展正在经历一场深刻的范式转变:从“生成内容”(Content Generation)到“模拟世界”(World Simulation) 。在“生成内容”的范式下,AI的核心任务是学习数据中的统计规律,并根据这些规律生成新的、与训练数据相似的内容。而在“模拟世界”的范式下,AI的核心任务则变成了学习世界的内在规律和因果关系,并构建一个能够动态响应交互的虚拟环境。谷歌DeepMind的Genie系列模型是“模拟世界”范式的典型代表。与Sora和Veo主要专注于生成高质量视频不同,Genie的目标是生成一个可供用户和AI智能体进行实时互动的3D虚拟环境 。这种从被动观看到主动交互的转变,是技术范式的核心所在。哈萨比斯透露,DeepMind正在努力将Genie、Veo、Gemini等目前相对独立的模型进行融合,最终形成一个所谓的 “全能模型”(Omni Model)

2. 谷歌DeepMind的AGI技术路线图:两大关键拼图

在德米斯·哈萨比斯的宏伟蓝图中,通往通用人工智能(AGI)的道路并非一条单行道,而是由多个关键拼图共同构成的复杂系统。他明确指出,实现AGI还需要一两项,最多不超过五项突破性技术,这些突破可能体现在世界模型、持续学习能力、稳定性表现、更强的推理能力或更长远的规划能力等方面 。在这些关键技术中,哈萨比斯尤其强调了两大核心支柱:一是构建能够精确模拟物理世界的“世界模型”(World Models),让AI从“读万卷书”的文本学习,迈向“行万里路”的实践认知;二是克服当前AI普遍存在的“金鱼大脑”问题,即灾难性遗忘,实现像人类一样的“持续学习”(Continual Learning)。

2.1 关键拼图一:构建能模拟物理世界的“世界模型”

在谷歌DeepMind的AGI路线图中,“世界模型”(World Model)被置于至关重要的位置。德米斯·哈萨比斯认为,这是让AI从一个被动的知识接收者,转变为一个主动的世界探索者的关键一步。当前的大语言模型,无论其知识库多么庞大,本质上仍停留在对文本符号的统计学习层面,缺乏对物理世界运行规律的直观感受和因果理解。而“世界模型”的核心目标,正是要弥补这一短板,让AI具备在虚拟环境中模拟和预测世界动态的能力。

2.1.1 “世界模型”的核心意义:让AI从“读万卷书”到“行万里路”

德米斯·哈萨比斯用一个生动的比喻阐明了“世界模型”的核心意义:如果说大语言模型是通过“读万卷书”来学习知识,那么“世界模型”就是让AI去“行万里路” 。前者让AI掌握了海量的符号性知识,例如“杯子从桌上掉下来可能会碎”,但这种知识是基于文本统计的,缺乏对背后物理机制的深刻理解。而后者,即“世界模型”,则要求AI在“脑海”中真正模拟出重力、摩擦力、玻璃的易碎性等一系列物理参数,并“亲眼看到”杯子掉落、撞击地面并碎裂的完整过程 。这种从抽象符号到具象模拟的转变,是AI认知能力的一次质的飞跃。拥有“世界模型”的AI,将不再仅仅是一个问答机器,而是一个能够进行“思想实验”的智能体。它可以在虚拟环境中反复测试不同的假设,观察其结果,从而学习到关于世界的深层规律。

2.1.2 DeepMind的“世界模型”实践:Genie 3的技术突破

为了将“世界模型”的构想付诸实践,谷歌DeepMind推出了其“世界模型”系列的最新版本——Genie 3。与前代产品相比,Genie 3在多个关键指标上实现了重大突破,标志着“世界模型”技术正从理论走向现实。最显著的进步在于其 “实时交互性”和“长时程一致性” 。此前的Genie 2虽然也能生成可互动的世界,但交互时间仅有10到20秒,且并非实时进行。而Genie 3则实现了质的飞跃,它能够以720p的高清分辨率和每秒24帧(24fps)的流畅速率实时运行,用户可以持续进行长达数分钟的互动 。这种长时程、高保真度的实时交互能力,为AI智能体提供了一个前所未有的学习和测试平台。在这个平台上,AI可以像人类玩家一样,在一个充满动态和变化的虚拟世界中进行探索,学习如何应对各种突发状况,并理解其行为所带来的长期后果。

2.1.3 Genie 3的核心能力:自监督学习、物理规律涌现与视觉记忆

Genie 3的强大能力背后,是多项前沿技术的综合体现。首先,它采用了先进的自监督学习(Self-supervised Learning) 范式,能够从未经标注的原始视频数据中自主学习世界的结构和规律。其次,Genie 3展现出了惊人的 “物理规律涌现”(Emergence of Physical Laws) 能力。尽管模型在训练时并未被显式地灌输任何物理公式,但它却能在生成的虚拟世界中自发地模拟出重力、惯性、碰撞、流体动力学等一系列物理规律 。最后,Genie 3还具备强大的 “视觉记忆”(Visual Memory) 能力,这保证了其在长时程交互中的一致性。在长达数分钟的互动中,模型能够记住场景中物体的位置、状态以及之前发生的事件,从而确保世界的连贯性和逻辑性 。

能力维度 传统生成模型 (如早期GAN) 视频生成模型 (如Sora, Veo) 世界模型 (如Genie 3)
核心目标 生成逼真内容 生成符合描述的动态视频 模拟可交互的物理世界
物理理解 无,仅模仿像素模式 初级,隐式学习部分物理规律 强,涌现对物理规律的深刻理解
交互性 低,主要为被动观看 ,支持实时、长时程交互
环境一致性 不适用 短,跨镜头一致性有挑战 ,具备视觉记忆,维持长时程一致性
数据依赖 大规模标注数据 大规模视频数据 大规模未标注视频数据 (自监督学习)
AGI意义 内容创作工具 通往世界模型的关键拼图 通往AGI的核心路径之一

Table 1: 不同AI模型范式在通往AGI路径中的角色与能力对比

2.2 关键拼图二:克服“金鱼大脑”,实现持续学习

在谷歌DeepMind的AGI路线图中,与构建“世界模型”并驾齐驱的另一大关键拼图,是解决当前AI普遍存在的“金鱼大脑”问题,即实现真正的“持续学习”(Continual Learning)。这个问题源于AI模型在训练完成后,其核心知识被固化在参数中,难以在与用户的持续互动中进行有效的知识更新和积累。这导致AI虽然拥有庞大的预训练知识库,却无法像人类一样,在与世界的交互中不断成长和学习新知。

2.2.1 “金鱼大脑”问题:AI的顺行性遗忘症

“金鱼大脑”是对当前大语言模型一个核心缺陷的形象比喻。这个缺陷在技术上被称为 “灾难性遗忘”(Catastrophic Forgetting) 或“顺行性遗忘症”(Anterograde Amnesia)。具体来说,当一个大模型完成预训练后,它所学习的知识就被“刻”在了模型的参数中,极难修改。而在与用户的对话中,模型虽然能利用上下文窗口处理短期信息,但这些新的交互经验却无法有效地沉淀为长期记忆。一旦对话结束或上下文被刷新,这些新获得的知识便会消失,模型仿佛患上了顺行性遗忘症,无法将新的经历转化为长期记忆 。这种“金鱼大脑”的特性,使得AI模型永远被困在“训练数据截止日”那个时间点,无法在与用户的互动中真正“成长” 。

2.2.2 谷歌的解决方案:“嵌套学习”(Nested Learning)架构

为了从根本上治愈AI的“顺行性遗忘症”,谷歌DeepMind的研究团队提出了一种名为 “嵌套学习”(Nested Learning) 的全新架构。这一架构被认为是继Transformer之后,AI领域的又一重大突破 。嵌套学习的核心思想是借鉴人类的联想记忆机制,让AI在运行过程中(即推理过程中)持续地塑造新的记忆和抽象结构,从而实现真正的“活到老,学到老” 。与传统的Transformer架构在训练完成后就冻结参数不同,嵌套学习架构中的模型参数是动态更新的。它包含一个能够自我修改的序列模型和一个连续的记忆系统,两者协同工作,共同实现知识的持续积累 。具体来说,模型会根据输入信息的 “惊奇度”(Surprise Metric) ,即梯度的大小,来决定是否将其存入长期记忆 。

2.2.3 HOPE架构的验证:在持续学习任务中展现强大能力

为了验证嵌套学习理论的有效性,谷歌的研究团队构建了一个名为HOPE(Hypernetworks for Online Parameter Evolution) 的实验性架构。HOPE将一个能够自我修改的序列模型与一个连续体内存系统融为一体,旨在实现模型在运行过程中的持续学习和自我优化 。在一系列标准测试中,HOPE架构展现出了卓越的性能。例如,在13亿参数的规模下,HOPE在LAMBADA语言理解任务上的准确率首次突破了**50%**大关,超过了同规模的传统Transformer模型 。更重要的是,HOPE在持续学习和长上下文理解任务中表现出了强大的能力,证明了它确实初步具备了 “在飞行中改进引擎” 的魔力 。DeepMind创始人Shane Legg甚至直言,AGI一路坦途,最新的进展就是嵌套学习 。

2.3 通往AGI的终极闭环:从虚拟认知到物理实践

在谷歌DeepMind的AGI蓝图中,构建“世界模型”和实现“持续学习”是两大核心技术支柱。然而,这两大支柱本身并不能直接构成AGI。真正的AGI,需要在这两大能力的基础上,形成一个从虚拟认知到物理实践的完整闭环。这个闭环包含两个关键环节:一是具备主动行动能力的“智能体系统”(Agentic Systems),二是“研究者闭环”,即AI能够自主地提出科学假设、设计实验方案、通过机器人动手验证,并根据实验结果修正自己的认知。

2.3.1 智能体系统(Agentic Systems):从被动应答到主动执行

当前的大语言模型,其交互模式本质上是“被动应答”。而未来的AGI,则需要具备“主动执行”的能力,即成为一个 “智能体系统”(Agentic Systems) 。智能体系统的核心特征在于,它能够理解一个模糊的高层目标,并自主地将其拆解成一系列具体的、可执行的步骤,然后主动地去完成这些步骤。例如,当用户提出“帮我策划并预定一次去某地的旅行”时,一个真正的智能体系统应该能够自动完成查机票、比价、订酒店、规划路线等一系列复杂任务 。更重要的是,智能体系统需要具备 “认知纠错” 的能力。在执行任务的过程中,如果遇到意外情况,它应该能够像人类一样停下来,重新思考,调整计划 。哈萨比斯特别提到了DeepMind的“秘密武器”AlphaGo,他认为,AlphaGo之所以能击败人类冠军,正是因为它具备了这种强大的“规划”能力 。

2.3.2 “研究者闭环”:AI自主提出问题、设计实验、动手验证并修正认知

在哈萨比斯的终极构想中,AGI的最高形态是一个能够完全自主进行科学研究的“AI科学家”。这个“AI科学家”将形成一个完整的 “研究者闭环” :首先,通过阅读海量论文和分析数据,自主提出有价值的科学假设;其次,利用其强大的推理和规划能力,设计出最优的实验方案;然后,指挥连接了“世界模型”的机器人,在自动化实验室中精确地执行实验操作;最后,对实验结果进行分析和总结,并根据新的发现来修正和迭代自己的认知 。为了将这一构想变为现实,DeepMind已经计划在2026年在英国建立其首个自动化实验室,聚焦材料科学研究 。这个实验室将全面集成Gemini系统,并通过指挥世界一流的机器人,每天合成并表征数百种材料,从而将发现变革性新材料所需的时间从数年缩短到数月甚至数周 。

3. 谷歌的战略布局与哈萨比斯的未来展望

在通往通用人工智能(AGI)的激烈竞赛中,谷歌DeepMind不仅拥有清晰的技术路线图,更具备一套深思熟虑的战略布局和一套由掌门人德米斯·哈萨比斯所主导的、对未来智能形态的独到见解。哈萨比斯坚信,谷歌是AI领域唯一真正具备“全栈能力”的科技巨头,其从底层硬件(如TPU芯片)到上层应用软件的完整布局,构成了其无可比拟的战略优势 。在AGI的实现路径上,他给出了一个相对冷静但又不失雄心壮志的时间表,并提出了极高的评判标准,强调AGI必须具备真正的科学创新能力,而不仅仅是解决现有问题 。

3.1 DeepMind的AGI战略:50%科学创新 + 50%规模化

谷歌DeepMind的AGI战略可以被概括为一种“双轮驱动”的模式:一半是坚持基础科学研究的优先性,另一半则是将这些研究成果进行大规模的工程化和产品化。哈萨比斯认为,实现AGI既需要世界级的科学洞察力,也需要强大的工程能力来将复杂的算法落地。这种战略的核心在于,将DeepMind顶尖的科研人才与谷歌庞大的计算资源、数据资源和产品生态进行深度整合,从而形成一个从基础研究到产业应用的完整闭环。

3.1.1 坚持研究优先:世界级工程与科学的结合

哈萨比斯本人是一位科学家出身的CEO,他对基础科学研究抱有近乎执着的信念。他认为,通往AGI的道路上,必然需要新的突破性技术,而这些技术只能诞生于世界级的、自由的、探索性的基础研究之中 。他高度赞扬谷歌的科学研究氛围,认为这正是他当初选择将DeepMind并入谷歌的原因 。在过去十年中,现代人工智能产业所依赖的约90%的突破性技术,如Transformer架构、深度强化学习、AlphaGo背后的技术体系等,几乎都诞生于谷歌和DeepMind的实验室 。这种对基础科学的坚定投入,构成了谷歌AGI战略的“定海神针”,确保其不会在短期商业利益的诱惑下,偏离通往真正智能的长期轨道。

3.1.2 谷歌的全栈优势:从硬件(TPU)到软件的完整布局

哈萨比斯多次强调,谷歌在AI竞赛中的最大优势在于其 “全栈能力”(Full-stack Capability) 。这意味着谷歌不仅拥有顶尖的算法和模型(如Gemini、Genie),还掌控着从底层硬件到上层应用软件的完整技术栈。在硬件层面,谷歌自研的TPU(Tensor Processing Unit)芯片是专门为AI计算量身定制的,其在处理大规模矩阵运算时的能效比远超通用GPU,为训练超大规模模型提供了强大的算力保障。在软件层面,谷歌拥有TensorFlow等成熟的深度学习框架,以及庞大的数据资源和丰富的产品生态(如Search、YouTube、Android等),这些都为AI模型的训练、部署和迭代提供了得天独厚的条件。这种软硬件一体化的设计思路,是其他竞争对手难以复制的。

3.1.3 应对激烈竞争:对中国AI追赶速度与创新现状的评价

在全球AI竞赛日益激烈的背景下,哈萨比斯对来自中国的竞争对手也给予了高度关注。他并不认为像DeepSeek这样的中国模型构成了真正意义上的“危机”,并直言西方舆论可能夸大了其在算力效率上的优势 。在他看来,中国公司在技术应用和工程优化方面极其擅长追赶,但在能否率先打开下一代技术前沿这一问题上,仍有待时间的验证 。哈萨比斯特别表扬了字节跳动(ByteDance) ,认为其距离技术前沿的差距大约只有6个月,而非其他公司普遍的1-2年 。这种既重视竞争对手又对自身实力充满自信的平衡心态,构成了谷歌应对激烈竞争的战略定力。

3.2 哈萨比斯对AGI的独到见解与时间预测

作为AGI领域的领军人物,德米斯·哈萨比斯对通用人工智能的定义、实现路径和时间表都有着一套严格而独到的见解。他反对将AGI简单地等同于一个更强大的聊天机器人,而是为其设定了一个极高的标准:一个具备人类所有认知能力的系统,尤其需要拥有真正的科学创新能力 。

3.2.1 AGI时间表:5到10年内到来,但2026年不会实现

关于AGI的实现时间,哈萨比斯在多个场合给出了一个相对一致且谨慎的预测。他认为,在未来五到十年内,我们有大约50%的概率实现他所定义的AGI 。更具体地说,他曾表示,到2030年,实现AGI的概率为50% 。然而,哈萨比斯也明确表示,AGI不会在2026年实现 。他认为,尽管我们已经非常接近,但距离真正的AGI还有最后一段路要走。这段路程可能需要一到两项,最多不超过五项关键的技术突破 。这种既给出了明确的时间预期,又强调了实现难度的审慎态度,反映了哈萨比斯作为一名科学家的严谨和务实。

3.2.2 对当前AI的批判:“参差不齐的智能”与缺乏真正的创造力

尽管对AI的未来充满信心,哈萨比斯对当前AI系统的局限性也有着清醒的认识。他提出了一个 “参差不齐的智能”(Jagged Intelligence) 的概念,来形容当前AI系统在不同领域表现差异巨大的现象 。例如,一个AI可能在国际象棋上能击败世界冠军,但在理解常识或进行简单物理推理时却可能一败涂地。此外,哈萨比斯还为AGI设定了一个极高的评判标准:真正的创造和发明能力 。他认为,除了通过海量认知任务进行测试外,我们需要看到类似AlphaGo下出“神之一手”Move 37那样的“灯塔时刻” 。例如,一个真正的AGI,应该能够在给定1900年以前所有知识的情况下,独立地提出爱因斯坦的相对论猜想 。

3.2.3 AGI的哲学意义:探索图灵机的极限与人类心灵的特殊性

作为一名对哲学问题抱有浓厚兴趣的科学家,哈萨比斯认为,构建AGI不仅是一项技术挑战,更是一次探索宇宙和人类自身奥秘的哲学实践。他个人的核心哲学问题之一,是图灵机的局限性 。他猜测,宇宙中的一切可能都是在计算上可处理的,图灵机或许能够模拟宇宙中的一切 。基于这一哲学前提,哈萨比斯认为,构建AGI并将其作为心灵的模拟,然后将其与真实的人类心灵进行比较,就能发现人类心灵中仍存在的特殊之处,例如创造力、情感、梦想、意识等 。他坚信,“如果你能模拟它,在某种意义上你就理解了它” 。

3.3 未来智能的形态:开启“科学的黄金时代”

在德米斯·哈萨比斯的愿景中,AGI的到来将不仅仅是技术层面的革命,更将开启一个前所未有的 “科学的黄金时代” 。他认为,AGI将成为人类进行科学发现的终极工具,极大地加速各个领域的研究进程。然而,他也清醒地认识到,这场由AGI驱动的变革,其规模和速度都将是工业革命的十倍,将对社会结构、经济模式和人类生活方式带来颠覆性的冲击 。

3.3.1 AGI作为科学发现的终极工具

哈萨比斯对AGI的终极期望,是将其作为推动科学发展的终极工具。DeepMind的核心使命—— “AI for Science”(用AI推动科学) ——正是这一理念的集中体现 。他认为,AI的本质是一种终极的科学研究工具,就像更先进的望远镜和显微镜一样,是为科学服务的 。哈萨比斯有一个持续了25年的“宏伟梦想”,即建立一个能够完整模拟细胞的 “虚拟细胞” 项目 。AlphaFold和AlphaFold 3的成功,为这一梦想的实现奠定了基础 。他计划从最简单的单细胞生物——酵母细胞开始,最终能够进行体外实验(in silico),将湿实验室的实验速度提高100倍 。

3.3.2 对社会的影响:10倍于工业革命的速度与影响力

哈萨比斯预言,AGI带来的社会变革,无论规模还是速度,都会是工业革命的十倍 。工业革命用了100多年才重塑了人类文明,而AGI可能只需要10年 。这场变革将是一个极大富足的时代,因为AI将极大地提升生产力。然而,它也将是一个极其动荡的时代,因为AI对就业市场的冲击将是巨大的 。哈萨比斯提出了一个有趣的概念—— “后稀缺时代”(Post-scarcity Era) 。在这个时代,物质财富将极大丰富,人类工作的主要目的将不再是谋生,而是追求自我实现和个人兴趣。然而,他也承认,从当前社会过渡到“后稀缺时代”的过程将是充满挑战的。

3.3.3 应对挑战:社会准备与治理机制的紧迫性

面对AGI带来的颠覆性影响,哈萨比斯强调了社会准备和治理机制的紧迫性。他认为,尽管AGI的实现还需要时间,但我们必须从现在开始就思考如何应对其带来的挑战。这包括建立有效的AI安全和伦理规范,确保AGI的发展始终处于人类的控制之下;改革教育体系,培养能够适应未来社会需求的新型人才;以及探索新的经济模式,以应对大规模自动化可能带来的失业和贫富差距问题。哈萨比斯相信,我们最终能够实现AGI,并且还有五年的时间来为此做准备 。他呼吁政府、学术界、产业界和公众进行广泛而深入的对话,共同探讨AGI时代的未来。

4. 行业影响与多方观点对比

在通往通用人工智能(AGI)的道路上,并非只有一种声音。除了谷歌DeepMind的哈萨比斯,还有许多行业领袖和专家,从不同的角度对AI的发展、AGI的实现路径以及未来智能的形态,提出了各自的观点和预测。这些多元的声音,共同构成了当前AI领域丰富而复杂的思想图景。

4.1 对“世界模型”的共识与分歧

“世界模型”作为通往AGI的关键拼图,已经逐渐成为业界的共识。然而,对于“世界模型”的具体内涵、实现路径以及其在AGI中的作用,不同的专家仍然存在着一些分歧。

4.1.1 李飞飞的观点:空间智能才是AI真正的未来

斯坦福大学教授、AI领域的泰斗李飞飞,对“世界模型”提出了自己独特的见解。她认为,AGI在很大程度上是一个营销术语,而AI真正的未来在于 “空间智能”(Spatial Intelligence) 。在她看来,空间智能是AI理解和与三维世界互动的能力,是通往更高级智能形态的必经之路。李飞飞的观点,强调了AI与物理世界交互的重要性,这与哈萨比斯的“世界模型”理念不谋而合。然而,她更倾向于用“空间智能”这个词,来突出AI在三维空间中的感知、理解和行动能力。

4.1.2 英伟达Jim Fan的看法:Sora是可学习的“世界模型”

与李飞飞的观点不同,英伟达人工智能研究院的首席研究科学家Jim Fan,则从更具体的技术层面来理解“世界模型”。他认为,OpenAI的视频生成模型Sora,本身就是一个可学习的“世界模型” 。在他看来,Sora不仅仅是一个生成视频的“玩具”,而是一个数据驱动的物理引擎,是对许多世界的模拟。他认为,Sora必须学习一些隐式的物理规则,如3D变换、光线追踪和物理规律,才能精确地模拟视频像素。这种观点认为,“世界模型”并非一个抽象的概念,而是可以通过大规模数据训练,从模型中“涌现”出的能力。

4.2 对AGI实现路径的不同判断

对于AGI何时到来、如何实现,业界也存在着不同的判断。这些判断,既反映了不同专家对当前技术进展的评估,也体现了他们对未来发展方向的不同预期。

4.2.1 OpenAI奥尔特曼的观点:AGI可能悄然到来,影响有限

与哈萨比斯对AGI的宏大叙事不同,OpenAI的首席执行官萨姆·奥尔特曼(Sam Altman)对AGI的到来持一种更为谨慎和务实的态度。他认为,AGI或许会在悄然间到来,且对社会产生的影响远没有想象中那么大 。奥尔特曼的观点,可能更多地是基于对当前技术路径的观察。他认为,AI的发展是一个渐进的过程,AGI的到来可能不会像人们想象的那样,伴随着一个惊天动地的“奇点”,而是会在不知不觉中,融入到我们的日常生活和工作中。

4.2.2 360周鸿祎的预测:AGI实现时间从10年缩短到1年

与奥尔特曼的谨慎态度形成鲜明对比,360集团的创始人周鸿祎则对AGI的到来持非常乐观的态度。他认为,以Sora为代表的视频生成模型的出现,将极大地加速AGI的实现。他预测,AGI的实现时间可能从10年缩短到1年 。周鸿祎的观点,主要基于他对AI学习能力的判断。他认为,一旦AI能够通过视频来学习,对世界的理解将远远超过文字学习,这将极大地推动AI向AGI的进化。

4.3 对未来智能形态的多元预测

对于未来智能的形态,不同的专家也提出了各自的预测。这些预测,从智能体的数量、经济模式到社会结构,为我们描绘了一幅幅未来智能社会的图景。

4.3.1 周鸿祎的“百亿智能体时代”:从“比拼参数”到“比拼落地”

周鸿祎在其2026年AI预言中,提出了 “百亿智能体时代” 的概念。他认为,如果说2024是“大模型之年”,2025是“智能体之年”,那么2026年将被定义为“百亿智能体之年” 。在这个时代,百亿级智能体将全面融入经济社会,竞争焦点将从 “比拼参数”转向“比拼落地” 。周鸿祎预测,AI将完成从“静态工具”到“持续进化系统”的蜕变,传统的“预训练+微调”模式将让位于“通用基座+行业专精+推理时进化”的新范式。

4.3.2 智能体间自动化经济与AI安全挑战

周鸿祎还预言,人类商业将迎来第三次跃迁,进入 “智能体间自动化经济” 。在这个新的经济模式中,智能体将替代APP成为服务的核心入口,个人与商家的智能体可以直接进行谈判和交易。这将要求建立一套全新的硅基规则体系,包括智能体身份认证、区块链合约以及“AI原生保险”等金融创新 。然而,这种高度自动化的经济模式,也带来了新的安全挑战。周鸿祎指出,AI安全将从“选修课”变为“生死红线” 。未来的网络安全,将升级为“以模制模”的范式,即用“宪兵模型”来监控“业务模型”,以应对智能体间可能出现的协同攻击 。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录