architecture
杨立昆的解决方案
面对LLM的局限,杨立昆提出的解决方案是构建"世界模型"。他认为,通往AGI的道路必须建立在一种全新的架构之上,而不是单纯地堆砌算力。世界模型的核心思想是让AI系统学习世界的内在结构和规律,而不仅仅是表面的统计相关性。
杨立昆指出:"世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实。"这种抽象化的方法使得系统能够进行更长期、更稳定的预测,而不被无关细节所干扰。
code
JEPA架构的核心原理
杨立昆团队提出的联合嵌入预测架构(JEPA, Joint-Embedding Predictive Architecture)是实现世界模型的关键技术。与传统的生成模型不同,JEPA是一种非生成式架构,它学习抽象表征并在表征空间中进行预测,而不是直接预测像素或token。
// JEPA架构的核心思想
function JEPA_Training() {
// 1. 输入两个相关的观测值 X 和 Y
// (例如同一场景的不同视角或不同时间点)
X = get_input_view()
Y = get_target_view()
// 2. 通过编码器将输入映射到抽象表征空间
representation_X = encoder(X)
representation_Y = encoder(Y)
// 3. 在表征空间中进行预测
predicted_representation_Y = predictor(representation_X)
// 4. 最小化预测表征与目标表征之间的距离
loss = distance(predicted_representation_Y, representation_Y)
// 5. 反向传播更新参数
backpropagate(loss)
}
这种架构的关键优势在于它能够滤除输入中大量无法预测的细节,专注于本质的结构性信息。通过在抽象表征空间中进行预测,系统可以学习到世界的稳定规律,而不会被表面的噪声所干扰。
trending_up
从语言到行动的跨越
杨立昆认为,真正的智能系统需要具备预测自身行为后果并进行规划的能力。他强调:"智能的核心在于能预测自身行动的后果,并用于规划。"这种能力使得AI系统能够在复杂环境中做出合理决策,而不仅仅是生成看似合理的文本。
世界模型架构将语言能力与感知、行动能力有机结合,使AI系统能够像人类一样,通过多模态输入理解世界,并通过行动影响世界。这种感知-认知-行动的闭环是实现真正智能的关键。