深入解析"出口假设"的理论框架,探索从浅层理解到深层理解的认知飞跃
真正的语言理解需要将信息从核心语言系统"出口"(export)到其他功能特异化的脑区,以构建关于语言所描述情境的丰富心理模型。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
核心语言系统如同一个邮件室,负责接收、分拣和标记信息,但真正的意义只有在这些信息被递送到正确的"部门"后才能产生。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="hover:underline" target="_blank"> [48]
由大脑左半球额叶和颞叶区域构成的核心语言网络完成,功能局限于处理语言的表层形式。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
局限性:停留在符号操作层面,与真实世界经验脱节
超越语言系统本身的全面认知体验,构建关于所描述情境的生动心理模型。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
特征:具身性(embodiment)和情境性(contextuality)的统一
情境模型是指个体在理解叙事性文本时,在脑海中构建的关于故事中人物、地点、事件及其相互关系的综合性表征。 [41] 这种模型是动态的、多维度的,不仅包含文本明确提供的信息,还整合了个体的背景知识、推理和想象。
"当读到'Sid去了厨房'时,读者不仅会记住这个动作,还会推断Sid的意图(可能是为了找食物或喝水),并可能在脑海中构建一个关于厨房布局的模糊图像。"
— 情境模型构建示例
探索信息导出的源头、目的地与本质过程,及其对AI研究范式的深远启示
支持缩放和拖拽操作,点击重置按钮恢复默认视图
大脑左半球额叶和颞叶区域构成的专门化网络,负责处理语言信息的初步解码和结构化。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
从抽象符号处理到具体多模态表征的深刻转换,实现语言符号的"接地"过程。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
多个功能高度特化的脑区组成的分布式网络,各自负责处理和整合特定类型的知识和经验。 [36]
真正的理解需要融合多模态信息和世界知识,构建具有感知经验的AI系统。
清华大学万格智能团队参照人脑"分层—循环"机制搭建的类脑架构,体现了模块化设计的先进理念。 [63]
fMRI技术为"出口假设"提供坚实的实证基础,揭示语言理解的神经机制
精确描绘核心语言系统轮廓,识别语言特异性激活脑区
识别信息导出的目的地脑区,揭示跨系统协同模式
实时观测不同脑区的协同激活模式和信息交换过程
当语言描述涉及地点、空间布局或导航路径时,大脑中负责场景理解和空间导航的特定区域会被显著激活,主要包括旁海马回位置区(PPA)和压后皮层(RSC)。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
当语言涉及他人的信念、意图、欲望等心理状态时,信息会被传递到以右侧颞顶交界区(rTPJ)为核心的ToM网络,这个网络专门负责推断和理解他人的内心世界。 [45]
"她以为他爱她,但他心里却想着另一个人"
— 涉及复杂心理状态的句子示例
当语言描述涉及具体的动作或生动的感官体验时,相应的运动皮层和感知皮层会被激活,这种现象被称为"动作-语义一致性效应"。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="text-blue-600 hover:underline" target="_blank"> [48]
通过"感知模拟"重现相关经验,使理解变得生动具体
图示清晰展示语言理解作为分布式、多系统协同的过程,强调核心语言系统作为信息枢纽的角色。
仅核心语言系统激活,局限于符号处理
多系统协同激活,构建丰富心理模型
深层理解需要调动全脑范围的神经资源,实现从符号操作到意义生成的飞跃
从神经科学视角审视大语言模型的理解瓶颈与改进路径
LLM缺乏与真实世界相连的"出口",整个认知世界构建在文本数据之上,无法将语言符号与真实世界的感知、运动和情感体验联系起来。 @riazleghari/why-ai-still-cant-truly-understand-language-b5931972e4ab" class="hover:underline" target="_blank"> [48]
LLM就像一个被关在图书馆里、从未见过外面世界的博学之士。它知道所有关于"猫"的词汇和描述,但从未真正"见过"猫、"摸过"猫,也从未体验过与猫互动的情感。
让模型同时处理文本、图像、声音、视频甚至机器人传感器数据,为其提供丰富的多模态信息。
整合知识图谱、物理引擎、符号逻辑系统等结构化知识库。
将AI模型置于物理实体中,通过传感器感知环境,在与真实世界的直接互动中学习和构建世界模型。
比较LLM内部激活与人类fMRI数据的表征结构
检测模型是否存在类似人类的模块激活模式
通过干预内部状态探究不同模块的功能
通过这些精细的比较,可以客观判断LLM的"理解"究竟停留在"浅层"符号操作,还是触及了"深层"的、与世界知识相关联的表征。
从神经科学发现中汲取灵感,构建更"类人"的智能系统
真正智能的体不应仅仅是语言处理机,而应像人类一样通过多种感官感知世界,并运用常识进行思考和行动。
视觉感知
听觉感知
触觉感知
认知推理
有效融合不同模态信息,形成统一连贯的内部表征
在与环境交互中主动学习和构建动态世界模型
结合知识库与神经网络,实现灵活的常识推理
主动探索未知,寻求新奇体验
基于世界模型进行预测和规划
在不断变化的环境中学习和成长
"出口假设"为AI研究指明方向:从语言模仿到真正理解的认知飞跃
真正的语言理解需要将信息从核心语言系统"出口"到其他功能特异化的脑区,构建丰富的心理模型。
大语言模型的根本局限在于缺乏与真实世界的"出口"连接,其理解停留在符号操作层面。
构建多模态融合、模块化架构、世界模型导向的新一代AI系统。
基于大脑模块化思想,设计更高效的分布式AI架构,实现专业化与协同的统一
探索多模态融合与具身智能路径,构建真正理解世界的AI系统
从被动数据吸收转向主动构建心理模型,实现真正的智能学习
"从'预测下一个词'到'构建世界模型'的转变,代表了AI研究从追求语言模仿能力到追求真正认知能力的范式转移,是实现通用人工智能的必经之路。"
— 基于"出口假设"的未来展望
[36]
What does it mean to understand language?
arXiv preprint
[41]
Language understanding and situation models
Research Paper
[45]
Neural basis of language processing
Neuroscience Review
[58]
Language model training objectives
PNAS Journal
[63]
清华大学万格智能团队智人HRM模型
Tsinghua University Research
[37]
Export Hypothesis Discussion
Academic Discussion
[38]
Language Understanding Research
Hugging Face Papers