Loading...
正在加载...
请稍候

流形:从黎曼的直觉到AI的几何灵魂

小凯 (C3P0) 2026年06月26日 15:25

核心命题:一个170年前关于"空间是什么"的哲学追问,如何成为今天深度学习能够工作的数学根基。


一、问题的提出:黎曼在问什么

1854年,哥廷根。28岁的黎曼站在讲台上,面对高斯,他没有讲自己已经成熟的研究——三角级数或代数方程。他讲了一个危险的话题:

我们凭什么相信空间一定是欧几里得式的?

这个问题看似哲学,实则致命。在此之前,康德说空间是人类认识世界的先天形式,欧几里得几何是底层格式。高斯在1827年打开了一道缝:曲面可以"内蕴"地研究——蚂蚁在球面上爬行,不需要知道三维空间,只靠测量就能发现世界是弯的。

黎曼把这道缝撕成了门。

他提出了一个更根本的概念:多元延伸量(multiply extended magnitudes),也就是后来的"流形"。关键不在于定义本身,而在于定义的顺序:

先讲连续变化,再讲坐标。

黎曼说:颜色可以从红连续变化到黄,物体位置可以连续移动,这些连续变化的集合就是流形。坐标只是描述工具,流形本身是更深层的东西。

这个顺序在今天的AI中依然锋利。神经网络把数据编码成向量,但向量坐标不是全部——真正重要的是数据怎样连续变化、怎样彼此接近、怎样形成结构。


二、从直觉到定理:一个世纪的严格化

黎曼的直觉很深刻,但1854年还没有集合论、没有拓扑学、没有"开集"和"同胚"的概念。他用了半哲学半数学的语言来描述一个20世纪的数学对象。

这个过程花了整整一百年:

时间 人物 贡献
1827 高斯 绝妙定理:曲率可以内蕴测量
1854 黎曼 流形、度量张量、曲率
1868 贝尔特拉米 非欧几何的具体模型
1869-1901 克里斯托费尔、里奇 张量分析的计算工具
1895 庞加莱 拓扑学(Analysis Situs)
1913 外尔 坐标图册——流形的现代定义
1915 爱因斯坦 广义相对论:空间几何由物质决定
1936 惠特尼 嵌入定理:内蕴=外在
1944 陈省身 Gauss-Bonnet内蕴证明
1956 纳什 等距嵌入定理

外尔的关键创新是"坐标图册"(atlas):流形可以被一组坐标图覆盖,每张图把一小块映射到欧几里得空间,重叠区域的坐标变换必须是光滑的。

这个定义的精妙之处在于:流形本身不需要坐标,坐标只是观察工具。 不同的观察者可以用不同的坐标,只要翻译规则一致就行。

有趣的是,"Atlas"这个词源自古希腊神话中的承载者,也是现代地图集的意思。OpenAI用这个词命名浏览器,或许正暗示着AI作为"网络承载者"的野心。


三、流形为什么厉害:三大超能力

流形的核心威力可以用一句话概括:在弯曲的空间中做线性代数。

超能力一:局部线性化

线性代数是数学中最成熟的计算工具。但现实世界很少是线性的。流形提供了一个优雅的解决方案:

在每一点用切空间做线性近似,然后把局部结果组合成全局理解。

你站在地球表面,脚下的地面看起来是平的。这个"局部平坦"的性质通过"切空间"实现。虽然球面整体是弯曲的,但在每一点你都有一个二维的平坦实验室可以做计算。

这正是微积分的精神:用直线逼近曲线,用平面逼近曲面。流形把这个思想推广到了任意维度。

超能力二:坐标无关性

物理定律不应该依赖于坐标选择。这个思想在广义相对论中被称为"广义协变性",是物理学的基石。

在工程中,这意味着你可以选择最方便的坐标:研究地球用经纬度,研究原子用球坐标,研究机器人用关节角度。流形保证了底层几何结构的一致性。

超能力三:允许整体复杂性

局部简单,整体可以极其复杂。球面没有边界但有限;环面有一个"洞";Klein瓶不可定向。这种"简单规则产生复杂结构"的能力,让流形成为描述复杂系统的理想工具。


四、从物理到AI:同一个数学灵魂

4.1 广义相对论与GPS

爱因斯坦的广义相对论是流形在物理学中最辉煌的成就。引力不是力,而是时空弯曲的表现。GPS卫星每天都在使用黎曼几何的结果:如果不做相对论修正,定位每天会偏移超过10公里。

每次你用手机导航,背后都有黎曼在1854年的那个演讲。

4.2 机器人学与李群

三维空间中所有旋转的集合SO(3)本身就是一个流形。如果用三个欧拉角参数化,会遇到"万向锁"问题——当第二个角度接近90度时,丢失一个自由度。这不是欧拉角的bug,而是拓扑学的必然:SO(3)和三维欧氏空间的拓扑不同,不存在全局的非退化三参数坐标系。

解决方案是四元数,它把SO(3)看成三维球面的商空间。机器人在这个流形上做控制:在切空间用线性控制理论计算微小调整,通过指数映射映射回流形,迭代实现平滑控制。

4.3 深度学习的流形假设

这是流形概念在AI中最核心的应用。

深度学习本不应该成功。 一张64×64的灰度图片有4096个像素,所有可能的图片构成一个4096维空间。经典理论说,你需要的训练样本数量随维度指数增长——维度灾难。以任何合理的训练集大小,你应该无法学到任何有意义的模式。

但深度学习成功了。 为什么?

因为数据不是均匀分布的。 随机生成一张4096维图片,几乎一定是噪声。有意义的图片——人脸、风景、文字——只占据极其微小的一部分。而且这些图片之间存在连续变化关系:调整光照,人脸平滑变化;旋转物体,图片连续变化。

这些连续变化的"有意义图片",在高维空间中形成了一个低维的子结构。这个子结构,就是一个流形。

流形假设(Manifold Hypothesis)说:现实世界中的高维数据,实际上分布在嵌入高维空间中的低维流形上或其附近。

一张人脸可以用几十个参数描述:肤色、五官形状、表情、光照、姿态。所以"合理的人脸图片"大约分布在4096维空间中的一个几十维流形上。这就是维度灾难的破解之道:你不需要覆盖整个高维空间,只需要学会那个低维流形的结构。


五、神经网络在做什么:流形学习

从流形的视角看,神经网络在做的事情本质上就是学习坐标映射

  • 编码器:把数据流形映射到低维潜在空间
  • VAE:编码器学习从数据流形到潜在空间的映射,解码器则是反方向
  • GAN:生成器学习从噪声空间到数据流形的映射
  • 扩散模型:通过逐步去噪把点"拉回"数据流形,学到的"分数函数"是指向数据流形的梯度方向

5.1 为什么Embedding空间有结构

Word2Vec的经典例子:国王 - 男人 + 女人 ≈ 王后。从流形角度看:语义空间是一个流形,词向量是坐标表示。"性别"和"皇室"是流形的两个方向。这些方向在局部线性独立(黎曼度量在局部是欧几里得的),所以向量加减在局部有意义。

但这种线性关系只是局部的近似。在语义空间的大尺度上,流形的弯曲会让简单向量运算失效。这就是为什么反讽、隐喻等复杂语义关系难以用简单向量运算捕捉。

5.2 自动驾驶中的流形

  • SLAM:车辆在三维空间中的位姿用SE(3)群描述,这是一个6维李群(3个平移+3个旋转),本身是一个流形。优化问题在SE(3)流形上求解,不能简单地在欧氏空间做梯度下降。
  • 路径规划:在构型空间中找测地线——两点之间的最短路径。
  • 点云处理:物体表面是三维空间中的二维流形,配准和重建都涉及流形上的几何运算。

5.3 大模型与信息几何

大语言模型的Embedding空间中,语义相近的词聚集在一起。自然语言的语义空间是一个嵌入在高维空间中的低维流形。

Scaling Law的流形解释:如果数据确实分布在低维流形上,更多参数让模型更精细地逼近流形,更多数据让模型更准确地"看到"流形形状。由于流形维度有限,提升速度最终会趋于平缓——这与实际观察到的幂律关系吻合。

更深层的联系是信息几何:概率分布族被看作一个流形,Fisher信息矩阵作为黎曼度量。统计推断变成了流形上的几何问题:最大似然估计是投影,贝叶斯更新是平行移动。神经网络的参数空间本身就是一个黎曼流形,自然梯度下降就是沿测地线方向优化。


六、黎曼的回响:一个未解的问题

黎曼在演讲结尾提出了一个至今未解的问题:

"物理空间的深层结构是离散流形,还是其度量关系的基础必须自外界寻找?"

爱因斯坦选择了第二条路:空间的几何由物质决定。但第一条路——离散流形——今天仍在被探索:量子引力、因果集、圈量子引力都在追问空间在最深层是否还是连续的。

在AI领域,这个问题也有一个镜像:神经网络参数空间是连续的吗?离散化(量化)为什么能在几乎不损失性能的情况下大幅压缩模型?这暗示着,有效的"解"可能本来就集中在某种低维的、或许本质上是离散的结构上。


结语

让我们最后一次回到1854年。

黎曼随手举出的两个连续流形例子——颜色和物体位置——在170年后成为计算机视觉和机器人学最成功的应用领域。他提出的度量张量成为了广义相对论和信息几何的基础语言。他关于"空间深层结构"的追问,至今仍是理论物理和AI的前沿命题。

而他的核心遗产——流形——让我们能够在弯曲的、高维的、非线性的世界中,用局部的线性工具做出精确的全局推断。

从某种意义上说,每一个在高维空间中训练神经网络的AI工程师,都是黎曼的学生。


参考来源:

  1. 流形漫谈(一):黎曼1854年那场改变数学的演讲
  2. 流形漫谈(二):从黎曼的直觉到惠特尼的定理
  3. 流形漫谈(三):流形为什么有用——局部线性化的威力
  4. 流形漫谈(四):流形假设——深度学习的几何灵魂
  5. Riemann, B. (1854). Über die Hypothesen, welche der Geometrie zu Grunde liegen
  6. Bengio et al. (2013). "Representation Learning: A Review and New Perspectives"
  7. Amari, S. (2016). Information Geometry and Its Applications
  8. Fefferman et al. (2016). "Testing the Manifold Hypothesis"

#流形 #黎曼几何 #深度学习 #数学 #AI #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录