核心命题:一个170年前关于"空间是什么"的哲学追问,如何成为今天深度学习能够工作的数学根基。
一、问题的提出:黎曼在问什么
1854年,哥廷根。28岁的黎曼站在讲台上,面对高斯,他没有讲自己已经成熟的研究——三角级数或代数方程。他讲了一个危险的话题:
我们凭什么相信空间一定是欧几里得式的?
这个问题看似哲学,实则致命。在此之前,康德说空间是人类认识世界的先天形式,欧几里得几何是底层格式。高斯在1827年打开了一道缝:曲面可以"内蕴"地研究——蚂蚁在球面上爬行,不需要知道三维空间,只靠测量就能发现世界是弯的。
黎曼把这道缝撕成了门。
他提出了一个更根本的概念:多元延伸量(multiply extended magnitudes),也就是后来的"流形"。关键不在于定义本身,而在于定义的顺序:
先讲连续变化,再讲坐标。
黎曼说:颜色可以从红连续变化到黄,物体位置可以连续移动,这些连续变化的集合就是流形。坐标只是描述工具,流形本身是更深层的东西。
这个顺序在今天的AI中依然锋利。神经网络把数据编码成向量,但向量坐标不是全部——真正重要的是数据怎样连续变化、怎样彼此接近、怎样形成结构。
二、从直觉到定理:一个世纪的严格化
黎曼的直觉很深刻,但1854年还没有集合论、没有拓扑学、没有"开集"和"同胚"的概念。他用了半哲学半数学的语言来描述一个20世纪的数学对象。
这个过程花了整整一百年:
| 时间 | 人物 | 贡献 |
|---|---|---|
| 1827 | 高斯 | 绝妙定理:曲率可以内蕴测量 |
| 1854 | 黎曼 | 流形、度量张量、曲率 |
| 1868 | 贝尔特拉米 | 非欧几何的具体模型 |
| 1869-1901 | 克里斯托费尔、里奇 | 张量分析的计算工具 |
| 1895 | 庞加莱 | 拓扑学(Analysis Situs) |
| 1913 | 外尔 | 坐标图册——流形的现代定义 |
| 1915 | 爱因斯坦 | 广义相对论:空间几何由物质决定 |
| 1936 | 惠特尼 | 嵌入定理:内蕴=外在 |
| 1944 | 陈省身 | Gauss-Bonnet内蕴证明 |
| 1956 | 纳什 | 等距嵌入定理 |
外尔的关键创新是"坐标图册"(atlas):流形可以被一组坐标图覆盖,每张图把一小块映射到欧几里得空间,重叠区域的坐标变换必须是光滑的。
这个定义的精妙之处在于:流形本身不需要坐标,坐标只是观察工具。 不同的观察者可以用不同的坐标,只要翻译规则一致就行。
有趣的是,"Atlas"这个词源自古希腊神话中的承载者,也是现代地图集的意思。OpenAI用这个词命名浏览器,或许正暗示着AI作为"网络承载者"的野心。
三、流形为什么厉害:三大超能力
流形的核心威力可以用一句话概括:在弯曲的空间中做线性代数。
超能力一:局部线性化
线性代数是数学中最成熟的计算工具。但现实世界很少是线性的。流形提供了一个优雅的解决方案:
在每一点用切空间做线性近似,然后把局部结果组合成全局理解。
你站在地球表面,脚下的地面看起来是平的。这个"局部平坦"的性质通过"切空间"实现。虽然球面整体是弯曲的,但在每一点你都有一个二维的平坦实验室可以做计算。
这正是微积分的精神:用直线逼近曲线,用平面逼近曲面。流形把这个思想推广到了任意维度。
超能力二:坐标无关性
物理定律不应该依赖于坐标选择。这个思想在广义相对论中被称为"广义协变性",是物理学的基石。
在工程中,这意味着你可以选择最方便的坐标:研究地球用经纬度,研究原子用球坐标,研究机器人用关节角度。流形保证了底层几何结构的一致性。
超能力三:允许整体复杂性
局部简单,整体可以极其复杂。球面没有边界但有限;环面有一个"洞";Klein瓶不可定向。这种"简单规则产生复杂结构"的能力,让流形成为描述复杂系统的理想工具。
四、从物理到AI:同一个数学灵魂
4.1 广义相对论与GPS
爱因斯坦的广义相对论是流形在物理学中最辉煌的成就。引力不是力,而是时空弯曲的表现。GPS卫星每天都在使用黎曼几何的结果:如果不做相对论修正,定位每天会偏移超过10公里。
每次你用手机导航,背后都有黎曼在1854年的那个演讲。
4.2 机器人学与李群
三维空间中所有旋转的集合SO(3)本身就是一个流形。如果用三个欧拉角参数化,会遇到"万向锁"问题——当第二个角度接近90度时,丢失一个自由度。这不是欧拉角的bug,而是拓扑学的必然:SO(3)和三维欧氏空间的拓扑不同,不存在全局的非退化三参数坐标系。
解决方案是四元数,它把SO(3)看成三维球面的商空间。机器人在这个流形上做控制:在切空间用线性控制理论计算微小调整,通过指数映射映射回流形,迭代实现平滑控制。
4.3 深度学习的流形假设
这是流形概念在AI中最核心的应用。
深度学习本不应该成功。 一张64×64的灰度图片有4096个像素,所有可能的图片构成一个4096维空间。经典理论说,你需要的训练样本数量随维度指数增长——维度灾难。以任何合理的训练集大小,你应该无法学到任何有意义的模式。
但深度学习成功了。 为什么?
因为数据不是均匀分布的。 随机生成一张4096维图片,几乎一定是噪声。有意义的图片——人脸、风景、文字——只占据极其微小的一部分。而且这些图片之间存在连续变化关系:调整光照,人脸平滑变化;旋转物体,图片连续变化。
这些连续变化的"有意义图片",在高维空间中形成了一个低维的子结构。这个子结构,就是一个流形。
流形假设(Manifold Hypothesis)说:现实世界中的高维数据,实际上分布在嵌入高维空间中的低维流形上或其附近。
一张人脸可以用几十个参数描述:肤色、五官形状、表情、光照、姿态。所以"合理的人脸图片"大约分布在4096维空间中的一个几十维流形上。这就是维度灾难的破解之道:你不需要覆盖整个高维空间,只需要学会那个低维流形的结构。
五、神经网络在做什么:流形学习
从流形的视角看,神经网络在做的事情本质上就是学习坐标映射。
- 编码器:把数据流形映射到低维潜在空间
- VAE:编码器学习从数据流形到潜在空间的映射,解码器则是反方向
- GAN:生成器学习从噪声空间到数据流形的映射
- 扩散模型:通过逐步去噪把点"拉回"数据流形,学到的"分数函数"是指向数据流形的梯度方向
5.1 为什么Embedding空间有结构
Word2Vec的经典例子:国王 - 男人 + 女人 ≈ 王后。从流形角度看:语义空间是一个流形,词向量是坐标表示。"性别"和"皇室"是流形的两个方向。这些方向在局部线性独立(黎曼度量在局部是欧几里得的),所以向量加减在局部有意义。
但这种线性关系只是局部的近似。在语义空间的大尺度上,流形的弯曲会让简单向量运算失效。这就是为什么反讽、隐喻等复杂语义关系难以用简单向量运算捕捉。
5.2 自动驾驶中的流形
- SLAM:车辆在三维空间中的位姿用SE(3)群描述,这是一个6维李群(3个平移+3个旋转),本身是一个流形。优化问题在SE(3)流形上求解,不能简单地在欧氏空间做梯度下降。
- 路径规划:在构型空间中找测地线——两点之间的最短路径。
- 点云处理:物体表面是三维空间中的二维流形,配准和重建都涉及流形上的几何运算。
5.3 大模型与信息几何
大语言模型的Embedding空间中,语义相近的词聚集在一起。自然语言的语义空间是一个嵌入在高维空间中的低维流形。
Scaling Law的流形解释:如果数据确实分布在低维流形上,更多参数让模型更精细地逼近流形,更多数据让模型更准确地"看到"流形形状。由于流形维度有限,提升速度最终会趋于平缓——这与实际观察到的幂律关系吻合。
更深层的联系是信息几何:概率分布族被看作一个流形,Fisher信息矩阵作为黎曼度量。统计推断变成了流形上的几何问题:最大似然估计是投影,贝叶斯更新是平行移动。神经网络的参数空间本身就是一个黎曼流形,自然梯度下降就是沿测地线方向优化。
六、黎曼的回响:一个未解的问题
黎曼在演讲结尾提出了一个至今未解的问题:
"物理空间的深层结构是离散流形,还是其度量关系的基础必须自外界寻找?"
爱因斯坦选择了第二条路:空间的几何由物质决定。但第一条路——离散流形——今天仍在被探索:量子引力、因果集、圈量子引力都在追问空间在最深层是否还是连续的。
在AI领域,这个问题也有一个镜像:神经网络参数空间是连续的吗?离散化(量化)为什么能在几乎不损失性能的情况下大幅压缩模型?这暗示着,有效的"解"可能本来就集中在某种低维的、或许本质上是离散的结构上。
结语
让我们最后一次回到1854年。
黎曼随手举出的两个连续流形例子——颜色和物体位置——在170年后成为计算机视觉和机器人学最成功的应用领域。他提出的度量张量成为了广义相对论和信息几何的基础语言。他关于"空间深层结构"的追问,至今仍是理论物理和AI的前沿命题。
而他的核心遗产——流形——让我们能够在弯曲的、高维的、非线性的世界中,用局部的线性工具做出精确的全局推断。
从某种意义上说,每一个在高维空间中训练神经网络的AI工程师,都是黎曼的学生。
参考来源:
- 流形漫谈(一):黎曼1854年那场改变数学的演讲
- 流形漫谈(二):从黎曼的直觉到惠特尼的定理
- 流形漫谈(三):流形为什么有用——局部线性化的威力
- 流形漫谈(四):流形假设——深度学习的几何灵魂
- Riemann, B. (1854). Über die Hypothesen, welche der Geometrie zu Grunde liegen
- Bengio et al. (2013). "Representation Learning: A Review and New Perspectives"
- Amari, S. (2016). Information Geometry and Its Applications
- Fefferman et al. (2016). "Testing the Manifold Hypothesis"
#流形 #黎曼几何 #深度学习 #数学 #AI #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。