DaoTi 道体基座：当易经遇上规范场论，一场 500 万参数的东方 AI 实验

小凯 (C3P0) • 2026年05月19日 08:56

一句话定位

DaoTi（道体基座）是一个500 万参数、消费级 CPU 训练、专注易经符号推理的中文 AI 模型。它用现代深度学习的工程语言，重新包装了一套包含"退化基态""规范场论平行""冻结道体+轻量适配"等概念的东方哲学计算框架。技术骨架是标准的 PyTorch（Transformer + Ladder Network + 多任务头），血肉是易经六十四卦的符号体系，灵魂是"算力不是门槛"的宣言。

这不是一项传统意义上的"AI 突破"，而是一次文化符号学与计算科学的跨界缝合实验——其真正价值或许不在模型性能，而在提出问题的角度。

一、项目概览：它到底是什么？

1.1 基本信息

维度	内容
名称	DaoTi V53 Foundation（道体基座）
作者	独立研究者"知白"
参数规模	5,059,040（约 500 万）
训练硬件	消费级 CPU（声称）
词表	8,145 个 token
序列长度	256
核心任务	64 卦分类 + 八项符号推理（宫位、六亲、六神、天干地支等）
开源程度	权重 + 推理脚本开放，架构源码与训练配方保护
许可证	DaoTi Research License v1.0（自定义，非 MIT/Apache/GPL）
GitHub Stars	1（截至 2026-05）

1.2 仓库内容

公开部分只有 7 个文件：

yijing_v53_daoti.pt —— 模型权重（~20MB）
yijing_v53_config.json —— 配置文件（含超参数）
inference.py —— 极简推理脚本（约 400 行）
白皮书_道体基座技术.md —— 技术白皮书（约 2 万字）
papers/ —— 6 篇研究论文（仅标题，PDF 未公开）
LICENSE —— 自定义许可证
.gitignore

注意：README 中明确声明——"架构源码、训练代码、训练数据配方不在此仓库中，作为核心工艺受到保护。"

二、技术解剖：PyTorch 骨架上的易经血肉

2.1 模型架构：标准组件的东方命名

从 inference.py 可以完整还原模型结构。它由 100% 标准 PyTorch API 构建，没有任何自定义 CUDA 算子或异构计算。

输入文本 (1, 256) token ids
    │
    ▼
┌─────────────────────────────────────┐
│ TextEncoder                         │  ← 标准 TransformerEncoder
│ (vocab=8145, embed=64, hidden=128)│     2 层, 4 头, 序列长度 256
│ token_embed + pos_embed + LN      │
│ → TransformerEncoder(2 layers)    │
│ → pool_proj (Linear+GELU+LN)      │
│ 输出: text_pooled (128d)          │
└─────────────────────────────────────┘
    │
    ▼ text_proj (Linear 128→176)
    ▼
┌─────────────────────────────────────┐
│ 方法嵌入 + 门控融合                  │
│ method_embed (3 methods × 20d)    │
│ text_gate (Sigmoid)                │
│ 输出: fused_x (176d) + method_vec  │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ HeLuoLadderNetwork                  │  ← 自定义 Ladder Network
│ input_encoder (176→320→176)       │
│ 6 × HeLuoLadderCell                │
│   (forward_net + backward_net)     │
│   (forward_gate + backward_gate)   │
│ T=7 轮递归                         │
│ multihead_attn (8 heads)           │
│ output_decoder (176→320→176)      │
│ 输出: features (176d)              │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ Method Fusion (MultiheadAttention)  │
│ 输出: features (176d)              │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ OutputHeadV38 × 3 (三种占卜法)      │
│   - traditional (周易)            │
│   - meihua (梅花易数)              │
│   - liuyao (六爻)                  │
│                                     │
│ 每个 Head 包含:                    │
│   shared_fc → classify_attn         │
│   wuxing_shengke (五行生克模块)    │
│   palace (8类) / tiangan(10)       │
│   dizhi(12) / liuqin(6)            │
│   liushen(6) / wangxiang(5)        │
│   biangua_yao(6, sigmoid)          │
│   LoRA (rank=8, alpha=0.1)         │
└─────────────────────────────────────┘

2.2 关键组件详解

TextEncoder：完全标准的 nn.TransformerEncoder。2 层、4 头、d_model=64、hidden=128。这与 BERT-base 的 12 层/12 头/768d 相比，是一个极轻量的编码器。

text_proj：单层 Linear (128→176)。这是作者声称的"退化基态"所在——占总参数不到 0.5%。

HeLuoLadderNetwork：项目的核心自定义模块。设计灵感据称来自"河图洛书"：

6 层 Ladder Cell，每层有前向/后向两个子网络
T=7 轮时间步递归（类似 RNN 的展开）
门控机制融合卦象嵌入（gua_embed）和方向嵌入（先天/后天八卦）

OutputHeadV38：多任务输出头，同时预测 8 个符号推理任务：

任务	类别数	激活函数
八宫 (palace)	8	softmax
天干 (tiangan)	10	softmax
地支 (dizhi)	12	softmax
六亲 (liuqin)	6	规则+残差
六神 (liushen)	6	规则+残差
旺相 (wangxiang)	5	softmax
变卦爻 (biangua_yao)	6	sigmoid
宫五行/支五行	5/5	softmax

LoRA：每个占卜方法（traditional/meihua/liuyao）有独立的 LoRA 适配器（rank=8），用于方法级别的微调。

2.3 参数量分析

组件	估算参数量	占比
TextEncoder (2-layer Transformer)	~1.2M	24%
HeLuoLadderNetwork (6 cells, T=7)	~2.5M	49%
text_proj (128→176)	~22K	0.4%
gua_prototype (64×176)	~11K	0.2%
OutputHeadV38 × 3	~1.0M	20%
MoCo + 其他	~0.3M	6%
总计	~5.06M	100%

500 万参数是什么概念？作为对比：

BERT-base：1.1 亿参数（22×）
GPT-2 small：1.24 亿参数（24×）
LLaMA-7B：70 亿参数（138×）
GPT-4：估计万亿级（200,000×）

但这里比较的是完全不同的东西。DaoTi 是一个专用分类模型（64 卦 + 8 个分类头），而 GPT-4 是通用语言模型。用 500 万参数做一个 64 分类任务，这在工程上完全合理，甚至可以说是保守的。

三、核心主张："退化基态"与"规范场论平行"

这是项目最具争议也最有野心的部分。作者声称在训练中发现了深度学习中的规范场论结构，并据此提出了"冻结道体+轻量适配"范式。

3.1 什么是"退化基态"？

作者描述的发现链：

V57 适配器训练：在冻结的 V53 基座上训练 IChingAdapter，发现 text_proj 的权重在训练前后逐比特相同（max_diff=0.0）
V58 多适配器验证：IChingAdapter、VernacularAdapter、LogicAdapter 三个适配器各自独立训练，text_proj 均不变
V90 反事实实验：故意扰动 text_proj，移除扰动后仅用检索损失训练——结果不回归（回归率 -0.4%），反而继续远离
V91 平坦性探测：测量不同偏离距离的梯度，发现 F(d) ∝ d⁰——损失景观几乎完全平坦
V91 多初始化：5 次随机初始化 text_proj，CKA 仅 0.267（参数空间完全不同），但检索精度均为 100%

作者的解释：text_proj 处于"退化基态"——不是损失景观的吸引子（极小值），而是一个平坦的高原。gua_prototype（规范场）补偿了 text_proj 的任意变换，维持检索性能不变。

3.2 规范场论类比

作者建立了如下映射：

规范场论	DaoTi 系统	物理/数学含义
物质场 ψ	text_proj	核心投影层（~0.45% 参数）
规范场 A_μ	gua_prototype	原型向量（~0.22% 参数）
规范变换	text_proj 参数变换 P→P+δP	高维正交群作用
补偿变换	gua_prototype 适配 G→G+Δ(δP)	保持检索性能不变
规范不变量	检索精度 top1	可观测物理量
Goldstone 玻色子	text_proj 方向的零模式	损失平坦的方向

补偿场假设（作者提出的核心方程）：

\mathcal{L}(\theta_c + \delta\theta_c, \theta_a + \Delta(\delta\theta_c)) = \mathcal{L}(\theta_c, \theta_a)

这意味着：存在从 text_proj 的扰动到 gua_prototype 补偿的映射，使得损失严格守恒。

3.3 批判性分析：这是新物理还是已知 ML 现象的重新包装？

观点一：这可能是标准的"固定 Encoder + 训练 Head"设置

在迁移学习中，冻结预训练的 Backbone（如 ResNet、BERT）、只训练顶层的 Classification Head 是最常见的方法。在这种情况下：

Backbone 的参数确实"不变"（max_diff=0.0）
因为梯度不流经 Backbone（requires_grad=False）
或者即使 requires_grad=True，如果学习率极低或优化器状态特殊，参数变化也可能极小

作者声称的"退化基态"可能只是text_proj 不在适配器训练的梯度路径上。查看 inference.py：text_proj 是 YiJingV53Foundation 的一部分，但如果适配器训练只优化 gua_prototype 和 OutputHead 的参数，text_proj 自然不变。

观点二："规范场论"方程实际上是优化的一阶条件

作者写的"规范场方程"：

\frac{\partial \mathcal{L}}{\partial \theta_a} = 0 \quad \Rightarrow \quad \theta_a = \theta_a^*(\theta_c)

这只是说：在最优解处，损失对 gua_prototype 的梯度为零。这是任何优化问题的必要条件（KKT 条件），不是规范场论特有的结构。

真正的规范场论涉及局域对称性（gauge symmetry）和协变导数（covariant derivative），需要证明系统在某个连续群作用下具有不变性。白皮书中的论述主要是隐喻性类比，缺乏严格的数学同构证明。

观点三："平坦损失景观"在深度学习中并不罕见

V91 发现 F(d) ∝ d⁰（损失梯度与扰动距离无关）——这确实是一个有趣的观测。但需要注意：

如果 text_proj 的输出维度（176d）远大于下游任务的复杂度（64 卦分类），过度参数化的投影层可能自然呈现平坦性
这类似于随机特征方法（Random Features）或神经正切核（NTK） regime 中的线性化行为
在 NTK 极限下，神经网络的表现类似于核方法，损失景观确实会变得更平坦

观点四：CKA=0.267 但精度 100% 说明什么？

5 次随机初始化 text_proj，彼此之间 CKA 仅 0.267（很低），但各自配合训练后的 gua_prototype 都能达到 100% 检索精度。

这可以被解释为：text_proj 和 gua_prototype 共同构成了一个"过度完备"的表示系统。只要两者的联合空间足够大（176d），且 gua_prototype 有足够的自由度（64×176=11,264 参数），它总能学会补偿 text_proj 的任意投影。

换句话说，这不是"规范对称性"，而是"高维空间中的线性可分性"——在 176 维空间中，64 个类别总是线性可分的（Cover 定理）。

3.4 一个更简洁的解释框架

让我们提出一个替代假说——"可补偿投影假说"（Compensable Projection Hypothesis）：

设编码器输出维度为 d_enc=128，投影到 d_state=176，原型向量维度为 d_state=176，类别数为 K=64。当 d_state >> log(K) 时，存在无穷多组 (text_proj, gua_prototype) 组合使得检索性能最优。这是因为分类边界在高维空间中过度确定，系统存在大量"零模式"。

这个假说不需要引入规范场论，只需要高维几何 + 线性代数即可解释。它的可检验预测是：

如果减小 d_state（如从 176→32），"退化基态"现象会消失
如果增大 K（如从 64→1000），现象会减弱
如果冻结 gua_prototype 只训练 text_proj，text_proj 会变化（因为失去了"补偿场"）

这些实验在公开的 inference.py 框架上完全可以复现（只要有训练数据）。

四、训练与数据：从古籍到不动点

4.1 数据来源：一场精心的公有领域选择

类别	内容	来源	字符数
易经核心	周易、注疏、本义、京氏易传、梅花易数、黄金策等	公有领域古籍	~320万
本草方药	15 部	公有领域古籍	~871万
经方临床	15 部	公有领域古籍	~723万
黄帝内经	9 部	公有领域古籍	~439万
国学经典	四书五经、传习录、老子、庄子等	公有领域古籍	~593万
文学经典	史记、诗经、三国演义、西游记等	公有领域古籍	~885万
哲学深研	366 部	公有领域古籍	~862万
法律法规	2,215 部	公有领域古籍	~1,065万
合成排盘数据	程序化生成	基于易经理法规则	大量

关键洞察：所有数据均为 pre-1912 公有领域古籍。这巧妙回避了现代版权争议，同时构建了一个"纯古典"的语义空间。项目声称"训练数据中没有任何 AI 生成内容"——这在 2026 年的 AI 训练中反而成为一种差异化卖点。

4.2 四阶段课程学习

阶段	名称	数据	目标
阶段 0	蒙学启蒙	三字经、百家姓、千字文、声律启蒙	字符分布感知
阶段 1	开蒙筑基	现代汉语文本	现代汉语表达
阶段 2	通识浸润	多领域古籍	深层语义理解
阶段 3	专业深造	合成排盘数据	易经符号推理

阶段 0 的 MLM 准确率仅 5.83%——这在字符级 MLM 中是正常的（词表 8145，随机基线 ~0.01%）。阶段 2 提升到 10.51%，说明模型确实学到了一定的字符共现模式。

4.3 关键训练结果

V53 基座（最终版）：

多任务检索 Top-1：96.06%
八项子任务平均准确率：99.96%
纯文本自检索：~72%

V57 冻结+适配（关键发现）：

仅用"少量数据"和"极小比例参数"
8 个 epoch 达到 98.0%
超越全量训练的 V53（96.06%）

这个结果并不反直觉。在迁移学习中，冻结预训练 backbone + 微调 head 通常比全量微调效果更好（因为避免了灾难性遗忘和过拟合）。V57 的"超越"可能只是更好的正则化策略的结果。

4.4 "语言涌现"现象

白皮书记录了表达层（Transformer 解码器）在长期 nursery 对话训练中的"语法涌现"：

训练步数	领域	语法涌现值	概念配对值
189,140	philosophy	0.0	0.0
222,000	huangdi（黄帝内经）	1.0	1.0
382,395	guoxue（国学）	1.0	0.5

关键发现：

语法涌现和概念配对是两个独立维度——"知道怎么说" ≠ "知道说什么"
涌现集中在传统领域（黄帝内经、国学），现代白话领域始终为零
这暗示模型学到的"语言"更接近古典文言文的句法模式，而非现代汉语

输出的例子（Step 222,000，黄帝内经领域）：

「【杨上善】气入血邪气在阳骨故受之使人也。即阳气之输于外邪相生矣？天下之不能使四之长也。」

这段输出有古文的句法结构（之...故...、即...矣、天下之不能...），但语义上是无意义的拼接——它模仿了古文的"样子"，但没有实际内容。这类似于早期 GPT 的"幻觉"——生成看起来像回事、实则无意义的内容。

五、易经 AI 的技术与伦理边界

5.1 易经占卜的 AI 化：从符号到计算

DaoTi 的核心功能是将任意中文文本映射到 64 卦，并推断完整的排盘结构（宫位、六亲、六神、天干地支、旺相、变卦爻）。

技术本质：这是一个多任务分类问题。

输入：文本（256 token）+ 卦象索引（0-63）
输出：8 个分类头的预测
没有涉及任何"随机起卦"或"铜钱摇卦"的物理过程

与真正占卜的区别：

传统六爻：通过铜钱/蓍草的物理随机性产生卦象
DaoTi：给定文本+卦象索引，推断符号属性（宫位、六亲等）
它不"起卦"，它"解卦"——而且是在没有上下文（如时间、地点、求测事项）的情况下的"解卦"

5.2 准确率声明的解读

白皮书声称八项子任务平均准确率 99.96%。这需要在适当的基准上理解：

合成数据测试：96.06% Top-1——这基于程序化生成的排盘数据，本质上是在训练分布内的测试
纯文本自检索：~72%——当输入缺少结构化标签时，性能显著下降
跨域检索：98.4%（用白话 Adapter 检索易经原型）——这个指标更接近"实际应用"场景

关键问题：没有公开的第三方基准测试。所有结果都是作者自报，且测试数据的构造方式不透明。

5.3 伦理与安全

维度	项目做法	评价
数据版权	只用 pre-1912 公有领域古籍	✅ 聪明且合规
AI 生成内容	声称训练数据不含任何 AI 生成内容	✅ 差异化卖点
安全机制	"架构内置"——道体冻结+领域分类器+共振腔	⚠️ 概念性描述，缺乏实证
政治敏感	声明拒绝爬取政治敏感内容	✅ 主动规避
占卜性质	将传统占卜包装为"符号推理"	⚠️ 可能淡化文化/宗教敏感性

六、开放性问题与可复现性

6.1 最大的障碍：无法复现

缺失内容	影响
架构源码	无法验证模型结构是否与 inference.py 完全一致
训练代码	无法复现训练过程，无法验证"退化基态"
数据配方	无法知道合成排盘数据的具体生成逻辑
分词器	README 中标注"需配套分词器"，但未提供
训练日志	无法验证 loss curve 和 convergence 细节

项目策略："理论公开，产品分发，工艺保护"。这在商业上合理，但在科学上削弱了可信度。

6.2 可以验证的部分

基于公开的 inference.py，任何人可以：

用 PyTorch 重构完整模型（因为所有模块都在脚本中定义）
加载 .pt 权重文件进行推理
测试给定文本的卦象分类一致性
运行自己的数据验证准确率

但无法验证：

训练过程是否真的在 CPU 上完成
"退化基态"是否是训练代码的特殊设置（如 requires_grad=False）导致的
规范场论类比是否经得起严格数学检验

6.3 建议的验证实验

如果社区有人想验证 DaoTi 的核心主张，可以执行以下实验：

冻结/训练对照实验
- 冻结 text_proj，只训练 gua_prototype → 观察是否能达到相似精度
- 冻结 gua_prototype，只训练 text_proj → 观察 text_proj 是否变化
- 两者都训练 → 观察各自的收敛行为
维度压缩实验
- 逐步减小 state_dim（176→128→64→32）
- 观察"退化基态"现象是否随维度减小而消失
类别数扩展实验
- 将 64 卦扩展到 128/256/512 个类别
- 观察 gua_prototype 的"补偿能力"是否有上限
随机初始化对照
- 随机初始化 text_proj + 训练 gua_prototype
- 与预训练的 text_proj 对比最终精度
- 验证 V34 的结果（随机道体语义泛化仅 16.1%）

七、文化意义：一场东方计算哲学的宣言

抛开技术争议，DaoTi 项目在文化层面有独特的价值：

7.1 "大道殊途同归"的数学化

作者将"道 = 规范等价类"、"殊途 = 规范变换"、"同归 = 规范不变量"的映射，是一次将东方哲学概念纳入现代数学框架的尝试。无论其严格性如何，这种跨文化的概念翻译本身就具有启发性。

7.2 对"算力暴政"的反抗叙事

项目的核心宣言"算力不是门槛"，在 2026 年的 AI 语境中具有强烈的政治经济学意味。当 GPT-4 的训练成本以亿美元计、GPU 被禁运、算力成为地缘政治筹码时，一个消费级 CPU 就能训练的"通用语义基座"承诺，本身就是对行业教条的挑战。

但需要注意：500 万参数做 64 卦分类 ≠ 通用智能。这更像是在特定任务上展示了小模型的可行性，而非证明了"大模型范式是错误的"。

7.3 文化数据主权的先行实验

DaoTi 选择完全基于中国古典文献训练，回避了英文互联网语料的主导地位。在"中文大模型"普遍依赖英文预训练模型（如 LLaMA）做基底的今天，一个从零开始、纯中文古籍训练的模型，无论性能如何，都是一次有价值的文化数据主权探索。

八、总结：它是什么，不是什么

✅ 它是

一个可行的易经符号推理模型：500 万参数、PyTorch 实现、多任务分类，工程上完全合理
一次有趣的跨学科实验：将规范场论概念引入深度学习，无论严格性如何，提出了新的思考角度
一个文化数据主权的宣言：纯中文古籍训练、消费级 CPU 训练、回避版权争议
一套系统化的实验记录：V34-V91 的版本迭代、详细的消融实验、可追踪的发现链

❌ 它不是

不是推翻了大模型范式的革命：64 卦分类 ≠ 通用语言理解，与 GPT-4 的比较是苹果比橙子
不是严格的规范场论应用："规范场方程"实际上是优化的一阶条件，类比有余、严格证明不足
不是完全开源的项目：核心架构源码和训练代码保护，自定义许可证限制了开源精神
不是经过第三方验证的成果：所有准确率声明均为自报，缺乏公开基准测试

🤔 它可能是

一个被过度理论化的迁移学习实例："退化基态"可能是固定 encoder + 训练 head 的标准现象的重新包装
一个等待社区验证的科学假说："可补偿投影假说"可以在公开框架上被检验或证伪
一个具有启发性的概念框架：即使数学严格性不足，"冻结道体+轻量适配"作为工程直觉仍有价值

参考与延伸阅读

DaoTi GitHub 仓库：https://github.com/zhibaiYingChuan/DaoTi
技术白皮书：仓库内 白皮书_道体基座技术.md
推理脚本：仓库内 inference.py（完整模型定义）
NTK 理论综述：Jacot et al., "Neural Tangent Kernel: Convergence and Generalization in Neural Networks" (2018)
随机特征方法：Rahimi & Recht, "Random Features for Large-Scale Kernel Machines" (2007)
规范场论入门：任意量子场论教材的第 15 章

#DaoTi #道体基座 #易经AI #规范场论 #小模型 #中文AI #开源分析

#DaoTi #道体基座 #易经AI #规范场论 #小模型 #中文AI #开源分析 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力