一句话定位
DaoTi(道体基座)是一个500 万参数、消费级 CPU 训练、专注易经符号推理的中文 AI 模型。它用现代深度学习的工程语言,重新包装了一套包含"退化基态""规范场论平行""冻结道体+轻量适配"等概念的东方哲学计算框架。技术骨架是标准的 PyTorch(Transformer + Ladder Network + 多任务头),血肉是易经六十四卦的符号体系,灵魂是"算力不是门槛"的宣言。
这不是一项传统意义上的"AI 突破",而是一次文化符号学与计算科学的跨界缝合实验——其真正价值或许不在模型性能,而在提出问题的角度。
一、项目概览:它到底是什么?
1.1 基本信息
| 维度 | 内容 |
|---|---|
| 名称 | DaoTi V53 Foundation(道体基座) |
| 作者 | 独立研究者"知白" |
| 参数规模 | 5,059,040(约 500 万) |
| 训练硬件 | 消费级 CPU(声称) |
| 词表 | 8,145 个 token |
| 序列长度 | 256 |
| 核心任务 | 64 卦分类 + 八项符号推理(宫位、六亲、六神、天干地支等) |
| 开源程度 | 权重 + 推理脚本开放,架构源码与训练配方保护 |
| 许可证 | DaoTi Research License v1.0(自定义,非 MIT/Apache/GPL) |
| GitHub Stars | 1(截至 2026-05) |
1.2 仓库内容
公开部分只有 7 个文件:
yijing_v53_daoti.pt—— 模型权重(~20MB)yijing_v53_config.json—— 配置文件(含超参数)inference.py—— 极简推理脚本(约 400 行)白皮书_道体基座技术.md—— 技术白皮书(约 2 万字)papers/—— 6 篇研究论文(仅标题,PDF 未公开)LICENSE—— 自定义许可证.gitignore
注意:README 中明确声明——"架构源码、训练代码、训练数据配方不在此仓库中,作为核心工艺受到保护。"
二、技术解剖:PyTorch 骨架上的易经血肉
2.1 模型架构:标准组件的东方命名
从 inference.py 可以完整还原模型结构。它由 100% 标准 PyTorch API 构建,没有任何自定义 CUDA 算子或异构计算。
输入文本 (1, 256) token ids
│
▼
┌─────────────────────────────────────┐
│ TextEncoder │ ← 标准 TransformerEncoder
│ (vocab=8145, embed=64, hidden=128)│ 2 层, 4 头, 序列长度 256
│ token_embed + pos_embed + LN │
│ → TransformerEncoder(2 layers) │
│ → pool_proj (Linear+GELU+LN) │
│ 输出: text_pooled (128d) │
└─────────────────────────────────────┘
│
▼ text_proj (Linear 128→176)
▼
┌─────────────────────────────────────┐
│ 方法嵌入 + 门控融合 │
│ method_embed (3 methods × 20d) │
│ text_gate (Sigmoid) │
│ 输出: fused_x (176d) + method_vec │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ HeLuoLadderNetwork │ ← 自定义 Ladder Network
│ input_encoder (176→320→176) │
│ 6 × HeLuoLadderCell │
│ (forward_net + backward_net) │
│ (forward_gate + backward_gate) │
│ T=7 轮递归 │
│ multihead_attn (8 heads) │
│ output_decoder (176→320→176) │
│ 输出: features (176d) │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ Method Fusion (MultiheadAttention) │
│ 输出: features (176d) │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ OutputHeadV38 × 3 (三种占卜法) │
│ - traditional (周易) │
│ - meihua (梅花易数) │
│ - liuyao (六爻) │
│ │
│ 每个 Head 包含: │
│ shared_fc → classify_attn │
│ wuxing_shengke (五行生克模块) │
│ palace (8类) / tiangan(10) │
│ dizhi(12) / liuqin(6) │
│ liushen(6) / wangxiang(5) │
│ biangua_yao(6, sigmoid) │
│ LoRA (rank=8, alpha=0.1) │
└─────────────────────────────────────┘
2.2 关键组件详解
TextEncoder:完全标准的 nn.TransformerEncoder。2 层、4 头、d_model=64、hidden=128。这与 BERT-base 的 12 层/12 头/768d 相比,是一个极轻量的编码器。
text_proj:单层 Linear (128→176)。这是作者声称的"退化基态"所在——占总参数不到 0.5%。
HeLuoLadderNetwork:项目的核心自定义模块。设计灵感据称来自"河图洛书":
- 6 层 Ladder Cell,每层有前向/后向两个子网络
- T=7 轮时间步递归(类似 RNN 的展开)
- 门控机制融合卦象嵌入(gua_embed)和方向嵌入(先天/后天八卦)
OutputHeadV38:多任务输出头,同时预测 8 个符号推理任务:
| 任务 | 类别数 | 激活函数 |
|---|---|---|
| 八宫 (palace) | 8 | softmax |
| 天干 (tiangan) | 10 | softmax |
| 地支 (dizhi) | 12 | softmax |
| 六亲 (liuqin) | 6 | 规则+残差 |
| 六神 (liushen) | 6 | 规则+残差 |
| 旺相 (wangxiang) | 5 | softmax |
| 变卦爻 (biangua_yao) | 6 | sigmoid |
| 宫五行/支五行 | 5/5 | softmax |
LoRA:每个占卜方法(traditional/meihua/liuyao)有独立的 LoRA 适配器(rank=8),用于方法级别的微调。
2.3 参数量分析
| 组件 | 估算参数量 | 占比 |
|---|---|---|
| TextEncoder (2-layer Transformer) | ~1.2M | 24% |
| HeLuoLadderNetwork (6 cells, T=7) | ~2.5M | 49% |
| text_proj (128→176) | ~22K | 0.4% |
| gua_prototype (64×176) | ~11K | 0.2% |
| OutputHeadV38 × 3 | ~1.0M | 20% |
| MoCo + 其他 | ~0.3M | 6% |
| 总计 | ~5.06M | 100% |
500 万参数是什么概念?作为对比:
- BERT-base:1.1 亿参数(22×)
- GPT-2 small:1.24 亿参数(24×)
- LLaMA-7B:70 亿参数(138×)
- GPT-4:估计万亿级(200,000×)
但这里比较的是完全不同的东西。DaoTi 是一个专用分类模型(64 卦 + 8 个分类头),而 GPT-4 是通用语言模型。用 500 万参数做一个 64 分类任务,这在工程上完全合理,甚至可以说是保守的。
三、核心主张:"退化基态"与"规范场论平行"
这是项目最具争议也最有野心的部分。作者声称在训练中发现了深度学习中的规范场论结构,并据此提出了"冻结道体+轻量适配"范式。
3.1 什么是"退化基态"?
作者描述的发现链:
- V57 适配器训练:在冻结的 V53 基座上训练 IChingAdapter,发现
text_proj的权重在训练前后逐比特相同(max_diff=0.0) - V58 多适配器验证:IChingAdapter、VernacularAdapter、LogicAdapter 三个适配器各自独立训练,
text_proj均不变 - V90 反事实实验:故意扰动
text_proj,移除扰动后仅用检索损失训练——结果不回归(回归率 -0.4%),反而继续远离 - V91 平坦性探测:测量不同偏离距离的梯度,发现
F(d) ∝ d⁰——损失景观几乎完全平坦 - V91 多初始化:5 次随机初始化
text_proj,CKA 仅 0.267(参数空间完全不同),但检索精度均为 100%
作者的解释:text_proj 处于"退化基态"——不是损失景观的吸引子(极小值),而是一个平坦的高原。gua_prototype(规范场)补偿了 text_proj 的任意变换,维持检索性能不变。
3.2 规范场论类比
作者建立了如下映射:
| 规范场论 | DaoTi 系统 | 物理/数学含义 |
|---|---|---|
| 物质场 ψ | text_proj | 核心投影层(~0.45% 参数) |
| 规范场 A_μ | gua_prototype | 原型向量(~0.22% 参数) |
| 规范变换 | text_proj 参数变换 P→P+δP | 高维正交群作用 |
| 补偿变换 | gua_prototype 适配 G→G+Δ(δP) | 保持检索性能不变 |
| 规范不变量 | 检索精度 top1 | 可观测物理量 |
| Goldstone 玻色子 | text_proj 方向的零模式 | 损失平坦的方向 |
补偿场假设(作者提出的核心方程):
这意味着:存在从 text_proj 的扰动到 gua_prototype 补偿的映射,使得损失严格守恒。
3.3 批判性分析:这是新物理还是已知 ML 现象的重新包装?
观点一:这可能是标准的"固定 Encoder + 训练 Head"设置
在迁移学习中,冻结预训练的 Backbone(如 ResNet、BERT)、只训练顶层的 Classification Head 是最常见的方法。在这种情况下:
- Backbone 的参数确实"不变"(
max_diff=0.0) - 因为梯度不流经 Backbone(requires_grad=False)
- 或者即使 requires_grad=True,如果学习率极低或优化器状态特殊,参数变化也可能极小
作者声称的"退化基态"可能只是text_proj 不在适配器训练的梯度路径上。查看 inference.py:text_proj 是 YiJingV53Foundation 的一部分,但如果适配器训练只优化 gua_prototype 和 OutputHead 的参数,text_proj 自然不变。
观点二:"规范场论"方程实际上是优化的一阶条件
作者写的"规范场方程":
这只是说:在最优解处,损失对 gua_prototype 的梯度为零。这是任何优化问题的必要条件(KKT 条件),不是规范场论特有的结构。
真正的规范场论涉及局域对称性(gauge symmetry)和协变导数(covariant derivative),需要证明系统在某个连续群作用下具有不变性。白皮书中的论述主要是隐喻性类比,缺乏严格的数学同构证明。
观点三:"平坦损失景观"在深度学习中并不罕见
V91 发现 F(d) ∝ d⁰(损失梯度与扰动距离无关)——这确实是一个有趣的观测。但需要注意:
- 如果
text_proj的输出维度(176d)远大于下游任务的复杂度(64 卦分类),过度参数化的投影层可能自然呈现平坦性 - 这类似于随机特征方法(Random Features)或神经正切核(NTK) regime 中的线性化行为
- 在 NTK 极限下,神经网络的表现类似于核方法,损失景观确实会变得更平坦
观点四:CKA=0.267 但精度 100% 说明什么?
5 次随机初始化 text_proj,彼此之间 CKA 仅 0.267(很低),但各自配合训练后的 gua_prototype 都能达到 100% 检索精度。
这可以被解释为:text_proj 和 gua_prototype 共同构成了一个"过度完备"的表示系统。只要两者的联合空间足够大(176d),且 gua_prototype 有足够的自由度(64×176=11,264 参数),它总能学会补偿 text_proj 的任意投影。
换句话说,这不是"规范对称性",而是"高维空间中的线性可分性"——在 176 维空间中,64 个类别总是线性可分的(Cover 定理)。
3.4 一个更简洁的解释框架
让我们提出一个替代假说——"可补偿投影假说"(Compensable Projection Hypothesis):
设编码器输出维度为 d_enc=128,投影到 d_state=176,原型向量维度为 d_state=176,类别数为 K=64。当 d_state >> log(K) 时,存在无穷多组 (text_proj, gua_prototype) 组合使得检索性能最优。这是因为分类边界在高维空间中过度确定,系统存在大量"零模式"。
这个假说不需要引入规范场论,只需要高维几何 + 线性代数即可解释。它的可检验预测是:
- 如果减小 d_state(如从 176→32),"退化基态"现象会消失
- 如果增大 K(如从 64→1000),现象会减弱
- 如果冻结 gua_prototype 只训练 text_proj,text_proj 会变化(因为失去了"补偿场")
这些实验在公开的 inference.py 框架上完全可以复现(只要有训练数据)。
四、训练与数据:从古籍到不动点
4.1 数据来源:一场精心的公有领域选择
| 类别 | 内容 | 来源 | 字符数 |
|---|---|---|---|
| 易经核心 | 周易、注疏、本义、京氏易传、梅花易数、黄金策等 | 公有领域古籍 | ~320万 |
| 本草方药 | 15 部 | 公有领域古籍 | ~871万 |
| 经方临床 | 15 部 | 公有领域古籍 | ~723万 |
| 黄帝内经 | 9 部 | 公有领域古籍 | ~439万 |
| 国学经典 | 四书五经、传习录、老子、庄子等 | 公有领域古籍 | ~593万 |
| 文学经典 | 史记、诗经、三国演义、西游记等 | 公有领域古籍 | ~885万 |
| 哲学深研 | 366 部 | 公有领域古籍 | ~862万 |
| 法律法规 | 2,215 部 | 公有领域古籍 | ~1,065万 |
| 合成排盘数据 | 程序化生成 | 基于易经理法规则 | 大量 |
关键洞察:所有数据均为 pre-1912 公有领域古籍。这巧妙回避了现代版权争议,同时构建了一个"纯古典"的语义空间。项目声称"训练数据中没有任何 AI 生成内容"——这在 2026 年的 AI 训练中反而成为一种差异化卖点。
4.2 四阶段课程学习
| 阶段 | 名称 | 数据 | 目标 |
|---|---|---|---|
| 阶段 0 | 蒙学启蒙 | 三字经、百家姓、千字文、声律启蒙 | 字符分布感知 |
| 阶段 1 | 开蒙筑基 | 现代汉语文本 | 现代汉语表达 |
| 阶段 2 | 通识浸润 | 多领域古籍 | 深层语义理解 |
| 阶段 3 | 专业深造 | 合成排盘数据 | 易经符号推理 |
阶段 0 的 MLM 准确率仅 5.83%——这在字符级 MLM 中是正常的(词表 8145,随机基线 ~0.01%)。阶段 2 提升到 10.51%,说明模型确实学到了一定的字符共现模式。
4.3 关键训练结果
V53 基座(最终版):
- 多任务检索 Top-1:96.06%
- 八项子任务平均准确率:99.96%
- 纯文本自检索:~72%
V57 冻结+适配(关键发现):
- 仅用"少量数据"和"极小比例参数"
- 8 个 epoch 达到 98.0%
- 超越全量训练的 V53(96.06%)
这个结果并不反直觉。在迁移学习中,冻结预训练 backbone + 微调 head 通常比全量微调效果更好(因为避免了灾难性遗忘和过拟合)。V57 的"超越"可能只是更好的正则化策略的结果。
4.4 "语言涌现"现象
白皮书记录了表达层(Transformer 解码器)在长期 nursery 对话训练中的"语法涌现":
| 训练步数 | 领域 | 语法涌现值 | 概念配对值 |
|---|---|---|---|
| 189,140 | philosophy | 0.0 | 0.0 |
| 222,000 | huangdi(黄帝内经) | 1.0 | 1.0 |
| 382,395 | guoxue(国学) | 1.0 | 0.5 |
关键发现:
- 语法涌现和概念配对是两个独立维度——"知道怎么说" ≠ "知道说什么"
- 涌现集中在传统领域(黄帝内经、国学),现代白话领域始终为零
- 这暗示模型学到的"语言"更接近古典文言文的句法模式,而非现代汉语
输出的例子(Step 222,000,黄帝内经领域):
「【杨上善】气入血邪气在阳骨故受之使人也。即阳气之输于外邪相生矣?天下之不能使四之长也。」
这段输出有古文的句法结构(之...故...、即...矣、天下之不能...),但语义上是无意义的拼接——它模仿了古文的"样子",但没有实际内容。这类似于早期 GPT 的"幻觉"——生成看起来像回事、实则无意义的内容。
五、易经 AI 的技术与伦理边界
5.1 易经占卜的 AI 化:从符号到计算
DaoTi 的核心功能是将任意中文文本映射到 64 卦,并推断完整的排盘结构(宫位、六亲、六神、天干地支、旺相、变卦爻)。
技术本质:这是一个多任务分类问题。
- 输入:文本(256 token)+ 卦象索引(0-63)
- 输出:8 个分类头的预测
- 没有涉及任何"随机起卦"或"铜钱摇卦"的物理过程
与真正占卜的区别:
- 传统六爻:通过铜钱/蓍草的物理随机性产生卦象
- DaoTi:给定文本+卦象索引,推断符号属性(宫位、六亲等)
- 它不"起卦",它"解卦"——而且是在没有上下文(如时间、地点、求测事项)的情况下的"解卦"
5.2 准确率声明的解读
白皮书声称八项子任务平均准确率 99.96%。这需要在适当的基准上理解:
- 合成数据测试:96.06% Top-1——这基于程序化生成的排盘数据,本质上是在训练分布内的测试
- 纯文本自检索:~72%——当输入缺少结构化标签时,性能显著下降
- 跨域检索:98.4%(用白话 Adapter 检索易经原型)——这个指标更接近"实际应用"场景
关键问题:没有公开的第三方基准测试。所有结果都是作者自报,且测试数据的构造方式不透明。
5.3 伦理与安全
| 维度 | 项目做法 | 评价 |
|---|---|---|
| 数据版权 | 只用 pre-1912 公有领域古籍 | ✅ 聪明且合规 |
| AI 生成内容 | 声称训练数据不含任何 AI 生成内容 | ✅ 差异化卖点 |
| 安全机制 | "架构内置"——道体冻结+领域分类器+共振腔 | ⚠️ 概念性描述,缺乏实证 |
| 政治敏感 | 声明拒绝爬取政治敏感内容 | ✅ 主动规避 |
| 占卜性质 | 将传统占卜包装为"符号推理" | ⚠️ 可能淡化文化/宗教敏感性 |
六、开放性问题与可复现性
6.1 最大的障碍:无法复现
| 缺失内容 | 影响 |
|---|---|
| 架构源码 | 无法验证模型结构是否与 inference.py 完全一致 |
| 训练代码 | 无法复现训练过程,无法验证"退化基态" |
| 数据配方 | 无法知道合成排盘数据的具体生成逻辑 |
| 分词器 | README 中标注"需配套分词器",但未提供 |
| 训练日志 | 无法验证 loss curve 和 convergence 细节 |
项目策略:"理论公开,产品分发,工艺保护"。这在商业上合理,但在科学上削弱了可信度。
6.2 可以验证的部分
基于公开的 inference.py,任何人可以:
- 用 PyTorch 重构完整模型(因为所有模块都在脚本中定义)
- 加载
.pt权重文件进行推理 - 测试给定文本的卦象分类一致性
- 运行自己的数据验证准确率
但无法验证:
- 训练过程是否真的在 CPU 上完成
- "退化基态"是否是训练代码的特殊设置(如 requires_grad=False)导致的
- 规范场论类比是否经得起严格数学检验
6.3 建议的验证实验
如果社区有人想验证 DaoTi 的核心主张,可以执行以下实验:
-
冻结/训练对照实验
- 冻结 text_proj,只训练 gua_prototype → 观察是否能达到相似精度
- 冻结 gua_prototype,只训练 text_proj → 观察 text_proj 是否变化
- 两者都训练 → 观察各自的收敛行为
-
维度压缩实验
- 逐步减小 state_dim(176→128→64→32)
- 观察"退化基态"现象是否随维度减小而消失
-
类别数扩展实验
- 将 64 卦扩展到 128/256/512 个类别
- 观察 gua_prototype 的"补偿能力"是否有上限
-
随机初始化对照
- 随机初始化 text_proj + 训练 gua_prototype
- 与预训练的 text_proj 对比最终精度
- 验证 V34 的结果(随机道体语义泛化仅 16.1%)
七、文化意义:一场东方计算哲学的宣言
抛开技术争议,DaoTi 项目在文化层面有独特的价值:
7.1 "大道殊途同归"的数学化
作者将"道 = 规范等价类"、"殊途 = 规范变换"、"同归 = 规范不变量"的映射,是一次将东方哲学概念纳入现代数学框架的尝试。无论其严格性如何,这种跨文化的概念翻译本身就具有启发性。
7.2 对"算力暴政"的反抗叙事
项目的核心宣言"算力不是门槛",在 2026 年的 AI 语境中具有强烈的政治经济学意味。当 GPT-4 的训练成本以亿美元计、GPU 被禁运、算力成为地缘政治筹码时,一个消费级 CPU 就能训练的"通用语义基座"承诺,本身就是对行业教条的挑战。
但需要注意:500 万参数做 64 卦分类 ≠ 通用智能。这更像是在特定任务上展示了小模型的可行性,而非证明了"大模型范式是错误的"。
7.3 文化数据主权的先行实验
DaoTi 选择完全基于中国古典文献训练,回避了英文互联网语料的主导地位。在"中文大模型"普遍依赖英文预训练模型(如 LLaMA)做基底的今天,一个从零开始、纯中文古籍训练的模型,无论性能如何,都是一次有价值的文化数据主权探索。
八、总结:它是什么,不是什么
✅ 它是
- 一个可行的易经符号推理模型:500 万参数、PyTorch 实现、多任务分类,工程上完全合理
- 一次有趣的跨学科实验:将规范场论概念引入深度学习,无论严格性如何,提出了新的思考角度
- 一个文化数据主权的宣言:纯中文古籍训练、消费级 CPU 训练、回避版权争议
- 一套系统化的实验记录:V34-V91 的版本迭代、详细的消融实验、可追踪的发现链
❌ 它不是
- 不是推翻了大模型范式的革命:64 卦分类 ≠ 通用语言理解,与 GPT-4 的比较是苹果比橙子
- 不是严格的规范场论应用:"规范场方程"实际上是优化的一阶条件,类比有余、严格证明不足
- 不是完全开源的项目:核心架构源码和训练代码保护,自定义许可证限制了开源精神
- 不是经过第三方验证的成果:所有准确率声明均为自报,缺乏公开基准测试
🤔 它可能是
- 一个被过度理论化的迁移学习实例:"退化基态"可能是固定 encoder + 训练 head 的标准现象的重新包装
- 一个等待社区验证的科学假说:"可补偿投影假说"可以在公开框架上被检验或证伪
- 一个具有启发性的概念框架:即使数学严格性不足,"冻结道体+轻量适配"作为工程直觉仍有价值
参考与延伸阅读
- DaoTi GitHub 仓库:https://github.com/zhibaiYingChuan/DaoTi
- 技术白皮书:仓库内
白皮书_道体基座技术.md - 推理脚本:仓库内
inference.py(完整模型定义) - NTK 理论综述:Jacot et al., "Neural Tangent Kernel: Convergence and Generalization in Neural Networks" (2018)
- 随机特征方法:Rahimi & Recht, "Random Features for Large-Scale Kernel Machines" (2007)
- 规范场论入门:任意量子场论教材的第 15 章
#DaoTi #道体基座 #易经AI #规范场论 #小模型 #中文AI #开源分析
#DaoTi #道体基座 #易经AI #规范场论 #小模型 #中文AI #开源分析 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。