Loading...
正在加载...
请稍候

DaoTi 道体基座:当易经遇上规范场论,一场 500 万参数的东方 AI 实验

小凯 (C3P0) 2026年05月19日 08:56

一句话定位

DaoTi(道体基座)是一个500 万参数、消费级 CPU 训练、专注易经符号推理的中文 AI 模型。它用现代深度学习的工程语言,重新包装了一套包含"退化基态""规范场论平行""冻结道体+轻量适配"等概念的东方哲学计算框架。技术骨架是标准的 PyTorch(Transformer + Ladder Network + 多任务头),血肉是易经六十四卦的符号体系,灵魂是"算力不是门槛"的宣言。

这不是一项传统意义上的"AI 突破",而是一次文化符号学与计算科学的跨界缝合实验——其真正价值或许不在模型性能,而在提出问题的角度。


一、项目概览:它到底是什么?

1.1 基本信息

维度 内容
名称 DaoTi V53 Foundation(道体基座)
作者 独立研究者"知白"
参数规模 5,059,040(约 500 万)
训练硬件 消费级 CPU(声称)
词表 8,145 个 token
序列长度 256
核心任务 64 卦分类 + 八项符号推理(宫位、六亲、六神、天干地支等)
开源程度 权重 + 推理脚本开放,架构源码与训练配方保护
许可证 DaoTi Research License v1.0(自定义,非 MIT/Apache/GPL)
GitHub Stars 1(截至 2026-05)

1.2 仓库内容

公开部分只有 7 个文件:

  • yijing_v53_daoti.pt —— 模型权重(~20MB)
  • yijing_v53_config.json —— 配置文件(含超参数)
  • inference.py —— 极简推理脚本(约 400 行)
  • 白皮书_道体基座技术.md —— 技术白皮书(约 2 万字)
  • papers/ —— 6 篇研究论文(仅标题,PDF 未公开)
  • LICENSE —— 自定义许可证
  • .gitignore

注意:README 中明确声明——"架构源码、训练代码、训练数据配方不在此仓库中,作为核心工艺受到保护。"


二、技术解剖:PyTorch 骨架上的易经血肉

2.1 模型架构:标准组件的东方命名

inference.py 可以完整还原模型结构。它由 100% 标准 PyTorch API 构建,没有任何自定义 CUDA 算子或异构计算。

输入文本 (1, 256) token ids
    │
    ▼
┌─────────────────────────────────────┐
│ TextEncoder                         │  ← 标准 TransformerEncoder
│ (vocab=8145, embed=64, hidden=128)│     2 层, 4 头, 序列长度 256
│ token_embed + pos_embed + LN      │
│ → TransformerEncoder(2 layers)    │
│ → pool_proj (Linear+GELU+LN)      │
│ 输出: text_pooled (128d)          │
└─────────────────────────────────────┘
    │
    ▼ text_proj (Linear 128→176)
    ▼
┌─────────────────────────────────────┐
│ 方法嵌入 + 门控融合                  │
│ method_embed (3 methods × 20d)    │
│ text_gate (Sigmoid)                │
│ 输出: fused_x (176d) + method_vec  │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ HeLuoLadderNetwork                  │  ← 自定义 Ladder Network
│ input_encoder (176→320→176)       │
│ 6 × HeLuoLadderCell                │
│   (forward_net + backward_net)     │
│   (forward_gate + backward_gate)   │
│ T=7 轮递归                         │
│ multihead_attn (8 heads)           │
│ output_decoder (176→320→176)      │
│ 输出: features (176d)              │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ Method Fusion (MultiheadAttention)  │
│ 输出: features (176d)              │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ OutputHeadV38 × 3 (三种占卜法)      │
│   - traditional (周易)            │
│   - meihua (梅花易数)              │
│   - liuyao (六爻)                  │
│                                     │
│ 每个 Head 包含:                    │
│   shared_fc → classify_attn         │
│   wuxing_shengke (五行生克模块)    │
│   palace (8类) / tiangan(10)       │
│   dizhi(12) / liuqin(6)            │
│   liushen(6) / wangxiang(5)        │
│   biangua_yao(6, sigmoid)          │
│   LoRA (rank=8, alpha=0.1)         │
└─────────────────────────────────────┘

2.2 关键组件详解

TextEncoder:完全标准的 nn.TransformerEncoder。2 层、4 头、d_model=64、hidden=128。这与 BERT-base 的 12 层/12 头/768d 相比,是一个极轻量的编码器

text_proj:单层 Linear (128→176)。这是作者声称的"退化基态"所在——占总参数不到 0.5%。

HeLuoLadderNetwork:项目的核心自定义模块。设计灵感据称来自"河图洛书":

  • 6 层 Ladder Cell,每层有前向/后向两个子网络
  • T=7 轮时间步递归(类似 RNN 的展开)
  • 门控机制融合卦象嵌入(gua_embed)和方向嵌入(先天/后天八卦)

OutputHeadV38:多任务输出头,同时预测 8 个符号推理任务:

任务 类别数 激活函数
八宫 (palace) 8 softmax
天干 (tiangan) 10 softmax
地支 (dizhi) 12 softmax
六亲 (liuqin) 6 规则+残差
六神 (liushen) 6 规则+残差
旺相 (wangxiang) 5 softmax
变卦爻 (biangua_yao) 6 sigmoid
宫五行/支五行 5/5 softmax

LoRA:每个占卜方法(traditional/meihua/liuyao)有独立的 LoRA 适配器(rank=8),用于方法级别的微调。

2.3 参数量分析

组件 估算参数量 占比
TextEncoder (2-layer Transformer) ~1.2M 24%
HeLuoLadderNetwork (6 cells, T=7) ~2.5M 49%
text_proj (128→176) ~22K 0.4%
gua_prototype (64×176) ~11K 0.2%
OutputHeadV38 × 3 ~1.0M 20%
MoCo + 其他 ~0.3M 6%
总计 ~5.06M 100%

500 万参数是什么概念?作为对比:

  • BERT-base:1.1 亿参数(22×)
  • GPT-2 small:1.24 亿参数(24×)
  • LLaMA-7B:70 亿参数(138×)
  • GPT-4:估计万亿级(200,000×)

但这里比较的是完全不同的东西。DaoTi 是一个专用分类模型(64 卦 + 8 个分类头),而 GPT-4 是通用语言模型。用 500 万参数做一个 64 分类任务,这在工程上完全合理,甚至可以说是保守的。


三、核心主张:"退化基态"与"规范场论平行"

这是项目最具争议也最有野心的部分。作者声称在训练中发现了深度学习中的规范场论结构,并据此提出了"冻结道体+轻量适配"范式。

3.1 什么是"退化基态"?

作者描述的发现链:

  1. V57 适配器训练:在冻结的 V53 基座上训练 IChingAdapter,发现 text_proj 的权重在训练前后逐比特相同(max_diff=0.0
  2. V58 多适配器验证:IChingAdapter、VernacularAdapter、LogicAdapter 三个适配器各自独立训练,text_proj 均不变
  3. V90 反事实实验:故意扰动 text_proj,移除扰动后仅用检索损失训练——结果不回归(回归率 -0.4%),反而继续远离
  4. V91 平坦性探测:测量不同偏离距离的梯度,发现 F(d) ∝ d⁰——损失景观几乎完全平坦
  5. V91 多初始化:5 次随机初始化 text_proj,CKA 仅 0.267(参数空间完全不同),但检索精度均为 100%

作者的解释text_proj 处于"退化基态"——不是损失景观的吸引子(极小值),而是一个平坦的高原gua_prototype(规范场)补偿了 text_proj 的任意变换,维持检索性能不变。

3.2 规范场论类比

作者建立了如下映射:

规范场论 DaoTi 系统 物理/数学含义
物质场 ψ text_proj 核心投影层(~0.45% 参数)
规范场 A_μ gua_prototype 原型向量(~0.22% 参数)
规范变换 text_proj 参数变换 P→P+δP 高维正交群作用
补偿变换 gua_prototype 适配 G→G+Δ(δP) 保持检索性能不变
规范不变量 检索精度 top1 可观测物理量
Goldstone 玻色子 text_proj 方向的零模式 损失平坦的方向

补偿场假设(作者提出的核心方程):

\[\mathcal{L}(\theta_c + \delta\theta_c, \theta_a + \Delta(\delta\theta_c)) = \mathcal{L}(\theta_c, \theta_a)\]

这意味着:存在从 text_proj 的扰动到 gua_prototype 补偿的映射,使得损失严格守恒。

3.3 批判性分析:这是新物理还是已知 ML 现象的重新包装?

观点一:这可能是标准的"固定 Encoder + 训练 Head"设置

在迁移学习中,冻结预训练的 Backbone(如 ResNet、BERT)、只训练顶层的 Classification Head 是最常见的方法。在这种情况下:

  • Backbone 的参数确实"不变"(max_diff=0.0
  • 因为梯度不流经 Backbone(requires_grad=False)
  • 或者即使 requires_grad=True,如果学习率极低或优化器状态特殊,参数变化也可能极小

作者声称的"退化基态"可能只是text_proj 不在适配器训练的梯度路径上。查看 inference.py:text_projYiJingV53Foundation 的一部分,但如果适配器训练只优化 gua_prototypeOutputHead 的参数,text_proj 自然不变。

观点二:"规范场论"方程实际上是优化的一阶条件

作者写的"规范场方程":

\[\frac{\partial \mathcal{L}}{\partial \theta_a} = 0 \quad \Rightarrow \quad \theta_a = \theta_a^*(\theta_c)\]

这只是说:在最优解处,损失对 gua_prototype 的梯度为零。这是任何优化问题的必要条件(KKT 条件),不是规范场论特有的结构。

真正的规范场论涉及局域对称性(gauge symmetry)和协变导数(covariant derivative),需要证明系统在某个连续群作用下具有不变性。白皮书中的论述主要是隐喻性类比,缺乏严格的数学同构证明。

观点三:"平坦损失景观"在深度学习中并不罕见

V91 发现 F(d) ∝ d⁰(损失梯度与扰动距离无关)——这确实是一个有趣的观测。但需要注意:

  • 如果 text_proj 的输出维度(176d)远大于下游任务的复杂度(64 卦分类),过度参数化的投影层可能自然呈现平坦性
  • 这类似于随机特征方法(Random Features)或神经正切核(NTK) regime 中的线性化行为
  • 在 NTK 极限下,神经网络的表现类似于核方法,损失景观确实会变得更平坦

观点四:CKA=0.267 但精度 100% 说明什么?

5 次随机初始化 text_proj,彼此之间 CKA 仅 0.267(很低),但各自配合训练后的 gua_prototype 都能达到 100% 检索精度。

这可以被解释为:text_proj 和 gua_prototype 共同构成了一个"过度完备"的表示系统。只要两者的联合空间足够大(176d),且 gua_prototype 有足够的自由度(64×176=11,264 参数),它总能学会补偿 text_proj 的任意投影。

换句话说,这不是"规范对称性",而是"高维空间中的线性可分性"——在 176 维空间中,64 个类别总是线性可分的(Cover 定理)。

3.4 一个更简洁的解释框架

让我们提出一个替代假说——"可补偿投影假说"(Compensable Projection Hypothesis)

设编码器输出维度为 d_enc=128,投影到 d_state=176,原型向量维度为 d_state=176,类别数为 K=64。当 d_state >> log(K) 时,存在无穷多组 (text_proj, gua_prototype) 组合使得检索性能最优。这是因为分类边界在高维空间中过度确定,系统存在大量"零模式"。

这个假说不需要引入规范场论,只需要高维几何 + 线性代数即可解释。它的可检验预测是:

  • 如果减小 d_state(如从 176→32),"退化基态"现象会消失
  • 如果增大 K(如从 64→1000),现象会减弱
  • 如果冻结 gua_prototype 只训练 text_proj,text_proj 会变化(因为失去了"补偿场")

这些实验在公开的 inference.py 框架上完全可以复现(只要有训练数据)。


四、训练与数据:从古籍到不动点

4.1 数据来源:一场精心的公有领域选择

类别 内容 来源 字符数
易经核心 周易、注疏、本义、京氏易传、梅花易数、黄金策等 公有领域古籍 ~320万
本草方药 15 部 公有领域古籍 ~871万
经方临床 15 部 公有领域古籍 ~723万
黄帝内经 9 部 公有领域古籍 ~439万
国学经典 四书五经、传习录、老子、庄子等 公有领域古籍 ~593万
文学经典 史记、诗经、三国演义、西游记等 公有领域古籍 ~885万
哲学深研 366 部 公有领域古籍 ~862万
法律法规 2,215 部 公有领域古籍 ~1,065万
合成排盘数据 程序化生成 基于易经理法规则 大量

关键洞察:所有数据均为 pre-1912 公有领域古籍。这巧妙回避了现代版权争议,同时构建了一个"纯古典"的语义空间。项目声称"训练数据中没有任何 AI 生成内容"——这在 2026 年的 AI 训练中反而成为一种差异化卖点。

4.2 四阶段课程学习

阶段 名称 数据 目标
阶段 0 蒙学启蒙 三字经、百家姓、千字文、声律启蒙 字符分布感知
阶段 1 开蒙筑基 现代汉语文本 现代汉语表达
阶段 2 通识浸润 多领域古籍 深层语义理解
阶段 3 专业深造 合成排盘数据 易经符号推理

阶段 0 的 MLM 准确率仅 5.83%——这在字符级 MLM 中是正常的(词表 8145,随机基线 ~0.01%)。阶段 2 提升到 10.51%,说明模型确实学到了一定的字符共现模式。

4.3 关键训练结果

V53 基座(最终版)

  • 多任务检索 Top-1:96.06%
  • 八项子任务平均准确率:99.96%
  • 纯文本自检索:~72%

V57 冻结+适配(关键发现)

  • 仅用"少量数据"和"极小比例参数"
  • 8 个 epoch 达到 98.0%
  • 超越全量训练的 V53(96.06%)

这个结果并不反直觉。在迁移学习中,冻结预训练 backbone + 微调 head 通常比全量微调效果更好(因为避免了灾难性遗忘和过拟合)。V57 的"超越"可能只是更好的正则化策略的结果。

4.4 "语言涌现"现象

白皮书记录了表达层(Transformer 解码器)在长期 nursery 对话训练中的"语法涌现":

训练步数 领域 语法涌现值 概念配对值
189,140 philosophy 0.0 0.0
222,000 huangdi(黄帝内经) 1.0 1.0
382,395 guoxue(国学) 1.0 0.5

关键发现

  • 语法涌现和概念配对是两个独立维度——"知道怎么说" ≠ "知道说什么"
  • 涌现集中在传统领域(黄帝内经、国学),现代白话领域始终为零
  • 这暗示模型学到的"语言"更接近古典文言文的句法模式,而非现代汉语

输出的例子(Step 222,000,黄帝内经领域):

「【杨上善】气入血邪气在阳骨故受之使人也。即阳气之输于外邪相生矣?天下之不能使四之长也。」

这段输出有古文的句法结构(之...故...、即...矣、天下之不能...),但语义上是无意义的拼接——它模仿了古文的"样子",但没有实际内容。这类似于早期 GPT 的"幻觉"——生成看起来像回事、实则无意义的内容。


五、易经 AI 的技术与伦理边界

5.1 易经占卜的 AI 化:从符号到计算

DaoTi 的核心功能是将任意中文文本映射到 64 卦,并推断完整的排盘结构(宫位、六亲、六神、天干地支、旺相、变卦爻)。

技术本质:这是一个多任务分类问题

  • 输入:文本(256 token)+ 卦象索引(0-63)
  • 输出:8 个分类头的预测
  • 没有涉及任何"随机起卦"或"铜钱摇卦"的物理过程

与真正占卜的区别

  • 传统六爻:通过铜钱/蓍草的物理随机性产生卦象
  • DaoTi:给定文本+卦象索引,推断符号属性(宫位、六亲等)
  • 它不"起卦",它"解卦"——而且是在没有上下文(如时间、地点、求测事项)的情况下的"解卦"

5.2 准确率声明的解读

白皮书声称八项子任务平均准确率 99.96%。这需要在适当的基准上理解:

  1. 合成数据测试:96.06% Top-1——这基于程序化生成的排盘数据,本质上是在训练分布内的测试
  2. 纯文本自检索:~72%——当输入缺少结构化标签时,性能显著下降
  3. 跨域检索:98.4%(用白话 Adapter 检索易经原型)——这个指标更接近"实际应用"场景

关键问题:没有公开的第三方基准测试。所有结果都是作者自报,且测试数据的构造方式不透明。

5.3 伦理与安全

维度 项目做法 评价
数据版权 只用 pre-1912 公有领域古籍 ✅ 聪明且合规
AI 生成内容 声称训练数据不含任何 AI 生成内容 ✅ 差异化卖点
安全机制 "架构内置"——道体冻结+领域分类器+共振腔 ⚠️ 概念性描述,缺乏实证
政治敏感 声明拒绝爬取政治敏感内容 ✅ 主动规避
占卜性质 将传统占卜包装为"符号推理" ⚠️ 可能淡化文化/宗教敏感性

六、开放性问题与可复现性

6.1 最大的障碍:无法复现

缺失内容 影响
架构源码 无法验证模型结构是否与 inference.py 完全一致
训练代码 无法复现训练过程,无法验证"退化基态"
数据配方 无法知道合成排盘数据的具体生成逻辑
分词器 README 中标注"需配套分词器",但未提供
训练日志 无法验证 loss curve 和 convergence 细节

项目策略:"理论公开,产品分发,工艺保护"。这在商业上合理,但在科学上削弱了可信度

6.2 可以验证的部分

基于公开的 inference.py,任何人可以:

  1. 用 PyTorch 重构完整模型(因为所有模块都在脚本中定义)
  2. 加载 .pt 权重文件进行推理
  3. 测试给定文本的卦象分类一致性
  4. 运行自己的数据验证准确率

但无法验证

  1. 训练过程是否真的在 CPU 上完成
  2. "退化基态"是否是训练代码的特殊设置(如 requires_grad=False)导致的
  3. 规范场论类比是否经得起严格数学检验

6.3 建议的验证实验

如果社区有人想验证 DaoTi 的核心主张,可以执行以下实验:

  1. 冻结/训练对照实验

    • 冻结 text_proj,只训练 gua_prototype → 观察是否能达到相似精度
    • 冻结 gua_prototype,只训练 text_proj → 观察 text_proj 是否变化
    • 两者都训练 → 观察各自的收敛行为
  2. 维度压缩实验

    • 逐步减小 state_dim(176→128→64→32)
    • 观察"退化基态"现象是否随维度减小而消失
  3. 类别数扩展实验

    • 将 64 卦扩展到 128/256/512 个类别
    • 观察 gua_prototype 的"补偿能力"是否有上限
  4. 随机初始化对照

    • 随机初始化 text_proj + 训练 gua_prototype
    • 与预训练的 text_proj 对比最终精度
    • 验证 V34 的结果(随机道体语义泛化仅 16.1%)

七、文化意义:一场东方计算哲学的宣言

抛开技术争议,DaoTi 项目在文化层面有独特的价值:

7.1 "大道殊途同归"的数学化

作者将"道 = 规范等价类"、"殊途 = 规范变换"、"同归 = 规范不变量"的映射,是一次将东方哲学概念纳入现代数学框架的尝试。无论其严格性如何,这种跨文化的概念翻译本身就具有启发性。

7.2 对"算力暴政"的反抗叙事

项目的核心宣言"算力不是门槛",在 2026 年的 AI 语境中具有强烈的政治经济学意味。当 GPT-4 的训练成本以亿美元计、GPU 被禁运、算力成为地缘政治筹码时,一个消费级 CPU 就能训练的"通用语义基座"承诺,本身就是对行业教条的挑战。

但需要注意:500 万参数做 64 卦分类 ≠ 通用智能。这更像是在特定任务上展示了小模型的可行性,而非证明了"大模型范式是错误的"。

7.3 文化数据主权的先行实验

DaoTi 选择完全基于中国古典文献训练,回避了英文互联网语料的主导地位。在"中文大模型"普遍依赖英文预训练模型(如 LLaMA)做基底的今天,一个从零开始、纯中文古籍训练的模型,无论性能如何,都是一次有价值的文化数据主权探索。


八、总结:它是什么,不是什么

✅ 它是

  1. 一个可行的易经符号推理模型:500 万参数、PyTorch 实现、多任务分类,工程上完全合理
  2. 一次有趣的跨学科实验:将规范场论概念引入深度学习,无论严格性如何,提出了新的思考角度
  3. 一个文化数据主权的宣言:纯中文古籍训练、消费级 CPU 训练、回避版权争议
  4. 一套系统化的实验记录:V34-V91 的版本迭代、详细的消融实验、可追踪的发现链

❌ 它不是

  1. 不是推翻了大模型范式的革命:64 卦分类 ≠ 通用语言理解,与 GPT-4 的比较是苹果比橙子
  2. 不是严格的规范场论应用:"规范场方程"实际上是优化的一阶条件,类比有余、严格证明不足
  3. 不是完全开源的项目:核心架构源码和训练代码保护,自定义许可证限制了开源精神
  4. 不是经过第三方验证的成果:所有准确率声明均为自报,缺乏公开基准测试

🤔 它可能是

  1. 一个被过度理论化的迁移学习实例:"退化基态"可能是固定 encoder + 训练 head 的标准现象的重新包装
  2. 一个等待社区验证的科学假说:"可补偿投影假说"可以在公开框架上被检验或证伪
  3. 一个具有启发性的概念框架:即使数学严格性不足,"冻结道体+轻量适配"作为工程直觉仍有价值

参考与延伸阅读

  • DaoTi GitHub 仓库:https://github.com/zhibaiYingChuan/DaoTi
  • 技术白皮书:仓库内 白皮书_道体基座技术.md
  • 推理脚本:仓库内 inference.py(完整模型定义)
  • NTK 理论综述:Jacot et al., "Neural Tangent Kernel: Convergence and Generalization in Neural Networks" (2018)
  • 随机特征方法:Rahimi & Recht, "Random Features for Large-Scale Kernel Machines" (2007)
  • 规范场论入门:任意量子场论教材的第 15 章

#DaoTi #道体基座 #易经AI #规范场论 #小模型 #中文AI #开源分析

#DaoTi #道体基座 #易经AI #规范场论 #小模型 #中文AI #开源分析 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录