第4章：IPLD（星际数据链接）

4.1 IPLD 的基本概念

IPLD（InterPlanetary Linked Data）是 IPFS 的底层数据模型，旨在为分布式系统提供一种统一、可验证、格式无关的数据表示与链接机制。它并非仅服务于 IPFS，而是作为跨协议数据互操作的通用语义层而设计。其核心理念可概括为以下四点：

万物皆对象：文件、目录、元数据、智能合约状态乃至区块链区块，均被抽象为具有明确定义结构的 IPLD 对象；
内容寻址：每个对象通过其序列化后的加密哈希（如 SHA-256 或 BLAKE2b）获得全局唯一标识符（CID），而非依赖位置或路径；
哈希链接：对象之间通过嵌入其他对象的 CID 进行引用，形成天然防篡改的链接关系；
格式无关性：同一逻辑数据模型可在多种序列化格式上实现，无需修改语义定义。

💡 提示：IPLD 不是一种新格式，而是一套“数据模型规范 + 格式适配器 + 解析器注册机制”的组合。理解这一点，有助于避免将其误认为某种特定编码方案（如 CBOR 或 Protobuf）。

4.2 数据模型和序列化格式

IPLD 的基础数据模型由两类核心成分构成：数据（<code>data</code>） 和 链接（<code>links</code>）。一个典型 IPLD 节点的结构如下（以 dag-cbor 编码为例）：

{
  "links": [
    {
      "Name": "readme",
      "Hash": "QmYjtig7VJQ6XsnUjqqJvj7QaMcCAwtrgdfhz6EWTT22cP",
      "Size": 256
    }
  ],
  "data": "SGVsbG8gSVBGUyE="
}
```  

其中：  
- `data` 字段存储该节点自身的二进制有效载荷（Base64 编码仅为示例展示，实际存储为原始字节）；  
- `links` 数组包含一个或多个指向其他 IPLD 对象的引用，每个引用含名称（可选）、目标 CID（`Hash`）及预估大小（`Size`，用于带宽/存储预估）。  

**官方支持的主要序列化格式包括**：  
- **dag-pb**：基于 Protocol Buffers 的紧凑二进制格式，IPFS 默认采用，具备高效解析与强类型约束能力；  
- **dag-cbor**：基于 CBOR（RFC 8949）的自描述二进制格式，天然支持 JSON 映射，调试友好且广泛兼容；  
- **raw**：纯二进制数据块，无结构信息，适用于已知内容类型的裸数据（如图片、视频片段）；  
- **dag-json**：JSON 文本格式的 IPLD 表达，仅用于教学、调试或低性能场景——**生产环境不推荐使用**，因其无法保证字节级确定性（JSON 序列化顺序、空格、浮点数精度等均可能引入哈希不一致）。  

> ⚠️ **注意**：CID 的生成严格依赖于字节级确定性序列化结果。若使用 `dag-json` 存储关键数据，必须确保所有参与方使用完全一致的 JSON 库与序列化选项，否则将导致 CID 不匹配，破坏内容寻址完整性。  

#### 4.3 Merkle DAG 结构  

Merkle DAG（Merkle 有向无环图）是 IPLD 的核心数据结构范式。它融合了 Merkle 树的密码学验证优势与 DAG 的灵活拓扑表达能力，构成去中心化数据组织的基石。  

**关键特性**：  
- **节点唯一性**：每个节点的 CID 是对其内容（含 `data` 与 `links`）进行哈希计算所得，内容不变则 CID 永远不变；  
- **密码学链接**：子节点 CID 直接嵌入父节点的 `links` 中，任何子节点内容篡改都会导致父节点 CID 失效；  
- **无环性保障**：IPLD 解析器在遍历时强制检测循环引用，防止无限递归与逻辑矛盾；  
- **局部验证**：验证任意子树只需下载对应路径上的节点，无需信任全局状态。  

**结构示意（简化版）**：

Root (CID: QmR…) / \ A (QmX…) B (QmY…) / \ / \ C (QmZ…) D (QmW…) E (QmV…) F (QmU…) ```

💡 提示：Merkle DAG 并非物理存储结构，而是一种逻辑组织方式。实际存储中，各节点可分散于全球节点，通过 CID 动态发现与组装。

4.4 跨协议数据互操作性

IPLD 的核心价值之一，在于打破不同分布式系统间的语义壁垒，使比特币区块、Git 提交、以太坊状态树等异构数据能以统一方式被查询、链接与验证。

原生支持的协议解析器包括：

Bitcoin：将 UTXO 集、区块头、交易等映射为 IPLD 对象，支持轻客户端同步与区块验证；
Ethereum：解析状态 Trie、收据、日志及 EVM 字节码，实现链下状态快照与跨链证明；
Git：将 commit、tree、blob 对象转换为 IPLD 节点，天然支持 Git 协议与 IPFS 的无缝集成；
IPFS：作为 IPLD 的参考实现，提供完整的文件系统（UnixFS）与目录结构建模。

扩展机制示例（JavaScript）：

import { IPLD } from 'ipld';
import { BitcoinCodec } from 'ipld-bitcoin';
import { EthereumCodec } from 'ipld-ethereum';

const ipld = new IPLD();

// 注册协议解析器（现代用法，替代已废弃的 registerFormat）
ipld.addCodec(BitcoinCodec);
ipld.addCodec(EthereumCodec);

// 解析任意协议下的 CID（自动选择对应编解码器）
const node = await ipld.get(new CID('Qm...'));
```  

> ⚠️ **注意**：协议解析器需严格遵循 IPLD 数据模型规范。例如，以太坊状态 Trie 的每个节点必须映射为含 `links`（子节点引用）与 `data`（RLE 编码值或分支信息）的 IPLD 对象，而非简单封装原始 RLP 数据。  

#### 4.5 IPLD 在实际中的应用  

IPLD 已成为构建可信、可组合、可验证的去中心化基础设施的关键中间件，典型应用场景包括：  

- **去中心化文件系统（如 IPFS + UnixFS）**：将文件分块、哈希、链接，形成可增量更新、抗审查、支持断点续传的分布式存储层；  
- **区块链轻客户端与跨链桥**：通过 IPLD 抽象层统一访问多条链的状态，降低验证复杂度，支撑零知识证明的输入构造；  
- **分布式版本控制系统（如 git-ipfs）**：利用 Git 对象的天然 IPLD 兼容性，实现无需中心服务器的协作开发与代码存证；  
- **去中心化数据库（如 OrbitDB、Ceramic）**：以 IPLD 为底层数据模型，结合 CRDT 或签名链实现最终一致性与权限控制。  

> 💡 **提示**：IPLD 本身不提供共识、存储激励或网络传输功能。它专注解决“数据长什么样”和“如何可靠地链接它们”这两个问题。实际系统需与其上层协议（如 Bitswap、Libp2p）及应用逻辑协同工作。