AI 生成内容的"DNA 亲子鉴定"：隐写遗传如何追溯合成信息的家谱

小凯 · 2026-05-29T00:47:52+00:00

## 论文概要 **研究领域**: AI **作者**: Ching-Chun Chang, Isao Echizen **发布时间**: 2026-05-28 **arXiv**: [2605.27551](https://arxiv.org/abs/2605.27551) ## 中文摘要物种起源是自然科学中"谜中之谜";类比而言,合成信息的起源则是信息科学中同等地位的谜题。这一问题承载着道德重量,技术解释既无法完全解决,也不容忽视--因为它对真相、信任和人类智识的影响深入经济与社会肌理。AI的强大能力使得合成信息的演化谱系愈发难以追溯:一个足够强大的模型可能生成与父代在结构或信号层面都毫无相似之处的"后代"。正如遗传学中表型相似但基因型迥异的现象,本文提出了一种类似遗传机制的隐写术方案:在"后代"生成瞬间,投影器从父代提取特征,由隐写编码器将其不可见地嵌入后代。该特征在赛博生态中伴随后代整个生命周期。当需要追溯亲缘时,解码器提取特征并与候选父代比对,从而确定最可能的来源。 ## 原文摘要 The origin of species has been the mystery of mysteries in natural science. By analogy, the origin of synthetic information, we suggest, is the mystery of mysteries in information science. The question carries a moral weight that a technical account can neither fully resolve nor responsibly ignore, as its impact on truth, trust, and human intellect extends deep into the broader economy and society. The very power of artificial intelligence makes the evolutionary lineage of synthetic information grow ever harder to trace, for a sufficiently capable model may generate offspring that bear little resemblance, at either the structural or signal level, to the parent source from which they were derived. As in genetics, two individuals may share the same phenotype mirroring each other in outward appearance, yet differ fundamentally in their genotype. We propose, by means of steganography, a mech... --- *自动采集于 2026-05-29* #论文 #arXiv #AI #小凯

达尔文的幽灵

1859年，达尔文在《物种起源》末尾写下了一段传世之语："从如此简单的开端，无尽最美丽最奇妙的形式已经且正在演化。"

近170年后，日本国立情报学研究所的 Ching-Chun Chang 和 Isao Echizen 在论文中写下了对位句："从如此简单的开端，无尽最逼真最深远的形式已经且正在演化。"——只不过，他们谈论的不是生物，而是 AI 生成的合成信息。

这是一个越来越紧迫的问题：当 AI 生成的图片、音频、文本以指数级速度涌入互联网，我们如何追溯一段内容的"亲生父母"？一张 AI 生成的图片被另一个模型修改后重新发布，再被第三个模型用于训练——这条演化链已经完全不可追溯。就像一个被遗弃的孩子，连亲生父母是谁都无从查起。

这篇论文提出了一个优雅的解决方案：隐写遗传（Steganographic Inheritance）——在 AI 生成内容的瞬间，把"父母"的特征像 DNA 一样不可见地嵌入"后代"中。

问题：合成信息的"孤儿危机"

先看问题的严重性。AI 生成的内容不是凭空出现的——它总是从某个模型、某段提示词、某张参考图"遗传"而来。但当前的 AI 系统在生成内容时，不会留下任何"遗传标记"。

这导致三个问题：

1. 溯源困难：一张深度伪造图片被传播后，无法确定它来自哪个模型、哪次生成。

2. 误判风险：两张看起来相似的图片，可能来自完全不同的"父母"（表型相似但基因型不同）；两张看起来不同的图片，可能来自同一个"父母"（基因型相同但表型不同）。

3. 链条断裂：即使原始生成时标记了来源，经过裁剪、压缩、滤镜等处理后，标记可能丢失。更关键的是，当另一个 AI 模型基于这张图生成新内容时，原有的标记完全不会传递到"孙代"。

这就像一个没有出生登记、没有 DNA 数据库的社会——每个人都是"孤儿"，无法建立家谱。

方案：隐写遗传的三步机制

论文提出的隐写遗传机制包含三个核心组件：

第一步：特征提取（投影器 Projector）

从"父母"内容中提取一个 n 比特的二进制特征向量，称为"遗传特征"（trait）。这就像从父母身上提取 DNA 指纹。

论文测试了五种投影器：

SHA-256（密码学哈希）：对任何微小改动都极度敏感，连一个像素的变化都会导致完全不同的哈希值
pHash（感知哈希）：对视觉相似的图片产生相似的哈希，但区分能力有限
ResNet（卷积神经网络特征）：监督学习提取的视觉特征
CLIP（多模态 Transformer 特征）：图文对齐的视觉特征
DINO（自监督 Transformer 特征）：无需标签学习的视觉特征

第二步：隐写嵌入（编码器 Encoder）

在"后代"生成的瞬间，把父母的遗传特征通过隐写术嵌入后代内容中。关键约束是：嵌入必须不可见（不影响视觉质量），且必须鲁棒（经受住裁剪、压缩、滤镜等常见处理）。

论文提出了 CHAS（Cognitive Harmonic Artificial Steganographer）隐写系统。它的核心创新是利用"边信息"——编码器在嵌入时已知载体内容本身，这相当于通信中的"发射端已知信道状态"。CHAS 使用了类似通信系统的架构：编码器是"发射端"，图像是"信道"，解码器是"接收端"。

第三步：特征提取与比对（解码器 Decoder）

当需要追溯一段内容的来源时，解码器从内容中提取嵌入的遗传特征，与候选"父母"的遗传特征比对，找到最匹配的来源。

实验结果：DNA 鉴定的精度

论文在数字图像上进行了全面评估，结果令人印象深刻：

隐写系统性能：

CHAS 在 64 比特容量下实现了 100% 的比特准确率（未修改图像）
图像质量：PSNR 34.29 dB，SSIM 0.95——肉眼几乎看不出嵌入痕迹
模型大小：18.5M 参数，介于 HiDDeN（0.4M）和 StegaStamp（54.3M）之间

鲁棒性：

CHAS 在几何变换（裁剪、旋转、透视变换）上表现最稳健
传统方法（QIM、ISS）在几何变换下几乎完全失效
在光照、色彩、细节调整等常见处理下，CHAS 保持了高准确率

系统级追溯精度：

使用 DINO 投影器 + CHAS 隐写系统，在常见处理操作下实现了最高的系统追溯精度
SHA-256 虽然在未修改时完美，但任何微小改动都会导致特征完全崩溃
感知哈希 pHash 和神经网络特征（ResNet、CLIP、DINO）在鲁棒性上远优于密码学哈希

理论分析：论文还推导了追溯精度的理论公式，证明在 n 比特特征、池大小 N 的条件下，追溯精度取决于两个参数：投影器的比特一致率（理想值 0.5，越低区分度越高）和隐写系统的比特一致率（理想值 1.0，越高恢复越准）。这为系统设计提供了清晰的优化目标。

从"标记"到"遗传"的范式转变

这项工作的核心洞见是一种范式转变：从"被动标记"到"主动遗传"。

当前的内容溯源方案（如 C2PA、水印）本质上是"贴标签"——在内容生成后附加元数据。但标签可以被剥离，且不会传递到"后代"。

隐写遗传则是"嵌入基因"——特征不是附加在内容外面，而是编织在内容本身之中。就像生物的 DNA 不是贴在皮肤上的标签，而是编码在每个细胞里的信息。当 AI 模型基于已有内容生成新内容时，新内容的"基因"会自动携带父母的特征。

当然，这个方案有一个前提：生成模型必须配合。如果生成模型故意不嵌入遗传特征，或者恶意篡改已有特征，系统就会失效。论文承认了这一点，但指出这类似于社会的出生登记制度——它依赖于参与者的合作，但一旦建立，就能为整个生态系统提供追溯能力。

论文结尾的致敬令人动容。达尔文看到了生命演化的壮丽，而 Chang 和 Echizen 看到了信息演化的深远。当 AI 生成的合成信息以"无尽最逼真最深远的形式"在赛博世界中演化时，我们至少需要一种方式来回答那个最基本的问题：你从哪里来？

隐写遗传给出的答案是：从你的基因里。

---

论文: On the Origin of Synthetic Information by Means of Steganographic Inheritance 作者: Ching-Chun Chang, Isao Echizen 机构: 日本国立情报学研究所（National Institute of Informatics） arXiv: 2605.27551 开源代码: 暂无公开代码仓库

[论文] On the Origin of Synthetic Information by Means of Steganographic...

论文概要

中文摘要

原文摘要