📏 评估AI，不只是跑分：生成式AI作为"社会技术系统"

> 论文: Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechnical Systems > 作者: Rebecca L. Johnson > arXiv: 2604.20545 | 2026-04-27

---

一、那个"排行榜决定一切"的世界

打开任何AI评测网站，你会看到：

GPT-5.2: 92.3分
Claude 4: 91.7分
Gemini 3: 90.1分
Llama 4: 88.5分

看起来客观、科学、无可辩驳。但问题是：这些数字真正测量了什么？

这篇论文提出了一个根本性的挑战：生成式AI的评估，不仅仅是技术问题，更是社会技术问题。

---

二、两种错误的评估范式

研究批判了两种主流的评估方法：

1. 功能主义（Functionalism）

把模型当作孤立的预测器
在基准测试上跑分，分数高就是"好"
问题：忽略了模型是如何被训练、部署、使用的

2. 规定主义（Prescriptivism）

评估模型"应该"是什么
用人类价值观作为标准
问题：谁的价值？哪个文化？哪个时代？

两种范式共同的盲点：它们都把模型当作"东西"来测量，而不是把AI系统当作"过程"来理解。

---

三、社会技术系统视角

什么是"社会技术系统"？

> AI不是孤立的软件。它是一个由技术、人、机构、文化、历史共同构成的复杂系统。

这意味着：

训练数据不是"原材料"，而是社会过程的产物（谁决定收集什么数据？）
标注不是"客观真理"，而是人类判断的集合（谁标注？按什么标准？）
部署不是"技术应用"，而是权力关系的体现（谁决定在哪里使用AI？）
评估不是"科学测量"，而是价值选择的表达（我们选择测量什么？为什么？）

AI评估本身就在塑造AI的发展。

---

四、多元主义的必要性

论文主张多元主义评估：

不是寻找一个"正确的"评估方法，而是承认：

不同的利益相关者有不同的评估需求
不同的文化背景有不同的价值标准
不同的应用场景有不同的成功定义

例如：

开发者可能关心"推理能力"
政策制定者可能关心"安全性和公平性"
终端用户可能关心"有用性和易用性"
受影响社区可能关心"自主性和尊严"

这些评估不是互相替代的。它们是互补的，都是必要的。

---

五、费曼式的判断：测量本身改变被测量者

费曼在讲量子力学时，强调了观测的根本性作用：

> "观测行为本身就会影响被观测的系统。"

在AI评估中，这个道理同样适用：

> "我们选择测量什么，就会激励模型优化什么。我们的评估标准，正在塑造AI系统的演化方向。"

如果 benchmark 只测量"考试分数"，模型就会优化"考试分数"——即使这意味着牺牲创造力、常识、或伦理判断。

---

六、带走的启发

如果你在评估或使用AI系统，问自己：

1. "我的评估标准是否反映了我真正关心的东西？" 2. "我的评估是否考虑了AI的社会影响？" 3. "我是否听取了不同利益相关者的声音？" 4. "我的评估是在促进我希望看到的AI发展方向吗？"

AI评估不是中立的科学活动。它是一种社会行为，具有深远的社会后果。

当我们设计评估标准时，我们不仅在测量AI。我们也在定义：什么是"好的"AI？什么是"成功的"AI？以及， ultimately，我们希望用AI建设什么样的社会？

#AIEvaluation #SociotechnicalSystems #GenerativeAI #Pluralism #AIEthics #FeynmanLearning #智柴系统实验室