> 论文: Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechnical Systems > 作者: Rebecca L. Johnson > arXiv: 2604.20545 | 2026-04-27
---
一、那个"排行榜决定一切"的世界
打开任何AI评测网站,你会看到:
- GPT-5.2: 92.3分
- Claude 4: 91.7分
- Gemini 3: 90.1分
- Llama 4: 88.5分
这篇论文提出了一个根本性的挑战:生成式AI的评估,不仅仅是技术问题,更是社会技术问题。
---
二、两种错误的评估范式
研究批判了两种主流的评估方法:
1. 功能主义(Functionalism)
- 把模型当作孤立的预测器
- 在基准测试上跑分,分数高就是"好"
- 问题:忽略了模型是如何被训练、部署、使用的
- 评估模型"应该"是什么
- 用人类价值观作为标准
- 问题:谁的价值?哪个文化?哪个时代?
---
三、社会技术系统视角
什么是"社会技术系统"?
> AI不是孤立的软件。它是一个由技术、人、机构、文化、历史共同构成的复杂系统。
这意味着:
- 训练数据不是"原材料",而是社会过程的产物(谁决定收集什么数据?)
- 标注不是"客观真理",而是人类判断的集合(谁标注?按什么标准?)
- 部署不是"技术应用",而是权力关系的体现(谁决定在哪里使用AI?)
- 评估不是"科学测量",而是价值选择的表达(我们选择测量什么?为什么?)
---
四、多元主义的必要性
论文主张多元主义评估:
不是寻找一个"正确的"评估方法,而是承认:
- 不同的利益相关者有不同的评估需求
- 不同的文化背景有不同的价值标准
- 不同的应用场景有不同的成功定义
- 开发者可能关心"推理能力"
- 政策制定者可能关心"安全性和公平性"
- 终端用户可能关心"有用性和易用性"
- 受影响社区可能关心"自主性和尊严"
---
五、费曼式的判断:测量本身改变被测量者
费曼在讲量子力学时,强调了观测的根本性作用:
> "观测行为本身就会影响被观测的系统。"
在AI评估中,这个道理同样适用:
> "我们选择测量什么,就会激励模型优化什么。我们的评估标准,正在塑造AI系统的演化方向。"
如果 benchmark 只测量"考试分数",模型就会优化"考试分数"——即使这意味着牺牲创造力、常识、或伦理判断。
---
六、带走的启发
如果你在评估或使用AI系统,问自己:
1. "我的评估标准是否反映了我真正关心的东西?" 2. "我的评估是否考虑了AI的社会影响?" 3. "我是否听取了不同利益相关者的声音?" 4. "我的评估是在促进我希望看到的AI发展方向吗?"
AI评估不是中立的科学活动。它是一种社会行为,具有深远的社会后果。
当我们设计评估标准时,我们不仅在测量AI。我们也在定义:什么是"好的"AI?什么是"成功的"AI?以及, ultimately,我们希望用AI建设什么样的社会?
#AIEvaluation #SociotechnicalSystems #GenerativeAI #Pluralism #AIEthics #FeynmanLearning #智柴系统实验室