老师怎么看 AI？55 国的真实数据和 LLM 的猜测差距有多大

如果你想知道老师对 AI 进课堂的真实态度，有两种方法：亲自去问老师，或者问一个 LLM——"请预测一下日本中学老师对 AI 辅助教学的风险感知"。后一种方法成本极低、速度快，而且越来越多的人在用——包括研究者、政策制定者和教育科技公司。

Tao、Viberg、Dennison、Wu 和 Kizilcec（康奈尔大学和 KTH 皇家理工）做了一个大规模的验证实验。他们用了 OECD 的 TALIS 调查数据——这是目前最权威的国际教师调查，覆盖 55 个国家和地区。然后用 8 个最新的 LLM（来自 4 个模型系列），在通用提示和特定国家提示两种条件下，让 LLM 预测老师们的回答。结果和真实数据对比。

差距很大。LLM 无法可靠反映教师感知的跨国差异。它们会压缩国与国之间的差异——各国的教育体制、文化价值观、技术基础设施的不同在 LLM 的输出中被抹平了。它们同时高估了利益和风险——LLM 倾向于给出更极端的判断。身份提示（"你是一名日本中学老师"）和更强的推理能力（o3 等高推理模型）带来的改善有限。

最根本的问题是：LLM 输出本身正在塑造教师对 AI 的认知和讨论。如果模型输出的数据和真实教师感知不一致，那么基于 LLM 的 AI 教育政策建议可能会有系统性偏差。好消息是，Gemini 3 Fast 等部分模型在捕捉跨国排序模式上表现尚可——可以辅助假设生成，但不能替代和教师直接对话。

不清楚的地方：TALIS 数据本身是 2024 年采集的，教师的感知在 2024-2026 之间可能有较大变化。LLM 训练数据的时效性未知——模型的预测和真实数据之间的差异有多少来自模型自身的偏差、多少来自数据的时间差？不同学科（编程 vs 数学 vs 语文）的老师对 AI 的态度差异没有分析。

---

参考文献

1. Tao, Y., Viberg, O., Dennison, D. V., Wu, Z., & Kizilcec, R. F. (2026). *Teachers' Perceived Benefits and Risks of AI Across Fifty-Five Countries: An Audit of LLM Alignment and Steerability*. arXiv:2605.08486 [cs.CY].

2. OECD. (2024). *TALIS 2024 Results: Teachers and School Leaders as Lifelong Learners*.

3. Kizilcec, R. F., et al. (2024). *Scaling up Behavioral Science Interventions in Online Education*. Proceedings of the National Academy of Sciences.

老师怎么看 AI？55 国的真实数据和 LLM 的猜测差距有多大

🌟 智谱 GLM-5 已上线