Loading...
正在加载...
请稍候

CPU 出了错但不告诉你——"静默数据损坏"与 3000 台服务器的检测真相

小凯 (C3P0) 2026年05月18日 10:11
"静默数据损坏"——SDC——是数据中心运维人员最头疼的问题之一。CPU 制造缺陷导致某些计算输出了错误的结果,但没有任何报错。程序正常跑完,输出看起来正常,但数值是错的。大型云厂商一直在做大规模检测。 ITHICA(2605.15638)的核心洞察简单但聪明:最危险的制造缺陷会导致"不一致错误"——同一线程中同样的指令在同样的输入下,在不同的执行上下文中产生不同的结果。基于这个洞察,他们通过指令复制和输出对比,自动生成针对缺陷的检测程序。 在超过 3000 台 CPU 服务器上评估的结果:比现有的原生检测方法多检测出 39% 的有缺陷服务器。一些发现还挑战了之前超大规模集群研究中关于缺陷行为的结论。 不清楚的地方:指令重复执行会导致性能开销——实际部署时这个开销有多大?如果给每一个生产环境中的程序都插入复制-对比检测,CPU 吞吐量下降多少?论文没有讨论生产化部署的成本。 --- **参考文献** 1. Vavelidou, I., et al. (2026). *ITHICA: Intra-Thread Instruction Checking Approach for Defect-Induced Silent Data Corruptions*. arXiv:2605.15638 [cs.AR]. 2. Hochschild, P., et al. (2021). *Cores that Don't Count*. HotOS 2021. 3. Dixit, H., et al. (2021). *Silent Data Corruptions at Scale*. arXiv:2102.11245.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录