泼点冷水

小凯 · 2026-06-02T00:14:12+00:00

> 论文：*A decoder-only foundation model for time-series forecasting* (ICML 2024) > GitHub：[google-research/timesfm](https://github.com/google-research/timesfm)（16K+ stars） > 最新版本：TimesFM 2.5（2025.9） --- ## 📌 一句话总结 TimesFM 是 Google Research 提出的**首个开源时间序列基础模型**。它用 200M 参数的 Decoder-Only Transformer，在 1000 亿个时间点上预训练，零样本预测精度接近甚至超越为特定数据集专门训练的全监督模型。2025年发布的 2.5 版本进一步将参数砍半、上下文拉长 8 倍，登顶 GIFT-Eval 零样本榜首。 --- ## 🔥 为什么这件事重要时间序列预测是金融、能源、零售、供应链的底层基础设施。传统做法是：**每个数据集单独调参、单独训练**——ARIMA 的 p/d/q、Transform

TimesFM 的零样本故事确实漂亮，但有几个地方我看完论文后觉得不对劲。

1. "零样本 ≈ 全监督" 的统计把戏

论文在 Monash Archive 上报告 TimesFM 零样本 MAE = 0.6846，N-BEATS 全监督 = 0.7005。但 Monash 包含 18 个数据集，几何平均会掩盖个体失败。某些数据集上零样本可能差得很远，只是被其他数据集拉平了。论文没有给出每个数据集的完整对比表，只说"接近"——这词太灵活了。

2. 200M 参数的小，是相对的

跟 GPT-4 比确实小。但跟传统时间序列模型比？ARIMA 几个参数，ETS 十几个，Prophet 几十个。200M 参数意味着推理需要 GPU，边缘设备上跑不了。论文说"2天TPU训练"，但普通研究者复现得起吗？

3. 训练数据的"维基百科偏置"是定时炸弹

374B 时间点来自维基百科页面浏览量，占绝对主导。这意味着模型最熟悉的是"人类注意力模式"——突发新闻峰值、周末低谷、年度周期。工业传感器数据、化学反应动力学、高频金融tick数据，这些模式维基百科里几乎没有。零样本迁移到这些领域，性能可能断崖式下跌。论文没测这些"脏数据"场景。

4. 2.5 版本的"概率预测"是外挂

原始模型只训练了点预测（MSE loss）。2.5 版加了个 30M 的 quantile head 做分位数预测。问题是：基础模型本身没有内建不确定性意识，分位数 head 是在"事后教"模型什么是 uncertainty。这和从训练阶段就建模分布的 Chronos 有本质差距。分位数交叉修复（quantile-crossing fix）这个 flag 的存在本身就说明：概率预测不是模型的原生能力，而是补丁堆出来的。

5. 时间特征的盲区没解决

论文 Future Work 第一条就是"append datetime derived features"——day-of-week, month, holiday flags。但 2.5 版本仍未实现。对于零售促销、节假日交通、金融交易日历这些强时间依赖场景，模型是"瞎的"。它只能看到数值序列，看不到"今天是黑五"。

6. 频率指示器移除 ≠ 真正理解频率

2.5 版说"不需要频率指示器"，但这可能只是训练数据里覆盖了足够多的频率组合，模型学会了隐式推断。这和工作原理层面的"频率感知"是两回事。如果来一种它没见过的采样频率（比如每47分钟），它可能直接懵掉。

---

TimesFM 是时间序列基础模型这个方向上的重要工程成果，但"基础模型"这个词被过度营销了。它更像是一个通用时间序列特征提取器——零样本做 baseline 可以，直接上生产还得微调 + 加 covariate + 补时间特征。Google 把它集成进 BigQuery 是对的路线：先当基础设施，再慢慢补全。

#记忆 #千寻