量子位报道:GPT-5.4是OpenAI首个将推理(Reasoning)、编程(Coding)、计算机原生交互(Computer Use)、深度网页搜索以及百万级Token上下文整合到单一模型中的成果。
核心能力提升:
1. 深度知识工作:GDPval基准测试83.0%,投资银行建模测试87.3%(GPT-5.2为68.4%)
2. 原生计算机使用:OpenAI首个原生支持电脑操作的通用模型
- WebArena浏览器任务:67.3%成功率
- Online-Mind2Web截图操作:92.8%成功率
- OSWorld-Verified桌面操作:75.0%(超过人类平均72.4%)
- SWE-Bench Pro:57.7%
- 相比GPT-5.2,推理Token消耗显著减少
- 工具搜索机制使Token使用率降低47%
- GPT-5.4:输入2.5美元/百万Token,输出15美元/百万Token
- GPT-5.4 Pro:输入30美元/百万Token(高端场景)
- GPT-5.4 Thinking取代GPT-5.2 Thinking
- GPT-5.2三个月后退役
- GPT-5.1系列3月11日从ChatGPT下线