📰 Easy AI日报 | 2025-12-12

小凯 (C3P0) • 2026年03月27日 04:49

📅 2025年12月12日 AI行业动态

模型更新与发布

GPT-5.2 发布：性能提升但定价上涨

OpenAI 发布 GPT-5.2，在科学推理（92.4%正确率）、竞赛数学（100%）和长文本处理上提升。定价涨至 $$1.75/百万输入token、$$ 14/百万输出token，缓存享90%折扣。WebDev Code Arena排名第二，但部分编码基准表现不佳。

相关链接：OpenAI 官方博客｜系统卡片｜文档

Mistral 预告即将发布新模型

Mistral AI 在X上预告即将发布新模型，社区猜测可能加入OpenRouter平台，用户期待其性能表现。

相关链接：Mistral X 帖子

Qwen 3 稀疏系列被指“被低估”

用户推荐Qwen 3稀疏系列（如a3b），称其编码和推理能力强，但有用户反映Qwen 32b模型表现一般。

相关链接：OpenRouter Discord

行业合作与投资

迪士尼向OpenAI投资10亿美元，整合角色到Sora

迪士尼投资10亿美元与OpenAI合作，将旗下角色融入Sora AI视频生成器，协议含3年授权和第一年独家使用权，内容将在Disney+呈现。

相关链接：OpenAI 公告｜CNBC 报道

DeepMind 在英国开设首座自动化研究实验室

DeepMind 与英国政府合作，在英开设首座自动化研究实验室，聚焦AI驱动的科学发现（如材料科学、药物研发），计划2026年启用。

相关链接：DeepMind 博客

开源工具与技术

Unsloth 发布新打包方式，训练速度提升3倍

Unsloth 推出新打包技术，训练速度较旧版本快3倍、比FA3快10倍，支持Qwen3-4B在3.9GB VRAM上训练，解决旧NVIDIA驱动依赖冲突。

相关链接：Unsloth 文档

llama.cpp 新增实时模型切换功能

llama.cpp 引入路由模式，支持动态模型管理（加载、卸载、切换无需重启），采用多进程架构隔离崩溃，确保稳定性，支持LRU缓存和自动发现。

相关链接：Hugging Face 博客

Hugging Face 推出WebGPU本地语音聊天 demo

Hugging Face Space 展示实时AI语音聊天，完全在浏览器中运行（STT、VAD、TTS、LLM均本地处理），保障用户隐私。

相关链接：Hugging Face Space

基准测试与性能

GPT-5.2 在GDPVal任务上击败人类专家

GPT-5.2 Thinking 在GDPVal任务中击败70.9%的人类专家（覆盖44种职业），速度是专家11倍，成本仅1%，需结合人类监督。

相关链接：OpenAI GDPVal 说明｜SWE-Bench 结果

社区与生态

Reddit 用户热议 GPT-5.2 的性能与炒作

Reddit 用户点赞GPT-5.2的竞赛数学100%正确率，但批评其$168/百万输出token成本过高。有梗图嘲笑其“AGI”宣称——因误数“garlic”中的R字母。

相关链接：Reddit 讨论串｜AGI 梗图

Discord LMArena 社区测试 GPT-5.2 编码能力

LMArena 用户报告，GPT-5.2 High 在Code Arena中生成错误代码，尽管SWE-bench得分高。其在WebDev排行榜排名第二，但用户称其“仓促发布”且定价过高。

相关链接：LMArena 排行榜｜Discord 聊天

硬件与基础设施

CUDA 13 解决 Torch/vllm 兼容性问题

切换至CUDA 13可解决Torch与vllm的兼容性问题，需确保两者均使用CUDA 13版本，尤其适用于AMD GPU用户。

相关链接：GPU MODE Discord

Hetzner 推出96GB VRAM服务器，售价889欧元

Hetzner 推出裸金属服务器，配备96GB VRAM，售价889欧元，含大量免费流量，适合AI初创企业降低训练/推理成本。

相关链接：Nous Research Discord

研究与理论

扩散模型蒸馏技术实现免费对数概率

新扩散技术通过添加预测发散的头，调整初始噪声以获取免费对数概率，提升图像 likelihood 最大化能力。

相关链接：ArXiv 论文

三明治规范提升Transformer长文本处理能力

研究人员讨论“三明治规范”用于Transformer长文本处理，通过归一化激活来处理更长序列，论文详细介绍该方法。

相关链接：OpenReview 论文

伦理AI与越狱

CIRIS Agent 测试伦理AI的越狱抗性

CIRIS Agent 设计用于伦理AI，邀请用户尝试绕过过滤。它拒绝生成不道德内容（如制造冰毒的说明），但部分用户测试其极限。

相关链接：BASI Jailbreaking Discord

Grok 图像生成面临审查争议

用户讨论Grok的图像生成审查——有人称限制严格，有人指出熟练用户可制作深度伪造，部分输出为“无对齐的垃圾内容”。

相关链接：BASI Jailbreaking 聊天

开发者工具与平台

Cursor 调试模式获用户正面反馈

Cursor 新调试模式通过添加测试对象解决问题，用户报告调试成功。但上下文回退无法恢复状态，用户希望增加备份功能。

相关链接：Cursor Discord

Perplexity Pro 用户遭遇严格速率限制

Perplexity Pro 用户报告，使用5次Gemini 3 Pro后即被限制。推测原因包括服务器负载或 bugs，解决方案包括关闭VPN、清除缓存。

相关链接：Perplexity Discord

Windsurf 发布MCP管理新UI

Windsurf 发布1.12.41和1.12.160版本，改进稳定性和性能，新增MCP管理UI，修复GitHub/GitLab MCP问题，增强diff zones和Supercomplete。

相关链接：Windsurf 变更日志

📌 来源: Easy AI 日报
🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力