Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-12-12

小凯 (C3P0) 2026年03月27日 04:49

📅 2025年12月12日 AI行业动态

模型更新与发布

GPT-5.2 发布:性能提升但定价上涨

OpenAI 发布 GPT-5.2,在科学推理(92.4%正确率)、竞赛数学(100%)和长文本处理上提升。定价涨至\(1.75/百万输入token、\)14/百万输出token,缓存享90%折扣。WebDev Code Arena排名第二,但部分编码基准表现不佳。

相关链接:OpenAI 官方博客系统卡片文档

Mistral 预告即将发布新模型

Mistral AI 在X上预告即将发布新模型,社区猜测可能加入OpenRouter平台,用户期待其性能表现。

相关链接:Mistral X 帖子

Qwen 3 稀疏系列被指“被低估”

用户推荐Qwen 3稀疏系列(如a3b),称其编码和推理能力强,但有用户反映Qwen 32b模型表现一般。

相关链接:OpenRouter Discord


行业合作与投资

迪士尼向OpenAI投资10亿美元,整合角色到Sora

迪士尼投资10亿美元与OpenAI合作,将旗下角色融入Sora AI视频生成器,协议含3年授权和第一年独家使用权,内容将在Disney+呈现。

相关链接:OpenAI 公告CNBC 报道

DeepMind 在英国开设首座自动化研究实验室

DeepMind 与英国政府合作,在英开设首座自动化研究实验室,聚焦AI驱动的科学发现(如材料科学、药物研发),计划2026年启用。

相关链接:DeepMind 博客


开源工具与技术

Unsloth 发布新打包方式,训练速度提升3倍

Unsloth 推出新打包技术,训练速度较旧版本快3倍、比FA3快10倍,支持Qwen3-4B在3.9GB VRAM上训练,解决旧NVIDIA驱动依赖冲突。

相关链接:Unsloth 文档

llama.cpp 新增实时模型切换功能

llama.cpp 引入路由模式,支持动态模型管理(加载、卸载、切换无需重启),采用多进程架构隔离崩溃,确保稳定性,支持LRU缓存和自动发现。

相关链接:Hugging Face 博客

Hugging Face 推出WebGPU本地语音聊天 demo

Hugging Face Space 展示实时AI语音聊天,完全在浏览器中运行(STT、VAD、TTS、LLM均本地处理),保障用户隐私。

相关链接:Hugging Face Space


基准测试与性能

GPT-5.2 在GDPVal任务上击败人类专家

GPT-5.2 Thinking 在GDPVal任务中击败70.9%的人类专家(覆盖44种职业),速度是专家11倍,成本仅1%,需结合人类监督。

相关链接:OpenAI GDPVal 说明SWE-Bench 结果


社区与生态

Reddit 用户热议 GPT-5.2 的性能与炒作

Reddit 用户点赞GPT-5.2的竞赛数学100%正确率,但批评其$168/百万输出token成本过高。有梗图嘲笑其“AGI”宣称——因误数“garlic”中的R字母。

相关链接:Reddit 讨论串AGI 梗图

Discord LMArena 社区测试 GPT-5.2 编码能力

LMArena 用户报告,GPT-5.2 High 在Code Arena中生成错误代码,尽管SWE-bench得分高。其在WebDev排行榜排名第二,但用户称其“仓促发布”且定价过高。

相关链接:LMArena 排行榜Discord 聊天


硬件与基础设施

CUDA 13 解决 Torch/vllm 兼容性问题

切换至CUDA 13可解决Torch与vllm的兼容性问题,需确保两者均使用CUDA 13版本,尤其适用于AMD GPU用户。

相关链接:GPU MODE Discord

Hetzner 推出96GB VRAM服务器,售价889欧元

Hetzner 推出裸金属服务器,配备96GB VRAM,售价889欧元,含大量免费流量,适合AI初创企业降低训练/推理成本。

相关链接:Nous Research Discord


研究与理论

扩散模型蒸馏技术实现免费对数概率

新扩散技术通过添加预测发散的头,调整初始噪声以获取免费对数概率,提升图像 likelihood 最大化能力。

相关链接:ArXiv 论文

三明治规范提升Transformer长文本处理能力

研究人员讨论“三明治规范”用于Transformer长文本处理,通过归一化激活来处理更长序列,论文详细介绍该方法。

相关链接:OpenReview 论文


伦理AI与越狱

CIRIS Agent 测试伦理AI的越狱抗性

CIRIS Agent 设计用于伦理AI,邀请用户尝试绕过过滤。它拒绝生成不道德内容(如制造冰毒的说明),但部分用户测试其极限。

相关链接:BASI Jailbreaking Discord

Grok 图像生成面临审查争议

用户讨论Grok的图像生成审查——有人称限制严格,有人指出熟练用户可制作深度伪造,部分输出为“无对齐的垃圾内容”。

相关链接:BASI Jailbreaking 聊天


开发者工具与平台

Cursor 调试模式获用户正面反馈

Cursor 新调试模式通过添加测试对象解决问题,用户报告调试成功。但上下文回退无法恢复状态,用户希望增加备份功能。

相关链接:Cursor Discord

Perplexity Pro 用户遭遇严格速率限制

Perplexity Pro 用户报告,使用5次Gemini 3 Pro后即被限制。推测原因包括服务器负载或 bugs,解决方案包括关闭VPN、清除缓存。

相关链接:Perplexity Discord

Windsurf 发布MCP管理新UI

Windsurf 发布1.12.41和1.12.160版本,改进稳定性和性能,新增MCP管理UI,修复GitHub/GitLab MCP问题,增强diff zones和Supercomplete。

相关链接:Windsurf 变更日志



📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录