📅 2025年12月12日 AI行业动态
#### 模型更新与发布 ##### GPT-5.2 发布:性能提升但定价上涨 OpenAI 发布 GPT-5.2,在科学推理(92.4%正确率)、竞赛数学(100%)和长文本处理上提升。定价涨至$1.75/百万输入token、$14/百万输出token,缓存享90%折扣。WebDev Code Arena排名第二,但部分编码基准表现不佳。 > 相关链接:OpenAI 官方博客|系统卡片|文档
##### Mistral 预告即将发布新模型 Mistral AI 在X上预告即将发布新模型,社区猜测可能加入OpenRouter平台,用户期待其性能表现。 > 相关链接:Mistral X 帖子
##### Qwen 3 稀疏系列被指“被低估” 用户推荐Qwen 3稀疏系列(如a3b),称其编码和推理能力强,但有用户反映Qwen 32b模型表现一般。 > 相关链接:OpenRouter Discord
---
#### 行业合作与投资 ##### 迪士尼向OpenAI投资10亿美元,整合角色到Sora 迪士尼投资10亿美元与OpenAI合作,将旗下角色融入Sora AI视频生成器,协议含3年授权和第一年独家使用权,内容将在Disney+呈现。 > 相关链接:OpenAI 公告|CNBC 报道
##### DeepMind 在英国开设首座自动化研究实验室 DeepMind 与英国政府合作,在英开设首座自动化研究实验室,聚焦AI驱动的科学发现(如材料科学、药物研发),计划2026年启用。 > 相关链接:DeepMind 博客
---
#### 开源工具与技术 ##### Unsloth 发布新打包方式,训练速度提升3倍 Unsloth 推出新打包技术,训练速度较旧版本快3倍、比FA3快10倍,支持Qwen3-4B在3.9GB VRAM上训练,解决旧NVIDIA驱动依赖冲突。 > 相关链接:Unsloth 文档
##### llama.cpp 新增实时模型切换功能 llama.cpp 引入路由模式,支持动态模型管理(加载、卸载、切换无需重启),采用多进程架构隔离崩溃,确保稳定性,支持LRU缓存和自动发现。 > 相关链接:Hugging Face 博客
##### Hugging Face 推出WebGPU本地语音聊天 demo Hugging Face Space 展示实时AI语音聊天,完全在浏览器中运行(STT、VAD、TTS、LLM均本地处理),保障用户隐私。 > 相关链接:Hugging Face Space
---
#### 基准测试与性能 ##### GPT-5.2 在GDPVal任务上击败人类专家 GPT-5.2 Thinking 在GDPVal任务中击败70.9%的人类专家(覆盖44种职业),速度是专家11倍,成本仅1%,需结合人类监督。 > 相关链接:OpenAI GDPVal 说明|SWE-Bench 结果
---
#### 社区与生态 ##### Reddit 用户热议 GPT-5.2 的性能与炒作 Reddit 用户点赞GPT-5.2的竞赛数学100%正确率,但批评其$168/百万输出token成本过高。有梗图嘲笑其“AGI”宣称——因误数“garlic”中的R字母。 > 相关链接:Reddit 讨论串|AGI 梗图
##### Discord LMArena 社区测试 GPT-5.2 编码能力 LMArena 用户报告,GPT-5.2 High 在Code Arena中生成错误代码,尽管SWE-bench得分高。其在WebDev排行榜排名第二,但用户称其“仓促发布”且定价过高。 > 相关链接:LMArena 排行榜|Discord 聊天
---
#### 硬件与基础设施 ##### CUDA 13 解决 Torch/vllm 兼容性问题 切换至CUDA 13可解决Torch与vllm的兼容性问题,需确保两者均使用CUDA 13版本,尤其适用于AMD GPU用户。 > 相关链接:GPU MODE Discord
##### Hetzner 推出96GB VRAM服务器,售价889欧元 Hetzner 推出裸金属服务器,配备96GB VRAM,售价889欧元,含大量免费流量,适合AI初创企业降低训练/推理成本。 > 相关链接:Nous Research Discord
---
#### 研究与理论 ##### 扩散模型蒸馏技术实现免费对数概率 新扩散技术通过添加预测发散的头,调整初始噪声以获取免费对数概率,提升图像 likelihood 最大化能力。 > 相关链接:ArXiv 论文
##### 三明治规范提升Transformer长文本处理能力 研究人员讨论“三明治规范”用于Transformer长文本处理,通过归一化激活来处理更长序列,论文详细介绍该方法。 > 相关链接:OpenReview 论文
---
#### 伦理AI与越狱 ##### CIRIS Agent 测试伦理AI的越狱抗性 CIRIS Agent 设计用于伦理AI,邀请用户尝试绕过过滤。它拒绝生成不道德内容(如制造冰毒的说明),但部分用户测试其极限。 > 相关链接:BASI Jailbreaking Discord
##### Grok 图像生成面临审查争议 用户讨论Grok的图像生成审查——有人称限制严格,有人指出熟练用户可制作深度伪造,部分输出为“无对齐的垃圾内容”。 > 相关链接:BASI Jailbreaking 聊天
---
#### 开发者工具与平台 ##### Cursor 调试模式获用户正面反馈 Cursor 新调试模式通过添加测试对象解决问题,用户报告调试成功。但上下文回退无法恢复状态,用户希望增加备份功能。 > 相关链接:Cursor Discord
##### Perplexity Pro 用户遭遇严格速率限制 Perplexity Pro 用户报告,使用5次Gemini 3 Pro后即被限制。推测原因包括服务器负载或 bugs,解决方案包括关闭VPN、清除缓存。 > 相关链接:Perplexity Discord
##### Windsurf 发布MCP管理新UI Windsurf 发布1.12.41和1.12.160版本,改进稳定性和性能,新增MCP管理UI,修复GitHub/GitLab MCP问题,增强diff zones和Supercomplete。 > 相关链接:Windsurf 变更日志
---
---
📌 来源: Easy AI 日报 🤖 整理: AI助手
#EasyAI #AI日报 #AI教学