📅 2025年12月5日 AI行业动态
模型发布与更新
Google发布Gemini 3 Deep Think模式
面向Google AI Ultra订阅用户,提升复杂推理能力,采用并行思考,ARC-AGI-2得分45.1%(超GPT-5.1的17.6%),支持数学、科学等任务。
OpenAI推出GPT-5.1-Codex Max
用于Responses API,整合到Codex agent harness,支持VS Code、Cursor等IDE,提升代码生成能力。
相关链接:OpenAIDevs公告|Cursor整合
Microsoft发布VibeVoice-Realtime-0.5B模型
轻量级实时文本-to-语音模型,支持英语和中文,Hugging Face开源。
相关链接:Hugging Face模型页|Twitter公告
Nous Research发布Hermes 4.3模型
基于ByteDance Seed 36B,性能接近Hermes 4 70B,采用Psyche网络训练,支持MoE。
相关链接:NousResearch博客
Mistral Large 3成开源编码模型 leader
lmarena排名第一,Ollama云可用,社区证实其编码能力。
相关链接:MistralAI公告|Ollama支持
技术进展与研究
Google推出Titans长上下文记忆架构
结合RNN效率与Transformer性能,支持2M+ tokens,NeurIPS展示早期结果。
相关链接:GoogleResearch公告
TorchAO支持MoE模型量化
推出MoEQuantConfig,支持混合专家模型量化,提升推理效率。
相关链接:PyTorch PR
VATTENTION论文提出验证稀疏注意力
首个带(ϵ, δ)保证的稀疏注意力机制,提升长文本处理性能。
相关链接:arxiv论文
STRAW实现样本调优秩增强权重
模仿神经调节,动态调整模型权重,提升任务适应性。
相关链接:Substack文章
快速ODE solver加速扩散模型
8步生成4K图像,质量媲美30步DPM++2M SDE,Hugging Face开源。
相关链接:Hugging Face空间|arxiv论文
行业动态与融资
Anthropic收购Bun,Claude代码收入达10亿美元
Anthropic收购Bun,Claude的代码生成业务年收入突破10亿美元。
相关链接:Anthropic新闻
Perplexity获Cristiano Ronaldo投资
足球巨星Cristiano Ronaldo投资Perplexity,定位为“激发全球好奇心”。
相关链接:Twitter公告
Harvey获1.6亿美元Series F融资
估值80亿美元,服务700+律所,聚焦法律AI。
相关链接:Brian Burns推文
Antithesis获Jane Street领投1.05亿美元
专注于确定性模拟测试AI生成代码,确保代码可靠性。
相关链接:sholtodouglas推文
社区讨论与用户反馈
GPT-5.1在代码找bug中优于Gemini 3
OpenAI Discord用户反馈,GPT-5.1能发现Gemini 3遗漏的代码bug。
相关链接:Discord讨论
Z-Image模型仍过滤敏感内容
Reddit用户反馈,虽称未审查,但仍过滤 gore/nudity,显示“maybe not safe”。
相关链接:Reddit帖子
Reddit讨论AI对tech jobs的影响
用户争论AI是否会减少软件岗位,认为AI会改变角色而非取代。
相关链接:Reddit帖子
LocalLlama讨论Microsoft VibeVoice-Realtime
用户测试模型,反馈其英语/中文支持,部分关注Mandarin口音问题。
相关链接:Reddit帖子
Reddit热议Gemini 3 Deep Think benchmarks
用户讨论其ARC-AGI-2得分45.1%,对比GPT-5.1的17.6%。
相关链接:Reddit帖子
工具与平台更新
OpenRouter发布《State of AI》报告
分析100万亿token,开源模型50%用于roleplay,付费模型50%用于coding,Claude占coding workload 60%。
相关链接:报告链接
Windsurf整合GPT-5.1-Codex Max
付费用户免费试用,支持Low/Medium/High推理级别,提升代码生成能力。
相关链接:Windsurf公告
mcp-apps-sdk开源
General Intelligence Labs开源,支持ChatGPT apps嵌入其他平台。
相关链接:GitHub repo
tinygrad修复train_step函数
PR修复train_step未利用输入张量问题,提升训练效率。
相关链接:tinygrad PR
DSPy建议整合Claude Code
用户提议DSPy原生支持Claude Code,利用其Read/Write/Terminal工具。
相关链接:Discord讨论
性能与 benchmarks
Gemini 3 Deep Think ARC-AGI-2得分45.1%
超GPT-5.1的17.6%,提升2.5倍,表现于复杂推理任务。
相关链接:Reddit帖子
Mistral Large 3 lmarena编码排名第一
社区证实其在lmarena的编码基准中位列开源模型第一。
相关链接:MistralAI公告
DeepSeek V3.2 lmarena表现
Baseten发布serving metrics,TTFT 0.22s,191 tps,lmarena数学/法律/科学排名靠前。
相关链接:Baseten推文
GPT-5.1-Codex Max代码生成性能
整合到Cursor等IDE,用户反馈其代码质量与效率提升。
相关链接:Cursor推文
来源:Easy AI 教学项目
#EasyAI #AI日报 #AI教学
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。