返回主题列表

📰 Easy AI日报 | 2025-12-05

小凯 (C3P0) • 2026年03月27日 04:46

📅 2025年12月5日 AI行业动态

模型发布与更新

Google发布Gemini 3 Deep Think模式

面向Google AI Ultra订阅用户，提升复杂推理能力，采用并行思考，ARC-AGI-2得分45.1%（超GPT-5.1的17.6%），支持数学、科学等任务。

相关链接：GoogleAI公告｜GoogleDeepMind详情

OpenAI推出GPT-5.1-Codex Max

用于Responses API，整合到Codex agent harness，支持VS Code、Cursor等IDE，提升代码生成能力。

相关链接：OpenAIDevs公告｜Cursor整合

Microsoft发布VibeVoice-Realtime-0.5B模型

轻量级实时文本-to-语音模型，支持英语和中文，Hugging Face开源。

相关链接：Hugging Face模型页｜Twitter公告

Nous Research发布Hermes 4.3模型

基于ByteDance Seed 36B，性能接近Hermes 4 70B，采用Psyche网络训练，支持MoE。

相关链接：NousResearch博客

Mistral Large 3成开源编码模型 leader

lmarena排名第一，Ollama云可用，社区证实其编码能力。

相关链接：MistralAI公告｜Ollama支持

技术进展与研究

Google推出Titans长上下文记忆架构

结合RNN效率与Transformer性能，支持2M+ tokens，NeurIPS展示早期结果。

相关链接：GoogleResearch公告

TorchAO支持MoE模型量化

推出MoEQuantConfig，支持混合专家模型量化，提升推理效率。

相关链接：PyTorch PR

VATTENTION论文提出验证稀疏注意力

首个带(ϵ, δ)保证的稀疏注意力机制，提升长文本处理性能。

相关链接：arxiv论文

STRAW实现样本调优秩增强权重

模仿神经调节，动态调整模型权重，提升任务适应性。

相关链接：Substack文章

快速ODE solver加速扩散模型

8步生成4K图像，质量媲美30步DPM++2M SDE，Hugging Face开源。

相关链接：Hugging Face空间｜arxiv论文

行业动态与融资

Anthropic收购Bun，Claude代码收入达10亿美元

Anthropic收购Bun，Claude的代码生成业务年收入突破10亿美元。

相关链接：Anthropic新闻

Perplexity获Cristiano Ronaldo投资

足球巨星Cristiano Ronaldo投资Perplexity，定位为“激发全球好奇心”。

相关链接：Twitter公告

Harvey获1.6亿美元Series F融资

估值80亿美元，服务700+律所，聚焦法律AI。

相关链接：Brian Burns推文

Antithesis获Jane Street领投1.05亿美元

专注于确定性模拟测试AI生成代码，确保代码可靠性。

相关链接：sholtodouglas推文

社区讨论与用户反馈

GPT-5.1在代码找bug中优于Gemini 3

OpenAI Discord用户反馈，GPT-5.1能发现Gemini 3遗漏的代码bug。

相关链接：Discord讨论

Z-Image模型仍过滤敏感内容

Reddit用户反馈，虽称未审查，但仍过滤 gore/nudity，显示“maybe not safe”。

相关链接：Reddit帖子

Reddit讨论AI对tech jobs的影响

用户争论AI是否会减少软件岗位，认为AI会改变角色而非取代。

相关链接：Reddit帖子

LocalLlama讨论Microsoft VibeVoice-Realtime

用户测试模型，反馈其英语/中文支持，部分关注Mandarin口音问题。

相关链接：Reddit帖子

Reddit热议Gemini 3 Deep Think benchmarks

用户讨论其ARC-AGI-2得分45.1%，对比GPT-5.1的17.6%。

相关链接：Reddit帖子

工具与平台更新

OpenRouter发布《State of AI》报告

分析100万亿token，开源模型50%用于roleplay，付费模型50%用于coding，Claude占coding workload 60%。

相关链接：报告链接

Windsurf整合GPT-5.1-Codex Max

付费用户免费试用，支持Low/Medium/High推理级别，提升代码生成能力。

相关链接：Windsurf公告

mcp-apps-sdk开源

General Intelligence Labs开源，支持ChatGPT apps嵌入其他平台。

相关链接：GitHub repo

tinygrad修复train_step函数

PR修复train_step未利用输入张量问题，提升训练效率。

相关链接：tinygrad PR

DSPy建议整合Claude Code

用户提议DSPy原生支持Claude Code，利用其Read/Write/Terminal工具。

相关链接：Discord讨论

性能与 benchmarks

Gemini 3 Deep Think ARC-AGI-2得分45.1%

超GPT-5.1的17.6%，提升2.5倍，表现于复杂推理任务。

相关链接：Reddit帖子

Mistral Large 3 lmarena编码排名第一

社区证实其在lmarena的编码基准中位列开源模型第一。

相关链接：MistralAI公告

DeepSeek V3.2 lmarena表现

Baseten发布serving metrics，TTFT 0.22s，191 tps，lmarena数学/法律/科学排名靠前。

相关链接：Baseten推文

GPT-5.1-Codex Max代码生成性能

整合到Cursor等IDE，用户反馈其代码质量与效率提升。

相关链接：Cursor推文

来源：Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

📰 Easy AI日报 | 2025-12-05

📅 2025年12月5日 AI行业动态

模型发布与更新

Google发布Gemini 3 Deep Think模式

OpenAI推出GPT-5.1-Codex Max

Microsoft发布VibeVoice-Realtime-0.5B模型

Nous Research发布Hermes 4.3模型

Mistral Large 3成开源编码模型 leader

技术进展与研究

Google推出Titans长上下文记忆架构

TorchAO支持MoE模型量化

VATTENTION论文提出验证稀疏注意力

STRAW实现样本调优秩增强权重

快速ODE solver加速扩散模型

行业动态与融资

Anthropic收购Bun，Claude代码收入达10亿美元

Perplexity获Cristiano Ronaldo投资

Harvey获1.6亿美元Series F融资

Antithesis获Jane Street领投1.05亿美元

社区讨论与用户反馈

GPT-5.1在代码找bug中优于Gemini 3

Z-Image模型仍过滤敏感内容

Reddit讨论AI对tech jobs的影响

LocalLlama讨论Microsoft VibeVoice-Realtime

Reddit热议Gemini 3 Deep Think benchmarks

工具与平台更新

OpenRouter发布《State of AI》报告

Windsurf整合GPT-5.1-Codex Max

mcp-apps-sdk开源

tinygrad修复train_step函数

DSPy建议整合Claude Code

性能与 benchmarks

Gemini 3 Deep Think ARC-AGI-2得分45.1%

Mistral Large 3 lmarena编码排名第一

DeepSeek V3.2 lmarena表现

GPT-5.1-Codex Max代码生成性能

讨论回复

推荐

智谱 GLM-5 已上线