📰 Easy AI日报 | 2025-11-26

📅 2025年11月26日 AI行业动态

#### 模型发布与更新 ##### Black Forest Labs 发布 FLUX.2 系列模型包含 Pro（API 专用）、Flex（质量/速度控制）、Dev（32B 开源权重）、Klein（即将开源）四个版本，以及 FLUX.2 VAE（变分自编码器）。Dev 版本已在 Hugging Face 发布，支持多参考图像生成和 4K 分辨率输出。 > 相关链接：FLUX.2 官方博客｜FLUX.2 Dev 开源权重

##### Anthropic 发布 Claude Opus 4.5 性能提升，在编码、研究任务（如论文QA、系统综述）中表现优异，价格降低至输入 $5/百万token、输出 $25/百万token，支持工具调用和多轮对话。 > 相关链接：Anthropic 官方公告

##### Google Gemini 3 系列更新 API 新增 reasoning depth 控制、视觉 token 预算、Thought Signatures 等功能，在 GPQA Diamond 基准测试中取得 93% 成绩，支持多模态推理。 > 相关链接：Gemini 3 官方文档

---

#### AI Twitter 摘要 ##### Claude Opus 4.5 性能与应用评估在 SWE-Bench Verified 编码基准中领先 Gemini 3 Pro，研究任务（论文QA、系统综述）准确率达 96.5%，支持 BrowseComp-Plus 工具调用。 > 相关链接：scaling01 总结｜stuhlmueller 研究任务评估

##### Google Gemini 3 基准测试成绩 Gemini 3 Pro 在 GPQA Diamond 中取得 93% 新纪录，有机化学领域表现突出；与 Claude Opus 4.5 相比，文本推理相当，视觉输入更优，jailbreak 鲁棒性稍弱。 > 相关链接：EpochAIResearch 基准｜hendrycks 对比分析

##### FLUX.2 生态系统整合进展 FLUX.2 首日支持 Replicate、Together AI、Vercel AI Gateway 等托管平台，Hugging Face 提供开源 pipeline；OSTris AI 推出 day-0 推理/编辑和 LoRA 训练工具。 > 相关链接：replicate 支持公告｜huggingface 开源 pipeline

---

#### AI Reddit 摘要 ##### 消费者 GPU 上的 FP8 强化学习 Unsloth 推出 FP8 强化学习，在消费级 GPU 上实现 1.4 倍训练速度和 60% 显存节省，支持 Qwen3:4B 模型在 5GB VRAM 上运行。 > 相关链接：Reddit 讨论

##### FLUX.2 可在 24GB VRAM 上运行用户发现 FLUX.2 可在 RTX 4090（24GB VRAM）上运行，使用 diffusers 本地部署和 4 位量化模型，支持远程文本编码器。 > 相关链接：Reddit 讨论

##### 非技术类 Reddit 社区对 Claude Opus 4.5 的反馈用户反馈 Opus 4.5 解决复杂编码问题能力提升，但反馈风格更谨慎（如“大致正确”）；图表显示其在基准测试中优于 Opus 4.1，但 y 轴起始值引发争议。 > 相关链接：ClaudeAI 讨论｜GeminiAI 图表争议

---

#### AI Discord 摘要 ##### Claude Opus 4.5 登陆 Perplexity Max Perplexity Max 订阅用户可使用 Claude Opus 4.5，性能细节未公开，但用户反馈其编码和研究任务表现优异。 > 相关链接：Perplexity 公告

##### FLUX.2 加入 LMArena 和 OpenRouter LMArena 新增 flux-2-pro 和 flux-2-flex 模型，支持文本到图像和编辑，关闭多轮生成但新增编辑功能；OpenRouter 上线 FLUX.2 [pro]（前沿质量）和 FLUX.2 [flex]（复杂文本/细节）。 > 相关链接：LMArena 公告｜OpenRouter 公告

##### Unsloth 推出 FP8 强化学习并获 NVIDIA 支持 Unsloth 发布 FP8 强化学习，声称 1.4 倍训练速度和 60% 显存节省；NVIDIA 官方支持其在 Blackwell RTX-50 和 DGX Spark 上运行，提供 setup 文档。 > 相关链接：Unsloth 公告｜NVIDIA 支持文档

---

#### 硬件与基础设施 ##### NVIDIA RTX GPU 定价与市场趋势二手 RTX 3090（24GB VRAM）售价约 $750，RTX 4090 售价 $2000-3500，用户认为 3090 性价比更高；RTX PRO 6000 Blackwell 降至 $7999。 > 相关链接：Reddit 讨论

##### NVIDIA B200 GPU 基准测试泄漏泄漏的基准测试显示，NVIDIA B200 在 CUDA runtime 和 Torch 2.9.1+cu130 下，16384x7168 矩阵运算耗时 33.6±0.05 µs，7168x4096 耗时 124±0.1 µs。 > 相关链接：GPU MODE 讨论

---

#### 研究与开发 ##### NVIDIA 推出 Nemotron-Flash 优化小模型性能 Nemotron-Flash 通过进化搜索发现混合注意力/算子组合，提升小模型准确率-延迟前沿：比 Qwen3-0.6B 高 5.5% 准确率，延迟低 1.3-1.9 倍，吞吐量高 45.6 倍。 > 相关链接：iScienceLuvr 概述

##### Pixel-space 扩散模型 DiP 实现快速推理 DiP 采用两阶段 DiT backbone 和 Patch Detailer Head，实现 10 倍更快推理，参数开销 0.3%，在 ImageNet 256x256 上 FID 1.90。 > 相关链接：iScienceLuvr 概述

##### LLM-as-a-Judge 校准研究研究指出，大多数 LLM-as-a-Judge 结果使用有偏估计器，需校准评估器误差率；CoT 解释可能增加用户盲目信任，降低错误检测能力。 > 相关链接：Kangwook_Lee 校准方法｜MaartenSap CoT 影响

---

#### 社区与活动 ##### Psyche 团队举办 Office Hours Psyche 团队将于 12 月 4 日（周四）1PM EST 在 Discord 举办 Office Hours，讨论模型相关问题。 > 相关链接：Discord 活动

##### DSPy Pune 线下聚会 DSPy 将于印度 Pune 举办线下聚会，详情通过 X 宣布。 > 相关链接：X 公告

##### MCP Dev Summit 即将举行 MCP Dev Summit 即将召开，但部分成员因日程冲突无法参加（如 achilles_strategy 需前往希腊）。 > 相关链接：Discord 讨论

---

--- *来源：Easy AI 教学项目*

#EasyAI #AI日报 #AI教学