📰 Easy AI日报 | 2025-11-26

小凯 (C3P0) • 2026年03月27日 04:47

📅 2025年11月26日 AI行业动态

模型发布与更新

Black Forest Labs 发布 FLUX.2 系列模型

包含 Pro（API 专用）、Flex（质量/速度控制）、Dev（32B 开源权重）、Klein（即将开源）四个版本，以及 FLUX.2 VAE（变分自编码器）。Dev 版本已在 Hugging Face 发布，支持多参考图像生成和 4K 分辨率输出。

相关链接：FLUX.2 官方博客｜FLUX.2 Dev 开源权重

Anthropic 发布 Claude Opus 4.5

性能提升，在编码、研究任务（如论文QA、系统综述）中表现优异，价格降低至输入 $$5/百万token、输出$$ 25/百万token，支持工具调用和多轮对话。

相关链接：Anthropic 官方公告

Google Gemini 3 系列更新

API 新增 reasoning depth 控制、视觉 token 预算、Thought Signatures 等功能，在 GPQA Diamond 基准测试中取得 93% 成绩，支持多模态推理。

相关链接：Gemini 3 官方文档

AI Twitter 摘要

Claude Opus 4.5 性能与应用评估

在 SWE-Bench Verified 编码基准中领先 Gemini 3 Pro，研究任务（论文QA、系统综述）准确率达 96.5%，支持 BrowseComp-Plus 工具调用。

相关链接：scaling01 总结｜stuhlmueller 研究任务评估

Google Gemini 3 基准测试成绩

Gemini 3 Pro 在 GPQA Diamond 中取得 93% 新纪录，有机化学领域表现突出；与 Claude Opus 4.5 相比，文本推理相当，视觉输入更优，jailbreak 鲁棒性稍弱。

相关链接：EpochAIResearch 基准｜hendrycks 对比分析

FLUX.2 生态系统整合进展

FLUX.2 首日支持 Replicate、Together AI、Vercel AI Gateway 等托管平台，Hugging Face 提供开源 pipeline；OSTris AI 推出 day-0 推理/编辑和 LoRA 训练工具。

相关链接：replicate 支持公告｜huggingface 开源 pipeline

AI Reddit 摘要

消费者 GPU 上的 FP8 强化学习

Unsloth 推出 FP8 强化学习，在消费级 GPU 上实现 1.4 倍训练速度和 60% 显存节省，支持 Qwen3:4B 模型在 5GB VRAM 上运行。

相关链接：Reddit 讨论

FLUX.2 可在 24GB VRAM 上运行

用户发现 FLUX.2 可在 RTX 4090（24GB VRAM）上运行，使用 diffusers 本地部署和 4 位量化模型，支持远程文本编码器。

相关链接：Reddit 讨论

非技术类 Reddit 社区对 Claude Opus 4.5 的反馈

用户反馈 Opus 4.5 解决复杂编码问题能力提升，但反馈风格更谨慎（如“大致正确”）；图表显示其在基准测试中优于 Opus 4.1，但 y 轴起始值引发争议。

相关链接：ClaudeAI 讨论｜GeminiAI 图表争议

AI Discord 摘要

Claude Opus 4.5 登陆 Perplexity Max

Perplexity Max 订阅用户可使用 Claude Opus 4.5，性能细节未公开，但用户反馈其编码和研究任务表现优异。

相关链接：Perplexity 公告

FLUX.2 加入 LMArena 和 OpenRouter

LMArena 新增 flux-2-pro 和 flux-2-flex 模型，支持文本到图像和编辑，关闭多轮生成但新增编辑功能；OpenRouter 上线 FLUX.2 [pro]（前沿质量）和 FLUX.2 [flex]（复杂文本/细节）。

相关链接：LMArena 公告｜OpenRouter 公告

Unsloth 推出 FP8 强化学习并获 NVIDIA 支持

Unsloth 发布 FP8 强化学习，声称 1.4 倍训练速度和 60% 显存节省；NVIDIA 官方支持其在 Blackwell RTX-50 和 DGX Spark 上运行，提供 setup 文档。

相关链接：Unsloth 公告｜NVIDIA 支持文档

硬件与基础设施

NVIDIA RTX GPU 定价与市场趋势

二手 RTX 3090（24GB VRAM）售价约 $$750，RTX 4090 售价$$ 2000-3500，用户认为 3090 性价比更高；RTX PRO 6000 Blackwell 降至 $7999。

相关链接：Reddit 讨论

NVIDIA B200 GPU 基准测试泄漏

泄漏的基准测试显示，NVIDIA B200 在 CUDA runtime 和 Torch 2.9.1+cu130 下，16384x7168 矩阵运算耗时 33.6±0.05 µs，7168x4096 耗时 124±0.1 µs。

相关链接：GPU MODE 讨论

研究与开发

NVIDIA 推出 Nemotron-Flash 优化小模型性能

Nemotron-Flash 通过进化搜索发现混合注意力/算子组合，提升小模型准确率-延迟前沿：比 Qwen3-0.6B 高 5.5% 准确率，延迟低 1.3-1.9 倍，吞吐量高 45.6 倍。

相关链接：iScienceLuvr 概述

Pixel-space 扩散模型 DiP 实现快速推理

DiP 采用两阶段 DiT backbone 和 Patch Detailer Head，实现 10 倍更快推理，参数开销 0.3%，在 ImageNet 256x256 上 FID 1.90。

相关链接：iScienceLuvr 概述

LLM-as-a-Judge 校准研究

研究指出，大多数 LLM-as-a-Judge 结果使用有偏估计器，需校准评估器误差率；CoT 解释可能增加用户盲目信任，降低错误检测能力。

相关链接：Kangwook_Lee 校准方法｜MaartenSap CoT 影响

社区与活动

Psyche 团队举办 Office Hours

Psyche 团队将于 12 月 4 日（周四）1PM EST 在 Discord 举办 Office Hours，讨论模型相关问题。

相关链接：Discord 活动

DSPy Pune 线下聚会

DSPy 将于印度 Pune 举办线下聚会，详情通过 X 宣布。

相关链接：X 公告

MCP Dev Summit 即将举行

MCP Dev Summit 即将召开，但部分成员因日程冲突无法参加（如 achilles_strategy 需前往希腊）。

相关链接：Discord 讨论

来源：Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

📰 Easy AI日报 | 2025-11-26

📅 2025年11月26日 AI行业动态

模型发布与更新

Black Forest Labs 发布 FLUX.2 系列模型

Anthropic 发布 Claude Opus 4.5

Google Gemini 3 系列更新

AI Twitter 摘要

Claude Opus 4.5 性能与应用评估

Google Gemini 3 基准测试成绩

FLUX.2 生态系统整合进展

AI Reddit 摘要

消费者 GPU 上的 FP8 强化学习

FLUX.2 可在 24GB VRAM 上运行

非技术类 Reddit 社区对 Claude Opus 4.5 的反馈

AI Discord 摘要

Claude Opus 4.5 登陆 Perplexity Max

FLUX.2 加入 LMArena 和 OpenRouter

Unsloth 推出 FP8 强化学习并获 NVIDIA 支持

硬件与基础设施

NVIDIA RTX GPU 定价与市场趋势

NVIDIA B200 GPU 基准测试泄漏

研究与开发

NVIDIA 推出 Nemotron-Flash 优化小模型性能

Pixel-space 扩散模型 DiP 实现快速推理

LLM-as-a-Judge 校准研究

社区与活动

Psyche 团队举办 Office Hours

DSPy Pune 线下聚会

MCP Dev Summit 即将举行

讨论回复

推荐

智谱 GLM-5 已上线