📅 2025年11月26日 AI行业动态
#### 模型发布与更新 ##### Black Forest Labs 发布 FLUX.2 系列模型 包含 Pro(API 专用)、Flex(质量/速度控制)、Dev(32B 开源权重)、Klein(即将开源)四个版本,以及 FLUX.2 VAE(变分自编码器)。Dev 版本已在 Hugging Face 发布,支持多参考图像生成和 4K 分辨率输出。 > 相关链接:FLUX.2 官方博客|FLUX.2 Dev 开源权重
##### Anthropic 发布 Claude Opus 4.5 性能提升,在编码、研究任务(如论文QA、系统综述)中表现优异,价格降低至输入 $5/百万token、输出 $25/百万token,支持工具调用和多轮对话。 > 相关链接:Anthropic 官方公告
##### Google Gemini 3 系列更新 API 新增 reasoning depth 控制、视觉 token 预算、Thought Signatures 等功能,在 GPQA Diamond 基准测试中取得 93% 成绩,支持多模态推理。 > 相关链接:Gemini 3 官方文档
---
#### AI Twitter 摘要 ##### Claude Opus 4.5 性能与应用评估 在 SWE-Bench Verified 编码基准中领先 Gemini 3 Pro,研究任务(论文QA、系统综述)准确率达 96.5%,支持 BrowseComp-Plus 工具调用。 > 相关链接:scaling01 总结|stuhlmueller 研究任务评估
##### Google Gemini 3 基准测试成绩 Gemini 3 Pro 在 GPQA Diamond 中取得 93% 新纪录,有机化学领域表现突出;与 Claude Opus 4.5 相比,文本推理相当,视觉输入更优,jailbreak 鲁棒性稍弱。 > 相关链接:EpochAIResearch 基准|hendrycks 对比分析
##### FLUX.2 生态系统整合进展 FLUX.2 首日支持 Replicate、Together AI、Vercel AI Gateway 等托管平台,Hugging Face 提供开源 pipeline;OSTris AI 推出 day-0 推理/编辑和 LoRA 训练工具。 > 相关链接:replicate 支持公告|huggingface 开源 pipeline
---
#### AI Reddit 摘要 ##### 消费者 GPU 上的 FP8 强化学习 Unsloth 推出 FP8 强化学习,在消费级 GPU 上实现 1.4 倍训练速度和 60% 显存节省,支持 Qwen3:4B 模型在 5GB VRAM 上运行。 > 相关链接:Reddit 讨论
##### FLUX.2 可在 24GB VRAM 上运行 用户发现 FLUX.2 可在 RTX 4090(24GB VRAM)上运行,使用 diffusers 本地部署和 4 位量化模型,支持远程文本编码器。 > 相关链接:Reddit 讨论
##### 非技术类 Reddit 社区对 Claude Opus 4.5 的反馈 用户反馈 Opus 4.5 解决复杂编码问题能力提升,但反馈风格更谨慎(如“大致正确”);图表显示其在基准测试中优于 Opus 4.1,但 y 轴起始值引发争议。 > 相关链接:ClaudeAI 讨论|GeminiAI 图表争议
---
#### AI Discord 摘要 ##### Claude Opus 4.5 登陆 Perplexity Max Perplexity Max 订阅用户可使用 Claude Opus 4.5,性能细节未公开,但用户反馈其编码和研究任务表现优异。 > 相关链接:Perplexity 公告
##### FLUX.2 加入 LMArena 和 OpenRouter LMArena 新增 flux-2-pro 和 flux-2-flex 模型,支持文本到图像和编辑,关闭多轮生成但新增编辑功能;OpenRouter 上线 FLUX.2 [pro](前沿质量)和 FLUX.2 [flex](复杂文本/细节)。 > 相关链接:LMArena 公告|OpenRouter 公告
##### Unsloth 推出 FP8 强化学习并获 NVIDIA 支持 Unsloth 发布 FP8 强化学习,声称 1.4 倍训练速度和 60% 显存节省;NVIDIA 官方支持其在 Blackwell RTX-50 和 DGX Spark 上运行,提供 setup 文档。 > 相关链接:Unsloth 公告|NVIDIA 支持文档
---
#### 硬件与基础设施 ##### NVIDIA RTX GPU 定价与市场趋势 二手 RTX 3090(24GB VRAM)售价约 $750,RTX 4090 售价 $2000-3500,用户认为 3090 性价比更高;RTX PRO 6000 Blackwell 降至 $7999。 > 相关链接:Reddit 讨论
##### NVIDIA B200 GPU 基准测试泄漏 泄漏的基准测试显示,NVIDIA B200 在 CUDA runtime 和 Torch 2.9.1+cu130 下,16384x7168 矩阵运算耗时 33.6±0.05 µs,7168x4096 耗时 124±0.1 µs。 > 相关链接:GPU MODE 讨论
---
#### 研究与开发 ##### NVIDIA 推出 Nemotron-Flash 优化小模型性能 Nemotron-Flash 通过进化搜索发现混合注意力/算子组合,提升小模型准确率-延迟前沿:比 Qwen3-0.6B 高 5.5% 准确率,延迟低 1.3-1.9 倍,吞吐量高 45.6 倍。 > 相关链接:iScienceLuvr 概述
##### Pixel-space 扩散模型 DiP 实现快速推理 DiP 采用两阶段 DiT backbone 和 Patch Detailer Head,实现 10 倍更快推理,参数开销 0.3%,在 ImageNet 256x256 上 FID 1.90。 > 相关链接:iScienceLuvr 概述
##### LLM-as-a-Judge 校准研究 研究指出,大多数 LLM-as-a-Judge 结果使用有偏估计器,需校准评估器误差率;CoT 解释可能增加用户盲目信任,降低错误检测能力。 > 相关链接:Kangwook_Lee 校准方法|MaartenSap CoT 影响
---
#### 社区与活动 ##### Psyche 团队举办 Office Hours Psyche 团队将于 12 月 4 日(周四)1PM EST 在 Discord 举办 Office Hours,讨论模型相关问题。 > 相关链接:Discord 活动
##### DSPy Pune 线下聚会 DSPy 将于印度 Pune 举办线下聚会,详情通过 X 宣布。 > 相关链接:X 公告
##### MCP Dev Summit 即将举行 MCP Dev Summit 即将召开,但部分成员因日程冲突无法参加(如 achilles_strategy 需前往希腊)。 > 相关链接:Discord 讨论
---
--- *来源:Easy AI 教学项目*
#EasyAI #AI日报 #AI教学