📅 2025年11月26日 AI行业动态
模型发布与更新
Black Forest Labs 发布 FLUX.2 系列模型
包含 Pro(API 专用)、Flex(质量/速度控制)、Dev(32B 开源权重)、Klein(即将开源)四个版本,以及 FLUX.2 VAE(变分自编码器)。Dev 版本已在 Hugging Face 发布,支持多参考图像生成和 4K 分辨率输出。
Anthropic 发布 Claude Opus 4.5
性能提升,在编码、研究任务(如论文QA、系统综述)中表现优异,价格降低至输入 \(5/百万token、输出\)25/百万token,支持工具调用和多轮对话。
相关链接:Anthropic 官方公告
Google Gemini 3 系列更新
API 新增 reasoning depth 控制、视觉 token 预算、Thought Signatures 等功能,在 GPQA Diamond 基准测试中取得 93% 成绩,支持多模态推理。
相关链接:Gemini 3 官方文档
AI Twitter 摘要
Claude Opus 4.5 性能与应用评估
在 SWE-Bench Verified 编码基准中领先 Gemini 3 Pro,研究任务(论文QA、系统综述)准确率达 96.5%,支持 BrowseComp-Plus 工具调用。
Google Gemini 3 基准测试成绩
Gemini 3 Pro 在 GPQA Diamond 中取得 93% 新纪录,有机化学领域表现突出;与 Claude Opus 4.5 相比,文本推理相当,视觉输入更优,jailbreak 鲁棒性稍弱。
FLUX.2 生态系统整合进展
FLUX.2 首日支持 Replicate、Together AI、Vercel AI Gateway 等托管平台,Hugging Face 提供开源 pipeline;OSTris AI 推出 day-0 推理/编辑和 LoRA 训练工具。
AI Reddit 摘要
消费者 GPU 上的 FP8 强化学习
Unsloth 推出 FP8 强化学习,在消费级 GPU 上实现 1.4 倍训练速度和 60% 显存节省,支持 Qwen3:4B 模型在 5GB VRAM 上运行。
相关链接:Reddit 讨论
FLUX.2 可在 24GB VRAM 上运行
用户发现 FLUX.2 可在 RTX 4090(24GB VRAM)上运行,使用 diffusers 本地部署和 4 位量化模型,支持远程文本编码器。
相关链接:Reddit 讨论
非技术类 Reddit 社区对 Claude Opus 4.5 的反馈
用户反馈 Opus 4.5 解决复杂编码问题能力提升,但反馈风格更谨慎(如“大致正确”);图表显示其在基准测试中优于 Opus 4.1,但 y 轴起始值引发争议。
相关链接:ClaudeAI 讨论|GeminiAI 图表争议
AI Discord 摘要
Claude Opus 4.5 登陆 Perplexity Max
Perplexity Max 订阅用户可使用 Claude Opus 4.5,性能细节未公开,但用户反馈其编码和研究任务表现优异。
相关链接:Perplexity 公告
FLUX.2 加入 LMArena 和 OpenRouter
LMArena 新增 flux-2-pro 和 flux-2-flex 模型,支持文本到图像和编辑,关闭多轮生成但新增编辑功能;OpenRouter 上线 FLUX.2 [pro](前沿质量)和 FLUX.2 [flex](复杂文本/细节)。
相关链接:LMArena 公告|OpenRouter 公告
Unsloth 推出 FP8 强化学习并获 NVIDIA 支持
Unsloth 发布 FP8 强化学习,声称 1.4 倍训练速度和 60% 显存节省;NVIDIA 官方支持其在 Blackwell RTX-50 和 DGX Spark 上运行,提供 setup 文档。
相关链接:Unsloth 公告|NVIDIA 支持文档
硬件与基础设施
NVIDIA RTX GPU 定价与市场趋势
二手 RTX 3090(24GB VRAM)售价约 \(750,RTX 4090 售价\)2000-3500,用户认为 3090 性价比更高;RTX PRO 6000 Blackwell 降至 $7999。
相关链接:Reddit 讨论
NVIDIA B200 GPU 基准测试泄漏
泄漏的基准测试显示,NVIDIA B200 在 CUDA runtime 和 Torch 2.9.1+cu130 下,16384x7168 矩阵运算耗时 33.6±0.05 µs,7168x4096 耗时 124±0.1 µs。
相关链接:GPU MODE 讨论
研究与开发
NVIDIA 推出 Nemotron-Flash 优化小模型性能
Nemotron-Flash 通过进化搜索发现混合注意力/算子组合,提升小模型准确率-延迟前沿:比 Qwen3-0.6B 高 5.5% 准确率,延迟低 1.3-1.9 倍,吞吐量高 45.6 倍。
相关链接:iScienceLuvr 概述
Pixel-space 扩散模型 DiP 实现快速推理
DiP 采用两阶段 DiT backbone 和 Patch Detailer Head,实现 10 倍更快推理,参数开销 0.3%,在 ImageNet 256x256 上 FID 1.90。
相关链接:iScienceLuvr 概述
LLM-as-a-Judge 校准研究
研究指出,大多数 LLM-as-a-Judge 结果使用有偏估计器,需校准评估器误差率;CoT 解释可能增加用户盲目信任,降低错误检测能力。
社区与活动
Psyche 团队举办 Office Hours
Psyche 团队将于 12 月 4 日(周四)1PM EST 在 Discord 举办 Office Hours,讨论模型相关问题。
相关链接:Discord 活动
DSPy Pune 线下聚会
DSPy 将于印度 Pune 举办线下聚会,详情通过 X 宣布。
相关链接:X 公告
MCP Dev Summit 即将举行
MCP Dev Summit 即将召开,但部分成员因日程冲突无法参加(如 achilles_strategy 需前往希腊)。
相关链接:Discord 讨论
来源:Easy AI 教学项目
#EasyAI #AI日报 #AI教学
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。