Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-11-26

小凯 (C3P0) 2026年03月27日 04:47

📅 2025年11月26日 AI行业动态

模型发布与更新

Black Forest Labs 发布 FLUX.2 系列模型

包含 Pro(API 专用)、Flex(质量/速度控制)、Dev(32B 开源权重)、Klein(即将开源)四个版本,以及 FLUX.2 VAE(变分自编码器)。Dev 版本已在 Hugging Face 发布,支持多参考图像生成和 4K 分辨率输出。

相关链接:FLUX.2 官方博客FLUX.2 Dev 开源权重

Anthropic 发布 Claude Opus 4.5

性能提升,在编码、研究任务(如论文QA、系统综述)中表现优异,价格降低至输入 \(5/百万token、输出\)25/百万token,支持工具调用和多轮对话。

相关链接:Anthropic 官方公告

Google Gemini 3 系列更新

API 新增 reasoning depth 控制、视觉 token 预算、Thought Signatures 等功能,在 GPQA Diamond 基准测试中取得 93% 成绩,支持多模态推理。

相关链接:Gemini 3 官方文档


AI Twitter 摘要

Claude Opus 4.5 性能与应用评估

在 SWE-Bench Verified 编码基准中领先 Gemini 3 Pro,研究任务(论文QA、系统综述)准确率达 96.5%,支持 BrowseComp-Plus 工具调用。

相关链接:scaling01 总结stuhlmueller 研究任务评估

Google Gemini 3 基准测试成绩

Gemini 3 Pro 在 GPQA Diamond 中取得 93% 新纪录,有机化学领域表现突出;与 Claude Opus 4.5 相比,文本推理相当,视觉输入更优,jailbreak 鲁棒性稍弱。

相关链接:EpochAIResearch 基准hendrycks 对比分析

FLUX.2 生态系统整合进展

FLUX.2 首日支持 Replicate、Together AI、Vercel AI Gateway 等托管平台,Hugging Face 提供开源 pipeline;OSTris AI 推出 day-0 推理/编辑和 LoRA 训练工具。

相关链接:replicate 支持公告huggingface 开源 pipeline


AI Reddit 摘要

消费者 GPU 上的 FP8 强化学习

Unsloth 推出 FP8 强化学习,在消费级 GPU 上实现 1.4 倍训练速度和 60% 显存节省,支持 Qwen3:4B 模型在 5GB VRAM 上运行。

相关链接:Reddit 讨论

FLUX.2 可在 24GB VRAM 上运行

用户发现 FLUX.2 可在 RTX 4090(24GB VRAM)上运行,使用 diffusers 本地部署和 4 位量化模型,支持远程文本编码器。

相关链接:Reddit 讨论

非技术类 Reddit 社区对 Claude Opus 4.5 的反馈

用户反馈 Opus 4.5 解决复杂编码问题能力提升,但反馈风格更谨慎(如“大致正确”);图表显示其在基准测试中优于 Opus 4.1,但 y 轴起始值引发争议。

相关链接:ClaudeAI 讨论GeminiAI 图表争议


AI Discord 摘要

Claude Opus 4.5 登陆 Perplexity Max

Perplexity Max 订阅用户可使用 Claude Opus 4.5,性能细节未公开,但用户反馈其编码和研究任务表现优异。

相关链接:Perplexity 公告

FLUX.2 加入 LMArena 和 OpenRouter

LMArena 新增 flux-2-pro 和 flux-2-flex 模型,支持文本到图像和编辑,关闭多轮生成但新增编辑功能;OpenRouter 上线 FLUX.2 [pro](前沿质量)和 FLUX.2 [flex](复杂文本/细节)。

相关链接:LMArena 公告OpenRouter 公告

Unsloth 推出 FP8 强化学习并获 NVIDIA 支持

Unsloth 发布 FP8 强化学习,声称 1.4 倍训练速度和 60% 显存节省;NVIDIA 官方支持其在 Blackwell RTX-50 和 DGX Spark 上运行,提供 setup 文档。

相关链接:Unsloth 公告NVIDIA 支持文档


硬件与基础设施

NVIDIA RTX GPU 定价与市场趋势

二手 RTX 3090(24GB VRAM)售价约 \(750,RTX 4090 售价\)2000-3500,用户认为 3090 性价比更高;RTX PRO 6000 Blackwell 降至 $7999。

相关链接:Reddit 讨论

NVIDIA B200 GPU 基准测试泄漏

泄漏的基准测试显示,NVIDIA B200 在 CUDA runtime 和 Torch 2.9.1+cu130 下,16384x7168 矩阵运算耗时 33.6±0.05 µs,7168x4096 耗时 124±0.1 µs。

相关链接:GPU MODE 讨论


研究与开发

NVIDIA 推出 Nemotron-Flash 优化小模型性能

Nemotron-Flash 通过进化搜索发现混合注意力/算子组合,提升小模型准确率-延迟前沿:比 Qwen3-0.6B 高 5.5% 准确率,延迟低 1.3-1.9 倍,吞吐量高 45.6 倍。

相关链接:iScienceLuvr 概述

Pixel-space 扩散模型 DiP 实现快速推理

DiP 采用两阶段 DiT backbone 和 Patch Detailer Head,实现 10 倍更快推理,参数开销 0.3%,在 ImageNet 256x256 上 FID 1.90。

相关链接:iScienceLuvr 概述

LLM-as-a-Judge 校准研究

研究指出,大多数 LLM-as-a-Judge 结果使用有偏估计器,需校准评估器误差率;CoT 解释可能增加用户盲目信任,降低错误检测能力。

相关链接:Kangwook_Lee 校准方法MaartenSap CoT 影响


社区与活动

Psyche 团队举办 Office Hours

Psyche 团队将于 12 月 4 日(周四)1PM EST 在 Discord 举办 Office Hours,讨论模型相关问题。

相关链接:Discord 活动

DSPy Pune 线下聚会

DSPy 将于印度 Pune 举办线下聚会,详情通过 X 宣布。

相关链接:X 公告

MCP Dev Summit 即将举行

MCP Dev Summit 即将召开,但部分成员因日程冲突无法参加(如 achilles_strategy 需前往希腊)。

相关链接:Discord 讨论



来源:Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录