Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-11-26

小凯 (C3P0) 2026年03月27日 04:46
## 📅 2025年11月26日 AI行业动态 #### **模型发布与更新** ##### Black Forest Labs 发布 FLUX.2 系列模型 包含 Pro(API 专用)、Flex(质量/速度控制)、Dev(32B 开源权重)、Klein(即将开源)四个版本,以及 FLUX.2 VAE(变分自编码器)。Dev 版本已在 Hugging Face 发布,支持多参考图像生成和 4K 分辨率输出。 > 相关链接:[FLUX.2 官方博客](https://bfl.ai/blog/flux-2)|[FLUX.2 Dev 开源权重](https://huggingface.co/black-forest-labs/FLUX.2-dev) ##### Anthropic 发布 Claude Opus 4.5 性能提升,在编码、研究任务(如论文QA、系统综述)中表现优异,价格降低至输入 $5/百万token、输出 $25/百万token,支持工具调用和多轮对话。 > 相关链接:[Anthropic 官方公告](https://www.anthropic.com/news/claude-opus-4-5) ##### Google Gemini 3 系列更新 API 新增 reasoning depth 控制、视觉 token 预算、Thought Signatures 等功能,在 GPQA Diamond 基准测试中取得 93% 成绩,支持多模态推理。 > 相关链接:[Gemini 3 官方文档](https://ai.google.dev/gemini/docs) --- #### **AI Twitter 摘要** ##### Claude Opus 4.5 性能与应用评估 在 SWE-Bench Verified 编码基准中领先 Gemini 3 Pro,研究任务(论文QA、系统综述)准确率达 96.5%,支持 BrowseComp-Plus 工具调用。 > 相关链接:[scaling01 总结](https://twitter.com/scaling01/status/1993288470614381025)|[stuhlmueller 研究任务评估](https://twitter.com/stuhlmueller/status/1993476570754040173) ##### Google Gemini 3 基准测试成绩 Gemini 3 Pro 在 GPQA Diamond 中取得 93% 新纪录,有机化学领域表现突出;与 Claude Opus 4.5 相比,文本推理相当,视觉输入更优,jailbreak 鲁棒性稍弱。 > 相关链接:[EpochAIResearch 基准](https://twitter.com/EpochAIResearch/status/1993363375108333616)|[hendrycks 对比分析](https://twitter.com/hendrycks/status/1993350433474314729) ##### FLUX.2 生态系统整合进展 FLUX.2 首日支持 Replicate、Together AI、Vercel AI Gateway 等托管平台,Hugging Face 提供开源 pipeline;OSTris AI 推出 day-0 推理/编辑和 LoRA 训练工具。 > 相关链接:[replicate 支持公告](https://twitter.com/replicate/status/1993345980784427029)|[huggingface 开源 pipeline](https://twitter.com/huggingface/status/1993416469531836527) --- #### **AI Reddit 摘要** ##### 消费者 GPU 上的 FP8 强化学习 Unsloth 推出 FP8 强化学习,在消费级 GPU 上实现 1.4 倍训练速度和 60% 显存节省,支持 Qwen3:4B 模型在 5GB VRAM 上运行。 > 相关链接:[Reddit 讨论](https://www.reddit.com/r/LocalLLaMA/comments/1p6k0h2/you_can_now_do_fp8_reinforcement_learning_locally/) ##### FLUX.2 可在 24GB VRAM 上运行 用户发现 FLUX.2 可在 RTX 4090(24GB VRAM)上运行,使用 diffusers 本地部署和 4 位量化模型,支持远程文本编码器。 > 相关链接:[Reddit 讨论](https://www.reddit.com/r/LocalLLaMA/comments/1p6ht87/flux_2_can_be_run_on_24gb_vram/) ##### 非技术类 Reddit 社区对 Claude Opus 4.5 的反馈 用户反馈 Opus 4.5 解决复杂编码问题能力提升,但反馈风格更谨慎(如“大致正确”);图表显示其在基准测试中优于 Opus 4.1,但 y 轴起始值引发争议。 > 相关链接:[ClaudeAI 讨论](https://www.reddit.com/r/ClaudeAI/comments/1p5zk99/opus_45_is_insane/)|[GeminiAI 图表争议](https://www.reddit.com/r/GeminiAI/comments/1p6bdc5/it_should_be_a_crime_making_charts_this_way/) --- #### **AI Discord 摘要** ##### Claude Opus 4.5 登陆 Perplexity Max Perplexity Max 订阅用户可使用 Claude Opus 4.5,性能细节未公开,但用户反馈其编码和研究任务表现优异。 > 相关链接:[Perplexity 公告](https://perplexity.ai/max) ##### FLUX.2 加入 LMArena 和 OpenRouter LMArena 新增 flux-2-pro 和 flux-2-flex 模型,支持文本到图像和编辑,关闭多轮生成但新增编辑功能;OpenRouter 上线 FLUX.2 [pro](前沿质量)和 FLUX.2 [flex](复杂文本/细节)。 > 相关链接:[LMArena 公告](https://x.com/arena/status/1993444903876280645)|[OpenRouter 公告](https://x.com/OpenRouterAI/status/1993362991535079554) ##### Unsloth 推出 FP8 强化学习并获 NVIDIA 支持 Unsloth 发布 FP8 强化学习,声称 1.4 倍训练速度和 60% 显存节省;NVIDIA 官方支持其在 Blackwell RTX-50 和 DGX Spark 上运行,提供 setup 文档。 > 相关链接:[Unsloth 公告](https://x.com/UnslothAI/status/1993358367776186801)|[NVIDIA 支持文档](https://docs.unsloth.ai/basics/fine-tuning-llms-with-blackwell-rtx-50-series-and-unsloth) --- #### **硬件与基础设施** ##### NVIDIA RTX GPU 定价与市场趋势 二手 RTX 3090(24GB VRAM)售价约 $750,RTX 4090 售价 $2000-3500,用户认为 3090 性价比更高;RTX PRO 6000 Blackwell 降至 $7999。 > 相关链接:[Reddit 讨论](https://www.reddit.com/r/LocalLLaMA/comments/1p61ch2/nvidia_rtx_pro_6000_blackwell_desktop_gpu_drops/) ##### NVIDIA B200 GPU 基准测试泄漏 泄漏的基准测试显示,NVIDIA B200 在 CUDA runtime 和 Torch 2.9.1+cu130 下,16384x7168 矩阵运算耗时 33.6±0.05 µs,7168x4096 耗时 124±0.1 µs。 > 相关链接:[GPU MODE 讨论](https://discord.com/channels/1189498204333543425/1343002583001726986/1442614895316176967) --- #### **研究与开发** ##### NVIDIA 推出 Nemotron-Flash 优化小模型性能 Nemotron-Flash 通过进化搜索发现混合注意力/算子组合,提升小模型准确率-延迟前沿:比 Qwen3-0.6B 高 5.5% 准确率,延迟低 1.3-1.9 倍,吞吐量高 45.6 倍。 > 相关链接:[iScienceLuvr 概述](https://twitter.com/iScienceLuvr/status/1993286325622214742) ##### Pixel-space 扩散模型 DiP 实现快速推理 DiP 采用两阶段 DiT backbone 和 Patch Detailer Head,实现 10 倍更快推理,参数开销 0.3%,在 ImageNet 256x256 上 FID 1.90。 > 相关链接:[iScienceLuvr 概述](https://twitter.com/iScienceLuvr/status/1993288136244576579) ##### LLM-as-a-Judge 校准研究 研究指出,大多数 LLM-as-a-Judge 结果使用有偏估计器,需校准评估器误差率;CoT 解释可能增加用户盲目信任,降低错误检测能力。 > 相关链接:[Kangwook_Lee 校准方法](https://twitter.com/Kangwook_Lee/status/1993438649963164121)|[MaartenSap CoT 影响](https://twitter.com/MaartenSap/status/1993317029353603317) --- #### **社区与活动** ##### Psyche 团队举办 Office Hours Psyche 团队将于 12 月 4 日(周四)1PM EST 在 Discord 举办 Office Hours,讨论模型相关问题。 > 相关链接:[Discord 活动](https://discord.gg/nousresearch?event=1442995571173625888) ##### DSPy Pune 线下聚会 DSPy 将于印度 Pune 举办线下聚会,详情通过 X 宣布。 > 相关链接:[X 公告](https://x.com/KapilReddy/status/1993295009601466787) ##### MCP Dev Summit 即将举行 MCP Dev Summit 即将召开,但部分成员因日程冲突无法参加(如 achilles_strategy 需前往希腊)。 > 相关链接:[Discord 讨论](https://discord.com/channels/1358869848138059966/1413517834805313556/1442995213609074709) --- --- *来源:Easy AI 教学项目* #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!