静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2026-02-25

小凯 @C3P0 · 2026-03-27 04:50 · 28浏览

📅 2026年02月25日 AI行业动态

#### 模型与能力 ##### 阿里发布 Qwen3.5 Medium 系列,多款开源中等体量模型 阿里推出 Qwen3.5-Flash、35B-A3B(MoE)、122B-A10B(MoE)、27B(致密)等“更聪明更省算”中等模型:Flash 默认 100 万上下文并带内置工具;社区实测 35B/122B 体验接近甚至超越此前 235B 代际;GGUF、本地量化(含 int4、超低比特)和 SGLang 支持已就位,主打本地与边缘推理性价比。 > 相关链接:阿里官方发布35B/122B 体验反馈35B 超 235B 讨论Unsloth GGUF & 量化Qwen3.5-35B-A3B HuggingFaceQwen3.5-122B-A10B HuggingFaceCode Arena 排名

##### OpenAI 上线 GPT‑5.3‑Codex,主打高端代码助手 OpenAI 将 GPT‑5.3‑Codex 通过 Responses API 全量开放,社区标注价格约为输入 $1.75 / 输出 $14,每 token 不便宜,定位高端 coding/agent 模型。同时官方扩展了 docx/pptx/csv/xlsx 等文件直接作为上下文输入,方便做“喂真实文件”的智能体。 > 相关链接:OpenAI 开发者公告价格与基准讨论多文件格式输入更新

##### Inception Mercury 2:以推理扩散架构换取 1000 tok/s 超高速 Inception Labs 推出“推理扩散 LLM” Mercury 2,声称在生产环境可达约 1000 tokens/s。第三方测评认为智能水平不是天花板,但在编码和 agent 测试上表现尚可,最大卖点是吞吐和延迟,适合作为多轮 agent、语音助手的高速后端。 > 相关链接:官方介绍Artificial Analysis 测评

##### Liquid AI 发布 LFM2‑24B‑A2B:24B MoE,本地 32GB 卡可跑 Liquid AI 上线 LFM2‑24B‑A2B:24B 参数 MoE,每 token 仅激活约 2.3B,目标是在 32GB 显存内高效推理。官方给出的速度是 AMD CPU 约 112 tok/s、H100 约 293 tok/s,已适配 llama.cpp、vLLM、SGLang,多种 GGUF 量化可选,目前仍在继续预训练和后续 RL 阶段。 > 相关链接:模型发布博客HuggingFace 模型页

##### Qwen3.5 在本地与 MLX 生态中的体验:4bit 也能“工业革命” 社区实测 Qwen3.5 4bit 在 Mac Studio M3 上可跑到约 34–35 tok/s,提示几乎秒出,被戏称“自己的一场工业革命”。但 MLX 版当前不带视觉能力,仅支持文本;同时小型 Qwen3-VL-2B 模型被用户接到家庭摄像头上,表现出不错的场景理解和叙事能力。 > 相关链接:Qwen 3.5 MLX 体验贴Qwen3-VL-2B 摄像头案例

---

#### Agent 与工具链 ##### Claude Code “远程控制”上线:命令行编码可无缝续到手机 Anthropic 给 Claude Code 加了“Remote Control”:你可以在本地终端开启会话,外出时在手机上接着写同一项目,相当于把IDE搬到手机。企业侧还更新了 Cowork/插件,用于团队范围内统一自定义 Claude 工作流。 > 相关链接:功能预告官方上线帖

##### Cursor 推出 Cloud Agents:不看 diff,看“演示视频” Cursor 新版本允许代理在云端真实运行你写的程序、跑测试,并回传操作视频而不是一堆 diff,口号是“demos, not diffs”。开发者可以免费使用云环境做自动化调试和演示,但目前 sudo 等高权限操作仍受限,社区在催支持更强的自动化能力。 > 相关链接:Cursor 官方发布Cloud Agents 介绍页

##### OpenAI Responses API 支持 WebSocket,Agent 推理提速约 30% OpenAI 在 Responses API 中开放 WebSocket 通道,有开发者实测整条 agent 工作流加速约 30%。配合新上线的 GPT‑5.3‑Codex 和多格式文件输入,基本就是官方版“长上下文代码/文档代理”栈。 > 相关链接:OpenAI WebSocket 提示gdb 的性能测评

##### Agent 上下文文件 AGENTS.md 研究:乱写反而拖后腿 新论文系统评估了给 Agent 加“AGENTS.md”这类上下文文件的影响:LLM 自动生成的长说明往往让成功率下降、成本上升;人手写的精简说明略有帮助,但同样增加 token 花费。结论是:只写少量关键约束和接口信息,不要堆一大篇“设定小说”。 > 相关链接:论文科普总结实用写法指南

##### OpenRouter 推出 openrouter/free 路由与 GPT‑5.3‑Codex 接入 OpenRouter 新增 openrouter/free 路由,会自动选一批免费模型帮你省钱;同时已接入 GPT‑5.3‑Codex,并在模型页上统一展示基准分数与“有效价格”,方便按性能/延迟/成本选模型。 > 相关链接:free 路由说明GPT‑5.3‑Codex on OpenRouterRankings & Pricing 页面

---

#### 基础设施与硬件 ##### Meta × AMD 达成 6GW 超大规模 GPU 采购协议 Meta 宣布未来五年部署约 6GW 的 AMD Instinct GPU 基础设施(主要是 MI300X),金额估算在数百亿美元级。配套工程博客披露了自研 RRCLLX 通信库,用于大规模 AMD GPU 互联,市场解读为对 NVIDIA 垄断的一次实质性掰腕。 > 相关链接:Meta 官方公告RRCLLX 技术细节

##### MatX 获 5 亿美元 B 轮融资,自研“高带宽+低延迟” LLM 芯片 MatX 宣布完成 5 亿美元 B 轮融资,将打造 MatX One 专用 LLM 加速器:采用可拆分的 systolic array,同时利用 SRAM 做低延迟计算、HBM 扛长上下文大带宽。Karpathy 点评称,“算力+两级存储”调度将是未来 token 需求的关键瓶颈之一。 > 相关链接:融资与芯片介绍Karpathy 评论

##### FlashAttention-3 官方轮子发布,免编译直接用 PyTorch 官方放出了 FlashAttention‑3 预编译轮子,覆盖 CUDA 12.6+/13、x86/ARM、Linux/Windows,并保证 LibTorch ABI 兼容,Python≥3.10、Torch≥2.9 可直接 pip 装。对做自定义内核和高性能推理的同学来说,大幅简化了环境折腾。 > 相关链接:FlashAttention‑3 下载页

##### llama.cpp 最新提交“翻车”:Qwen3.5 GGUF 无法加载 社区反馈从 master 编译的最新版 llama.cpp 会在加载 Qwen3.5 GGUF 时报 “Failed to read magic”,且不再分配 VRAM,确认与一次溢出修复相关。临时解决方案是回滚到 8145 版本或使用正式 release。 > 相关链接:LM Studio 讨论串

##### GPU MODE:eBPF 扩展到 GPU、Helion 0.3.0、NCCL/NVSHMEM 实战 GPU 开发圈本周热点:eBPF 被研究扩展到 GPU 设备与驱动上下文;PyTorch Helion 0.3.0 带来自适应调优和 Triton‑TileIR 桥接;不少人在摸索 NVSHMEM 的 nvshmem_ptr/put/get 性能差异,以及如何在多 GPU/多节点场景下稳定重现 CUDA 内存错误并调试。 > 相关链接:eBPF for GPU 讲座摘要Helion v0.3.0 发布

---

#### 研究与方法 ##### Princeton 等提出“能力–可靠性鸿沟”:模型更强但不更稳 新工作把“可靠性”拆成 12 个维度,系统测了多代大模型:能力飙升,但可靠性只小幅改善,典型现象就是 agent 在长尾场景频繁翻车。作者做了线上 dashboard,很多人拿自动驾驶类比:问题不在平均水平,而在极端情况和长链条任务的失败率。 > 相关链接:论文与仪表盘Random Walker 评论

##### OpenClaw 研究:把危险指令拆成小步骤,安全策略就失效 一篇安全论文展示了典型 agent 漏洞:如果用户把“删除所有邮件”拆成一串看似安全的例行操作,现有守护策略往往放行,最终依然完成高危操作。作者给出一个开源修复方案,提醒大家在做工具调用/多步骤规划时别只看单步风险。 > 相关链接:论文线程

##### SWE‑bench Multilingual 榜单发布:300 任务、9 语言的编程评测 新榜单把软件工程任务扩展到 9 种语言、300 个问题,并刻意避开 SWE‑bench Verified 的数据,当前最佳模型约能解 72%。结果显示模型在不同语言上的排序会反转,对想做全球开发者工具和多语言数据采集的人很有参考价值。 > 相关链接:榜单发布更多统计细节

##### OCR 基准被刷满:OmniDocBench 接近天花板但真实文档仍难 多方指出 OmniDocBench 上很多模型已到 90%+,但真实复杂 PDF 仍经常翻车,且 exact-match 指标会惩罚语义正确但格式略有差异的输出。有工作表明,对 PDF 问答时先抽文本再喂模型往往比直接图像端到端效果更好。 > 相关链接:llama_index 讨论PDF QA 研究

##### “Nature 新优化器”遭质疑:基线没调好就宣布碾压 一篇发在 Nature 的 MI 优化器论文被多名研究者点名:怀疑其对比的 baseline 学习率等参数没认真调,甚至可能直接在测试集上选超参,导致曲线“好看过头”。不少人呼吁重做实验、用 nanogpt 这类公开 baseline 来复现。 > 相关链接:质疑长帖补充实验背景

---

#### 产品与应用落地 ##### Claude Code COBOL 工具一篇博客,让 IBM 股价跌了一成多 Anthropic 发文展示用 Claude Code 分析和现代化 COBOL 老系统(如银行主机、ATM 核心),市场一度理解成“自动迁移工具要干掉 IBM 咨询业务”,IBM 股价当日跌超 10%。细看其实只是能力展示,真要迁移仍离不开大量人工审查和风险控制。 > 相关链接:Singularity 讨论串ClaudeAI 相关讨论

##### Perplexity/Comet 上线新语音模式 Perplexity 及其姊妹产品 Comet 推出升级后的语音模式,覆盖所有用户,主打更自然的语音交互体验。与此同时,部分 Pro 用户抱怨配额策略调整后更容易撞上限,认为官方在向高价值企业/Max 用户倾斜。 > 相关链接:语音模式更新Perplexity Pro 限额讨论

##### 安防场景:1GB 级 Qwen3-VL-2B 接摄像头做“文字监控” 有开发者用约 0.7GB 的 Qwen3-VL-2B-Instruct(IQ2 量化)接入家庭摄像头,不只是识别人/车,而是输出完整文字叙述,比如“快递员走近门口放下包裹”。整个 pipeline 跑在 MacBook M3 + SharpAI Aegis 上,展示了小视觉模型在边缘端的可用性。 > 相关链接:Reddit 使用案例

##### OpenClaw/Manus/kollect 等小工具:从编码助手到“语音填表” 生态里涌现不少细分工具:OpenClaw 被用户改造成打印机保养 bot、抢二手表 bot 等自动脚本平台;Manus.im 用户呼吁推出“无限对话”订阅以支撑 Telegram Agent 的高频使用;Kollect 则把传统表单变成实时 AI 对话,用户用自然语言回答问题即可完成问卷。 > 相关链接:OpenClaw showcase 频道Manus.im 反馈页Kollect 项目

##### Gemini 应用端更新:2 小时做小游戏,App 加入视频模板 有玩家用 Gemini 3.1 Pro 两小时内做出了一个简单的《合金装备》风格小游戏;移动端 Gemini App 则上线了视频模板,方便直接生成适配社媒的视频。虽然底层 Veo 3.1 等模型被吐槽“像十年前的效果”,但对短视频创作者来说门槛进一步降低。 > 相关链接:Gemini 做游戏帖子App 视频模板报道

---

#### 行业与公司动态 ##### Anthropic × DeepSeek 等“蒸馏大战”:24k 账号、1600 万对话被点名 Anthropic 连发博客和材料,称 DeepSeek、Moonshot、MiniMax 通过 2.4 万个假账号,对 Claude 发起逾 1600 万次调用,用于大规模蒸馏训练,并强调蒸馏过程中安全特性无法完整迁移。社区一边围观“中美开源/闭源大战”,一边吐槽:大家自己训练时也在大规模抓公开数据,很难站在道德高地。 > 相关链接:官方“蒸馏攻击”博客Reddit 高赞讨论 1Reddit 高赞讨论 2“只是想反击中国开源叙事”的观点

##### Anthropic 从未开源过 LLM,引发“安全 vs 开放”争论 有人盘点发现 Anthropic 从未真正开源过任何 LLM,也没有公开 tokenizer 和多语种细节,对比 OpenAI/Gemini 的部分开源做法,引出“你天天讲安全,却不让外界审计”的吐槽。还有用户指出 Claude 连弯引号这种细节都不支持,影响到特定代码场景。 > 相关链接:相关 Reddit 贴

##### MatX 获 5 亿 B 轮、OpenAI/Meta 投资版图继续扩张 除了 MatX One 芯片融资,本周还有分析整理了 SpaceX、OpenAI、Anthropic 等可能上市时对二级市场流动性的巨大压力,以及大厂在 GPU/数据中心上的总投资规模。整体信号:算力和基础设施仍是当前 AI 资本故事的核心。 > 相关链接:MatX 融资线程大模型公司 IPO 流动性分析

---

#### 政策、治理与安全 ##### Anthropic 的“蒸馏攻击”叙事,被质疑是在为对华限制找理由 有人认为 Anthropic 高调曝光 DeepSeek 等“工业级蒸馏攻击”,真正目的不是怕自家模型被学走,而是要对外讲一个故事:中方开源模型之所以强,是因为“偷闭源权重”,从而说服监管加大对中国的算力/芯片出口管制。反方则列出一堆中方论文,说明本土创新并不少。 > 相关链接:“真正目标是舆论战”的讨论

##### 蒸馏 vs 版权:用闭源 API 生成数据训练,算不算侵权? 多条讨论把“蒸馏攻击”和“用版权文本训练模型”类比:一边是从闭源 API 批量要输出再训练自家模型,一边是从互联网上抓书和代码。有人认为两者本质相似,既然大家都在灰色地带里搞训练,单独把蒸馏扣成“攻击”说服力有限。 > 相关链接:OpenAI/Claude 社区讨论更多 Reddit 讨论

##### AI 安全视角:拆分步骤绕过安全、越狱 prompt 持续进化 除了 OpenClaw 的“拆步骤绕过安全”,BASI Jailbreaking 等社区持续在玩 Kimi 2.5、Gemini 3.1 low、DeepSeek 的越狱提示词,典型套路是构造内部角色对话、链式思维冲突,让安全策略和“完成任务”自己打架,最终逼出被禁止内容。 > 相关链接:Kimi/DeepSeek 越狱讨论Gemini ENI 越狱技巧

##### SWE‑bench Verified 正式下线:OpenAI 认定污染严重、不再有用 OpenAI 宣布自废自家高频使用的 SWE‑bench Verified 基准,理由是:很多 frontier 模型已经能凭记忆直接给出问题的原始 commit;剩下约 60% 未解问题里,也有大量任务本身就有缺陷。继续在这种榜单上卷,意义不大还费算力。 > 相关链接:OpenAI deprecate 公告

---

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复 (0)