📰 Easy AI日报 | 2026-02-28

📅 2026年02月28日 AI行业动态

#### 行业与公司动态 ##### OpenAI 完成 1100 亿美元史上最大融资，估值约 8400 亿美元 OpenAI 宣布完成 1100 亿美元新一轮融资，预估值约 7300 亿美元，投后约 8400 亿。SoftBank 投 300 亿、NVIDIA 投 300 亿外加 3GW 推理+2GW 训练算力，Amazon 总计 500 亿并加深云合作，同时 AWS 将为 OpenAI Frontier 提供独家第三方云。微软未跟投新轮，但维持精简版合作。 > 相关链接：OpenAI 官方融资公告｜OpenAI 详细合作说明｜亚马逊合作细节｜微软与 OpenAI 联合声明｜融资规模背景分析（EpochAI）

##### Anthropic 正面硬刚五角大楼，被威胁列入“供应链风险” Anthropic 拒绝为国防部提供可用于大规模国内监控和全自动武器的 Claude 版本，拒收“最后通牒”，并表示若被列为供应链风险将上法庭。国防部被曝考虑要求承包商审计并停用 Anthropic 服务，引发业界对政府越权和商业环境的担忧，网友大量“用订阅声援 Claude”。 > 相关链接：Anthropic 官方声明｜Axios 深度报道｜NPR 相关报道｜Twitter 上的法律与政策讨论｜Reddit 相关讨论汇总

##### Sam Altman 表态：OpenAI 与 Anthropic 在“红线”立场一致 Axios 报道，OpenAI CEO Altman 表示在不支持大规模监控和全自动致命武器方面与 Anthropic 立场一致。OpenAI 正与美国国防部谈判，通过云端托管、技术防火墙等方式控制军方用法，既争取军方订单，又维持“红线”。 > 相关链接：Axios 报道｜相关 Reddit 讨论

##### DeepSeek V4 优先支持华为等本土硬件，NVIDIA/AMD 暂未获早期访问 DeepSeek 被曝已向华为等中国本土芯片厂商提供 V4 模型提前访问，用于适配优化，而 NVIDIA、AMD 等美企尚未拿到同等待遇。业内普遍认为 DeepSeek 在训练端仍高度依赖 NVIDIA，此举更多是为非 NVIDIA 硬件补课，外界不必过度解读为“封杀”美企。 > 相关链接：路透社原文｜Reddit 讨论贴

##### Burger King 推出语音 AI“Patty”，实时评分员工“礼貌度” 汉堡王在美国 500 家门店试点 BK Assistant，员工耳机里接入基于 OpenAI 的语音机器人 Patty，既回答配方问题，又统计员工是否说“欢迎光临”“请”“谢谢”等用语，生成门店“友好度”评分。社区担心这是披着培训外衣的职场监控工具。 > 相关链接：Perplexity 社区讨论

---

#### 模型与能力 ##### OpenAI 披露最新用户数据：ChatGPT 周活 9 亿，付费企业 900 万家 在融资公告中，OpenAI 首次系统披露业务数据：Codex 周活 160 万（年初三倍）、ChatGPT 周活超 9 亿，个人订阅 5000 万+，付费企业用户超 900 万家，相比 2025 年中 300 万家大幅增长，说明 ToC+ToB 变现都在加速。 > 相关链接：OpenAI 融资公告（含数据）｜早期数据对比讨论

##### 阿里 Qwen3.5 系列再扩容，多款开源大模型进入“开放 S 级”行列 Qwen3.5 新增 27B 致密、122B A10B MoE、35B A3B MoE，Apache 2.0 协议，支持 26 万上下文（可扩展到 100 万）。Artificial Analysis 评测其 Intelligence Index 最高 42，部分指标逼近闭源旗舰，并给出详细的幻觉率、token 消耗与代理任务表现。 > 相关链接：Artificial Analysis 评测｜Qwen 官方更新博客

##### Arena 最新榜单：GLM-5、Qwen3.5、Kimi-K2.5 领跑开源文本与代码 LMArena 公布 2 月开源模型榜：文本榜前三为 GLM-5、Qwen3.5-397B A17B、Kimi-K2.5 Thinking；代码榜中 GLM-5 居首，Kimi-K2.5 与 MiniMax-M2.5 并列第二。官方同时开源 Arena-Rank 排名工具，方便复现和私有榜单搭建。 > 相关链接：文本榜单｜代码榜单｜Arena-Rank 介绍

##### Google Nano Banana 2（Gemini 3.1 Flash Image）发布：效果提升、价格细则公布 Google 推出新一代图像模型 Nano Banana 2，并作为 Gemini 3.1 Flash Image 在产品中上线。社区实测认为对复杂空间布局和比例感提升明显，但仍有文本幻觉问题。官方定价为输入 $0.50、输出 $3.00，相比 Pro 版约便宜一半，被视为“性价比版高质生图”。 > 相关链接：官方发布博客｜Reddit 模型质量讨论｜定价讨论贴

##### 本地自托管：Qwen3.5-35B-A3B 量化深入评测，消费级显卡也能跑“顶配”模型 Unsloth 社区针对 Qwen3.5-35B-A3B 做了数百组 GGUF 量化实验，给出 PPL/KL 全指标和 9TB 模型文件。结果显示 KV q8_0 基本是“免费午餐”，在几乎不掉质量的前提下显著提升吞吐；35B MoE 在单卡上比 27B 致密快约 10 倍，本地 4070S 上可达 60+ tok/s。 > 相关链接：量化实验合集（HF）｜Reddit 详细帖子 1｜Reddit 详细帖子 2｜Reddit 详细帖子 3

##### Doc‑to‑LoRA & Text‑to‑LoRA：Sakana 用超网络“一步编译”LoRA Sakana AI 提出 Doc‑to‑LoRA / Text‑to‑LoRA，用一个超网络根据自然语言描述或长文档，直接生成 LoRA 权重，一次前向就完成“微调”。论文宣称：可把长文档信息“编译”进适配器，避免长上下文反复读取，在 needle-in-a-haystack 任务上远超原始上下文窗口，并支持跨模态从 VLM 向纯文本模型传知识。 > 相关链接：Sakana 官方线程｜技术解读串｜社区总结帖

##### 本地/云推理速度激增：Qwen3.5-35B 与 GPT‑OSS 20B 的真实 TPS 社区实测显示：4070 Super 上 Qwen3.5‑35B MoE Q4_K_M 约 62 tok/s，7900XT 16GB 约 25 tok/s；MacBook 上 GPT‑OSS 20B 本地可跑到 100 tok/s，三小时内生成 100 万 token。这让不少人开始认真考虑“大模型本地跑+API 做补充”的混合模式。 > 相关链接：Unsloth Discord 实测讨论｜Perplexity Discord GPT‑OSS 20B 讨论

---

#### 基础设施与硬件 ##### vLLM 在 AMD ROCm 上大提速：解码吞吐最高提升 4.4 倍 vLLM 宣布在 ROCm 上新增 7 种注意力后端，通过 KV cache 布局调整和批处理优化，在 MI300X 等 AMD GPU 上解码吞吐最高提升 4.4 倍，只需设置环境变量 VLLM_ROCM_USE_AITER=1。配合 MLA KV 压缩，可将约 8K 维度压到 576 维，进一步省显存。 > 相关链接：vLLM 官方线程 1｜vLLM 官方线程 2

##### DeepSeek DualPath：用 RDMA 把 KV Cache I/O 瓶颈“拆成两路” 北大/清华/DeepSeek 合作论文 DualPath 提出一种新推理系统，针对代理式 LLM 工作负载下 KV‑Cache 存储带宽成为瓶颈的问题，利用 RDMA 让预填充和解码两类节点协同，把原本闲置的存储和网络带宽用起来，在 DeepSeek 660B 等大模型上声称可获得约 1.9 倍加速。 > 相关链接：DualPath 论文｜中文解读串｜Reddit 讨论

##### Google Colab 上线 RTX PRO 6000：平价算力新选择 Unsloth 社区发现 Colab 悄悄新增 RTX PRO 6000 实例，价格约 $0.81/小时，相比老的 A100 高内存实例（约 $7.5/h 积分）便宜一个数量级。配合高效微调框架，Colab 重新变成个人研究和小团队做预训练/微调的性价比选项。 > 相关链接：Colab GPU 讨论

##### GPU MODE 深聊 PTX 内存模型与 cuTile/CuTeDSL：从指令到分布式训练 GPU MODE 服务器里，开发者围绕 PTX 的 acquire-release 内存模型和 volatile 语义展开较真，讨论它与分布式一致性模型的关系；同时有人研究 cuTile 和 CuTeDSL，在 Cutlass 示例中用 multimem 指令实现 reduce-scatter，希望实现“算子+通信”融合，为下一代分布式训练内核打基础。 > 相关链接：CuTeDSL 示例仓库｜cuTile 文档

---

#### 研究与方法 ##### Logit Fusion 被炒热：用“logits 融合”做训练的新套路 Unsloth 与多社区在讨论 Logit Fusion 训练方法：训练时将多个模型或 checkpoint 的 logits 融合，相当于在训练环里做“集成+课程学习”，而不增加推理开销。很多人呼吁把它做成像 LoRA 一样的一等公民训练方案，用更少基础设施获得更强性能。 > 相关链接：Logit Fusion 笔记｜相关讨论（Bluesky）

##### NNsight 0.6 发布：可解释性流水线提速 3 倍，多模态/多机支持 NNsight 0.6 版本重点优化性能，干预 trace 速度提升约 2.4–3.9 倍，并支持 vLLM 多 GPU/多节点。新版本还支持 Hugging Face 上的视觉语言模型和扩散模型，附带“给 LLM 看得懂的文档”，方便用 AI 助手自动写 probe 和干预脚本。 > 相关链接：官方博客｜作者 Twitter 介绍

##### CoDA-GQA-L：新注意力结构用两段 Triton kernel 大幅压缩 KV Cache 有开发者开源 CoDA-GQA-L 注意力机制，通过“路标 bank+分组查询”设计，配合两段自写 Triton 融合 kernel，显著降低 KV cache 所需显存，并给出基于 Mistral-7B 的示例模型。但 Eleuther 分析指出，替换 32 层注意力且只微调 18.6% 参数，会让 PPL 从 4.81 升到 5.75，说明该架构仍有精度代价。 > 相关链接：CoDA-GQA-L 论文｜Mistral-7B-CoDA 模型

##### 世界模型综述沙龙：从 Sora 到 V‑JEPA，讨论“镜子 vs 地图” Chipro MLOps 社区将围绕《Understanding World or Predicting Future?》办两场 paper clinic，梳理 JEPA/V‑JEPA、Dreamer、Genie、Sora、World Labs 等世界模型路线，并讨论“镜子 vs 地图”（生成 vs 表征）、空间智能、因果建模和社会世界模型，对未来 AGI 研究路线感兴趣的可以报名旁听。 > 相关链接：论文原文｜Session 1 报名｜Session 2 报名

##### 基准方法之争：Chain-of-Thought 算“模板偏置”吗？ Eleuther 社区在争论：多轮 CoT few-shot 是否算“模板作弊”？有人指出，CoT 也是一种强提示，只是因为历史原因被广泛接受，而明说“你正在被测试”的模板反而被嫌弃。讨论的核心是：基准到底要模拟真实用户混乱输入，还是追求可控对比实验。 > 相关链接：Eleuther 讨论记录

---

#### Agent 与工具链 ##### LLM Connection Strings：把模型配置塞进一个 URL OpenRouter 等社区热议 Dan Levy 提的 “LLM Connection Strings”，用类似数据库连接串的 URI 来描述提供商、模型名、参数等，例如 llm://provider/model?...，这样脚本和 Agent 只用一个参数就能切换模型和路由，避免到处写自定义配置和命令行 flag。 > 相关链接：LLM Connection Strings 设计文｜OpenRouter 讨论

##### MCP ping 语义踩坑：健康检查都要先 initialize？ MCP 官方 Discord 里，大家发现 Python SDK 要求先 initialize 才能 ping，但规范里“still available”措辞又像是给已建立连接用的。Bedrock AgentCore 为做容器健康检查，只好临时创建 session 发送 ping，再销毁，反映标准模糊已经开始影响线上实现。 > 相关链接：MCP ping 规范

##### OpenClaw / Cursor / Claude Code：多 Agent 编码工作流的现实感受 多社区在实测多 Agent 编码：有人用 5–10 个 Agent 帮自己做到 72 天 118 次提交/天，但也抱怨上下文丢失、文件改动冲突严重。Cursor 社区提醒“vibe coding”不适合严肃项目，要把 Agent 当助手而非外包；Claude Code 的多 Agent orchestration 被认可，但不少人觉得自己写 orchestrator+便宜模型更划算。 > 相关链接：高频提交工作流文章｜Cursor 社区讨论

---

#### 产品与应用落地 ##### 本地 LLM 选型工具与自托管排行榜：LLmFit + Onyx 上线 社区出现两个面向自托管玩家的工具：LLmFit 号称一键根据你机器配置推荐可跑模型，但用户反馈实际 tok/s 与体验常常对不上；Onyx 则给出自托管 LLM 排行榜，按编码、数学、推理和效率打分，大家呼吁尽快加入 Qwen3.5 27B/122B 等新秀。 > 相关链接：LLmFit Reddit 贴｜自托管 LLM 排行榜

##### Claude Code 大型实战：7.6 万行代码跑完发现 118 个函数慢到不行 Codeflash 用 Claude Code 做了两个大功能，共 7.6 万行代码，基准测试后发现 118 个函数最多可以快 446 倍，典型问题是算法幼稚、重复计算、数据结构选得差。总结是：LLM 更擅长“先写对”，但几乎不会自己做性能剖析和优化，必须在流程里强制加基准和 code review。 > 相关链接：SWE-fficiency Benchmark｜Reddit 经验贴

##### Nano Banana 系列在生产中的真实体验：空间理解强了，但依旧会“胡说” 多 Reddit 贴对比 Nano Banana 与 Banana Pro：新版本在空间感、比例和复杂场景（如室内改造）上提升明显，但文本相关任务仍会出现严重幻觉。价格上 Banana 2 明显便宜，适合大规模生成；高质量、角色一致性场景仍有人更爱 Banana Pro 或其他图像模型。 > 相关链接：模型对比反馈

---

#### 政策、治理与安全 ##### 美国国防部 vs Anthropic：供应链标签、监控红线与行业寒蝉效应 除了合同纠纷，网上流传国防部考虑把 Anthropic 定性为“国家安全供应链风险”，并要求承包商评估是否使用 Claude。法律界指出，国防部可以限制承包商在军方项目里用什么，但很难合法禁止其在商业项目中用 Anthropic。事件被视为 AI 治理的标志性先例：到底由谁来画“可接受用途”的线。 > 相关链接：Twitter 治理讨论｜法律视角解读｜社区声援与舆论

##### Gemini / Claude / GPT 越狱与安全过滤：攻防继续升级 BASI Jailbreaking 社区持续在找 Gemini Pro 3/3.1、Grok、Claude、ChatGPT 的新越狱 prompt，甚至有人愿意付费买能在 CS2、Rust 等游戏作弊的 jailbreak。有人感叹“现在 AI 已经很难越狱了”，也有人声称做出“短消息、直给结果”的新越狱，说明厂商对齐在加码，社区攻击也没停。 > 相关链接：BASI 越狱频道

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-02-28

📅 2026年02月28日 AI行业动态

🌟 智谱 GLM-5 已上线