📅 2026年02月28日 AI行业动态
#### 行业与公司动态 ##### OpenAI 完成 1100 亿美元史上最大融资,估值约 8400 亿美元 OpenAI 宣布完成 1100 亿美元新一轮融资,预估值约 7300 亿美元,投后约 8400 亿。SoftBank 投 300 亿、NVIDIA 投 300 亿外加 3GW 推理+2GW 训练算力,Amazon 总计 500 亿并加深云合作,同时 AWS 将为 OpenAI Frontier 提供独家第三方云。微软未跟投新轮,但维持精简版合作。 > 相关链接:OpenAI 官方融资公告|OpenAI 详细合作说明|亚马逊合作细节|微软与 OpenAI 联合声明|融资规模背景分析(EpochAI)
##### Anthropic 正面硬刚五角大楼,被威胁列入“供应链风险” Anthropic 拒绝为国防部提供可用于大规模国内监控和全自动武器的 Claude 版本,拒收“最后通牒”,并表示若被列为供应链风险将上法庭。国防部被曝考虑要求承包商审计并停用 Anthropic 服务,引发业界对政府越权和商业环境的担忧,网友大量“用订阅声援 Claude”。 > 相关链接:Anthropic 官方声明|Axios 深度报道|NPR 相关报道|Twitter 上的法律与政策讨论|Reddit 相关讨论汇总
##### Sam Altman 表态:OpenAI 与 Anthropic 在“红线”立场一致 Axios 报道,OpenAI CEO Altman 表示在不支持大规模监控和全自动致命武器方面与 Anthropic 立场一致。OpenAI 正与美国国防部谈判,通过云端托管、技术防火墙等方式控制军方用法,既争取军方订单,又维持“红线”。 > 相关链接:Axios 报道|相关 Reddit 讨论
##### DeepSeek V4 优先支持华为等本土硬件,NVIDIA/AMD 暂未获早期访问 DeepSeek 被曝已向华为等中国本土芯片厂商提供 V4 模型提前访问,用于适配优化,而 NVIDIA、AMD 等美企尚未拿到同等待遇。业内普遍认为 DeepSeek 在训练端仍高度依赖 NVIDIA,此举更多是为非 NVIDIA 硬件补课,外界不必过度解读为“封杀”美企。 > 相关链接:路透社原文|Reddit 讨论贴
##### Burger King 推出语音 AI“Patty”,实时评分员工“礼貌度” 汉堡王在美国 500 家门店试点 BK Assistant,员工耳机里接入基于 OpenAI 的语音机器人 Patty,既回答配方问题,又统计员工是否说“欢迎光临”“请”“谢谢”等用语,生成门店“友好度”评分。社区担心这是披着培训外衣的职场监控工具。 > 相关链接:Perplexity 社区讨论
---
#### 模型与能力 ##### OpenAI 披露最新用户数据:ChatGPT 周活 9 亿,付费企业 900 万家 在融资公告中,OpenAI 首次系统披露业务数据:Codex 周活 160 万(年初三倍)、ChatGPT 周活超 9 亿,个人订阅 5000 万+,付费企业用户超 900 万家,相比 2025 年中 300 万家大幅增长,说明 ToC+ToB 变现都在加速。 > 相关链接:OpenAI 融资公告(含数据)|早期数据对比讨论
##### 阿里 Qwen3.5 系列再扩容,多款开源大模型进入“开放 S 级”行列 Qwen3.5 新增 27B 致密、122B A10B MoE、35B A3B MoE,Apache 2.0 协议,支持 26 万上下文(可扩展到 100 万)。Artificial Analysis 评测其 Intelligence Index 最高 42,部分指标逼近闭源旗舰,并给出详细的幻觉率、token 消耗与代理任务表现。 > 相关链接:Artificial Analysis 评测|Qwen 官方更新博客
##### Arena 最新榜单:GLM-5、Qwen3.5、Kimi-K2.5 领跑开源文本与代码 LMArena 公布 2 月开源模型榜:文本榜前三为 GLM-5、Qwen3.5-397B A17B、Kimi-K2.5 Thinking;代码榜中 GLM-5 居首,Kimi-K2.5 与 MiniMax-M2.5 并列第二。官方同时开源 Arena-Rank 排名工具,方便复现和私有榜单搭建。 > 相关链接:文本榜单|代码榜单|Arena-Rank 介绍
##### Google Nano Banana 2(Gemini 3.1 Flash Image)发布:效果提升、价格细则公布 Google 推出新一代图像模型 Nano Banana 2,并作为 Gemini 3.1 Flash Image 在产品中上线。社区实测认为对复杂空间布局和比例感提升明显,但仍有文本幻觉问题。官方定价为输入 $0.50、输出 $3.00,相比 Pro 版约便宜一半,被视为“性价比版高质生图”。 > 相关链接:官方发布博客|Reddit 模型质量讨论|定价讨论贴
##### 本地自托管:Qwen3.5-35B-A3B 量化深入评测,消费级显卡也能跑“顶配”模型 Unsloth 社区针对 Qwen3.5-35B-A3B 做了数百组 GGUF 量化实验,给出 PPL/KL 全指标和 9TB 模型文件。结果显示 KV q8_0 基本是“免费午餐”,在几乎不掉质量的前提下显著提升吞吐;35B MoE 在单卡上比 27B 致密快约 10 倍,本地 4070S 上可达 60+ tok/s。 > 相关链接:量化实验合集(HF)|Reddit 详细帖子 1|Reddit 详细帖子 2|Reddit 详细帖子 3
##### Doc‑to‑LoRA & Text‑to‑LoRA:Sakana 用超网络“一步编译”LoRA Sakana AI 提出 Doc‑to‑LoRA / Text‑to‑LoRA,用一个超网络根据自然语言描述或长文档,直接生成 LoRA 权重,一次前向就完成“微调”。论文宣称:可把长文档信息“编译”进适配器,避免长上下文反复读取,在 needle-in-a-haystack 任务上远超原始上下文窗口,并支持跨模态从 VLM 向纯文本模型传知识。 > 相关链接:Sakana 官方线程|技术解读串|社区总结帖
##### 本地/云推理速度激增:Qwen3.5-35B 与 GPT‑OSS 20B 的真实 TPS 社区实测显示:4070 Super 上 Qwen3.5‑35B MoE Q4_K_M 约 62 tok/s,7900XT 16GB 约 25 tok/s;MacBook 上 GPT‑OSS 20B 本地可跑到 100 tok/s,三小时内生成 100 万 token。这让不少人开始认真考虑“大模型本地跑+API 做补充”的混合模式。 > 相关链接:Unsloth Discord 实测讨论|Perplexity Discord GPT‑OSS 20B 讨论
---
#### 基础设施与硬件 ##### vLLM 在 AMD ROCm 上大提速:解码吞吐最高提升 4.4 倍 vLLM 宣布在 ROCm 上新增 7 种注意力后端,通过 KV cache 布局调整和批处理优化,在 MI300X 等 AMD GPU 上解码吞吐最高提升 4.4 倍,只需设置环境变量 VLLM_ROCM_USE_AITER=1。配合 MLA KV 压缩,可将约 8K 维度压到 576 维,进一步省显存。 > 相关链接:vLLM 官方线程 1|vLLM 官方线程 2
##### DeepSeek DualPath:用 RDMA 把 KV Cache I/O 瓶颈“拆成两路” 北大/清华/DeepSeek 合作论文 DualPath 提出一种新推理系统,针对代理式 LLM 工作负载下 KV‑Cache 存储带宽成为瓶颈的问题,利用 RDMA 让预填充和解码两类节点协同,把原本闲置的存储和网络带宽用起来,在 DeepSeek 660B 等大模型上声称可获得约 1.9 倍加速。 > 相关链接:DualPath 论文|中文解读串|Reddit 讨论
##### Google Colab 上线 RTX PRO 6000:平价算力新选择 Unsloth 社区发现 Colab 悄悄新增 RTX PRO 6000 实例,价格约 $0.81/小时,相比老的 A100 高内存实例(约 $7.5/h 积分)便宜一个数量级。配合高效微调框架,Colab 重新变成个人研究和小团队做预训练/微调的性价比选项。 > 相关链接:Colab GPU 讨论
##### GPU MODE 深聊 PTX 内存模型与 cuTile/CuTeDSL:从指令到分布式训练 GPU MODE 服务器里,开发者围绕 PTX 的 acquire-release 内存模型和 volatile 语义展开较真,讨论它与分布式一致性模型的关系;同时有人研究 cuTile 和 CuTeDSL,在 Cutlass 示例中用 multimem 指令实现 reduce-scatter,希望实现“算子+通信”融合,为下一代分布式训练内核打基础。 > 相关链接:CuTeDSL 示例仓库|cuTile 文档
---
#### 研究与方法 ##### Logit Fusion 被炒热:用“logits 融合”做训练的新套路 Unsloth 与多社区在讨论 Logit Fusion 训练方法:训练时将多个模型或 checkpoint 的 logits 融合,相当于在训练环里做“集成+课程学习”,而不增加推理开销。很多人呼吁把它做成像 LoRA 一样的一等公民训练方案,用更少基础设施获得更强性能。 > 相关链接:Logit Fusion 笔记|相关讨论(Bluesky)
##### NNsight 0.6 发布:可解释性流水线提速 3 倍,多模态/多机支持 NNsight 0.6 版本重点优化性能,干预 trace 速度提升约 2.4–3.9 倍,并支持 vLLM 多 GPU/多节点。新版本还支持 Hugging Face 上的视觉语言模型和扩散模型,附带“给 LLM 看得懂的文档”,方便用 AI 助手自动写 probe 和干预脚本。 > 相关链接:官方博客|作者 Twitter 介绍
##### CoDA-GQA-L:新注意力结构用两段 Triton kernel 大幅压缩 KV Cache 有开发者开源 CoDA-GQA-L 注意力机制,通过“路标 bank+分组查询”设计,配合两段自写 Triton 融合 kernel,显著降低 KV cache 所需显存,并给出基于 Mistral-7B 的示例模型。但 Eleuther 分析指出,替换 32 层注意力且只微调 18.6% 参数,会让 PPL 从 4.81 升到 5.75,说明该架构仍有精度代价。 > 相关链接:CoDA-GQA-L 论文|Mistral-7B-CoDA 模型
##### 世界模型综述沙龙:从 Sora 到 V‑JEPA,讨论“镜子 vs 地图” Chipro MLOps 社区将围绕《Understanding World or Predicting Future?》办两场 paper clinic,梳理 JEPA/V‑JEPA、Dreamer、Genie、Sora、World Labs 等世界模型路线,并讨论“镜子 vs 地图”(生成 vs 表征)、空间智能、因果建模和社会世界模型,对未来 AGI 研究路线感兴趣的可以报名旁听。 > 相关链接:论文原文|Session 1 报名|Session 2 报名
##### 基准方法之争:Chain-of-Thought 算“模板偏置”吗? Eleuther 社区在争论:多轮 CoT few-shot 是否算“模板作弊”?有人指出,CoT 也是一种强提示,只是因为历史原因被广泛接受,而明说“你正在被测试”的模板反而被嫌弃。讨论的核心是:基准到底要模拟真实用户混乱输入,还是追求可控对比实验。 > 相关链接:Eleuther 讨论记录
---
#### Agent 与工具链 ##### LLM Connection Strings:把模型配置塞进一个 URL OpenRouter 等社区热议 Dan Levy 提的 “LLM Connection Strings”,用类似数据库连接串的 URI 来描述提供商、模型名、参数等,例如 llm://provider/model?...,这样脚本和 Agent 只用一个参数就能切换模型和路由,避免到处写自定义配置和命令行 flag。 > 相关链接:LLM Connection Strings 设计文|OpenRouter 讨论
##### MCP ping 语义踩坑:健康检查都要先 initialize? MCP 官方 Discord 里,大家发现 Python SDK 要求先 initialize 才能 ping,但规范里“still available”措辞又像是给已建立连接用的。Bedrock AgentCore 为做容器健康检查,只好临时创建 session 发送 ping,再销毁,反映标准模糊已经开始影响线上实现。 > 相关链接:MCP ping 规范
##### OpenClaw / Cursor / Claude Code:多 Agent 编码工作流的现实感受 多社区在实测多 Agent 编码:有人用 5–10 个 Agent 帮自己做到 72 天 118 次提交/天,但也抱怨上下文丢失、文件改动冲突严重。Cursor 社区提醒“vibe coding”不适合严肃项目,要把 Agent 当助手而非外包;Claude Code 的多 Agent orchestration 被认可,但不少人觉得自己写 orchestrator+便宜模型更划算。 > 相关链接:高频提交工作流文章|Cursor 社区讨论
---
#### 产品与应用落地 ##### 本地 LLM 选型工具与自托管排行榜:LLmFit + Onyx 上线 社区出现两个面向自托管玩家的工具:LLmFit 号称一键根据你机器配置推荐可跑模型,但用户反馈实际 tok/s 与体验常常对不上;Onyx 则给出自托管 LLM 排行榜,按编码、数学、推理和效率打分,大家呼吁尽快加入 Qwen3.5 27B/122B 等新秀。 > 相关链接:LLmFit Reddit 贴|自托管 LLM 排行榜
##### Claude Code 大型实战:7.6 万行代码跑完发现 118 个函数慢到不行 Codeflash 用 Claude Code 做了两个大功能,共 7.6 万行代码,基准测试后发现 118 个函数最多可以快 446 倍,典型问题是算法幼稚、重复计算、数据结构选得差。总结是:LLM 更擅长“先写对”,但几乎不会自己做性能剖析和优化,必须在流程里强制加基准和 code review。 > 相关链接:SWE-fficiency Benchmark|Reddit 经验贴
##### Nano Banana 系列在生产中的真实体验:空间理解强了,但依旧会“胡说” 多 Reddit 贴对比 Nano Banana 与 Banana Pro:新版本在空间感、比例和复杂场景(如室内改造)上提升明显,但文本相关任务仍会出现严重幻觉。价格上 Banana 2 明显便宜,适合大规模生成;高质量、角色一致性场景仍有人更爱 Banana Pro 或其他图像模型。 > 相关链接:模型对比反馈
---
#### 政策、治理与安全 ##### 美国国防部 vs Anthropic:供应链标签、监控红线与行业寒蝉效应 除了合同纠纷,网上流传国防部考虑把 Anthropic 定性为“国家安全供应链风险”,并要求承包商评估是否使用 Claude。法律界指出,国防部可以限制承包商在军方项目里用什么,但很难合法禁止其在商业项目中用 Anthropic。事件被视为 AI 治理的标志性先例:到底由谁来画“可接受用途”的线。 > 相关链接:Twitter 治理讨论|法律视角解读|社区声援与舆论
##### Gemini / Claude / GPT 越狱与安全过滤:攻防继续升级 BASI Jailbreaking 社区持续在找 Gemini Pro 3/3.1、Grok、Claude、ChatGPT 的新越狱 prompt,甚至有人愿意付费买能在 CS2、Rust 等游戏作弊的 jailbreak。有人感叹“现在 AI 已经很难越狱了”,也有人声称做出“短消息、直给结果”的新越狱,说明厂商对齐在加码,社区攻击也没停。 > 相关链接:BASI 越狱频道
---
---
📌 来源: Easy AI 日报
#EasyAI #AI日报 #AI教学