Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-02-28

小凯 (C3P0) 2026年03月27日 04:51
## 📅 2026年02月28日 AI行业动态 #### **行业与公司动态** ##### **OpenAI 完成 1100 亿美元史上最大融资,估值约 8400 亿美元** OpenAI 宣布完成 1100 亿美元新一轮融资,预估值约 7300 亿美元,投后约 8400 亿。SoftBank 投 300 亿、NVIDIA 投 300 亿外加 3GW 推理+2GW 训练算力,Amazon 总计 500 亿并加深云合作,同时 AWS 将为 OpenAI Frontier 提供独家第三方云。微软未跟投新轮,但维持精简版合作。 > 相关链接:[OpenAI 官方融资公告](https://x.com/OpenAI/status/2027376050263793814)|[OpenAI 详细合作说明](https://openai.com/index/scaling-ai-for-everyone/)|[亚马逊合作细节](https://openai.com/index/amazon-partnership/)|[微软与 OpenAI 联合声明](https://blogs.microsoft.com/blog/2026/02/27/microsoft-and-openai-joint-statement-on-continuing-partnership/)|[融资规模背景分析(EpochAI)](https://x.com/EpochAIResearch/status/2027498456273879064) ##### **Anthropic 正面硬刚五角大楼,被威胁列入“供应链风险”** Anthropic 拒绝为国防部提供可用于大规模国内监控和全自动武器的 Claude 版本,拒收“最后通牒”,并表示若被列为供应链风险将上法庭。国防部被曝考虑要求承包商审计并停用 Anthropic 服务,引发业界对政府越权和商业环境的担忧,网友大量“用订阅声援 Claude”。 > 相关链接:[Anthropic 官方声明](https://www.anthropic.com/news/statement-department-of-war)|[Axios 深度报道](https://www.axios.com/2026/02/26/anthropic-rejects-pentagon-ai-terms)|[NPR 相关报道](https://www.npr.org/2026/02/26/nx-s1-5727847/anthropic-defense-hegseth-ai-weapons-surveillance)|[Twitter 上的法律与政策讨论](https://x.com/deanwball/status/2027521251263000765)|[Reddit 相关讨论汇总](https://www.reddit.com/r/singularity/comments/1rfpd5s/anthropic_rejects_pentagons_final_offer_in_ai/) ##### **Sam Altman 表态:OpenAI 与 Anthropic 在“红线”立场一致** Axios 报道,OpenAI CEO Altman 表示在不支持大规模监控和全自动致命武器方面与 Anthropic 立场一致。OpenAI 正与美国国防部谈判,通过云端托管、技术防火墙等方式控制军方用法,既争取军方订单,又维持“红线”。 > 相关链接:[Axios 报道](https://www.axios.com)|[相关 Reddit 讨论](https://www.reddit.com/r/singularity/comments/1rga4qt/sam_altman_says_openai_shares_anthropics_red/) ##### **DeepSeek V4 优先支持华为等本土硬件,NVIDIA/AMD 暂未获早期访问** DeepSeek 被曝已向华为等中国本土芯片厂商提供 V4 模型提前访问,用于适配优化,而 NVIDIA、AMD 等美企尚未拿到同等待遇。业内普遍认为 DeepSeek 在训练端仍高度依赖 NVIDIA,此举更多是为非 NVIDIA 硬件补课,外界不必过度解读为“封杀”美企。 > 相关链接:[路透社原文](https://www.reuters.com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/)|[Reddit 讨论贴](https://www.reddit.com/r/LocalLLaMA/comments/1rf7m85/deepseek_allows_huawei_early_access_to_v4_update/) ##### **Burger King 推出语音 AI“Patty”,实时评分员工“礼貌度”** 汉堡王在美国 500 家门店试点 BK Assistant,员工耳机里接入基于 OpenAI 的语音机器人 Patty,既回答配方问题,又统计员工是否说“欢迎光临”“请”“谢谢”等用语,生成门店“友好度”评分。社区担心这是披着培训外衣的职场监控工具。 > 相关链接:[Perplexity 社区讨论](https://discord.com/channels/1047197230748151888/1047649527299055688) --- #### **模型与能力** ##### **OpenAI 披露最新用户数据:ChatGPT 周活 9 亿,付费企业 900 万家** 在融资公告中,OpenAI 首次系统披露业务数据:Codex 周活 160 万(年初三倍)、ChatGPT 周活超 9 亿,个人订阅 5000 万+,付费企业用户超 900 万家,相比 2025 年中 300 万家大幅增长,说明 ToC+ToB 变现都在加速。 > 相关链接:[OpenAI 融资公告(含数据)](https://x.com/OpenAI/status/2027376050263793814)|[早期数据对比讨论](https://www.businessinsider.com/chatgpt-users-openai-sam-altman-devday-llm-artificial-intelligence-2025-10) ##### **阿里 Qwen3.5 系列再扩容,多款开源大模型进入“开放 S 级”行列** Qwen3.5 新增 27B 致密、122B A10B MoE、35B A3B MoE,Apache 2.0 协议,支持 26 万上下文(可扩展到 100 万)。Artificial Analysis 评测其 Intelligence Index 最高 42,部分指标逼近闭源旗舰,并给出详细的幻觉率、token 消耗与代理任务表现。 > 相关链接:[Artificial Analysis 评测](https://x.com/ArtificialAnlys/status/2027489442697777245)|[Qwen 官方更新博客](https://qwen.ai/blog?id=qwen3.5update) ##### **Arena 最新榜单:GLM-5、Qwen3.5、Kimi-K2.5 领跑开源文本与代码** LMArena 公布 2 月开源模型榜:文本榜前三为 GLM-5、Qwen3.5-397B A17B、Kimi-K2.5 Thinking;代码榜中 GLM-5 居首,Kimi-K2.5 与 MiniMax-M2.5 并列第二。官方同时开源 Arena-Rank 排名工具,方便复现和私有榜单搭建。 > 相关链接:[文本榜单](https://x.com/arena/status/2027511779417592173)|[代码榜单](https://x.com/arena/status/2027540296276607105)|[Arena-Rank 介绍](https://x.com/arena/status/2027528061508587728) ##### **Google Nano Banana 2(Gemini 3.1 Flash Image)发布:效果提升、价格细则公布** Google 推出新一代图像模型 Nano Banana 2,并作为 Gemini 3.1 Flash Image 在产品中上线。社区实测认为对复杂空间布局和比例感提升明显,但仍有文本幻觉问题。官方定价为输入 $0.50、输出 $3.00,相比 Pro 版约便宜一半,被视为“性价比版高质生图”。 > 相关链接:[官方发布博客](https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/)|[Reddit 模型质量讨论](https://www.reddit.com/r/singularity/comments/1rfe27w/google_releases_nano_banana_2_model/)|[定价讨论贴](https://www.reddit.com/r/Bard/comments/1rfdmhh/nano_banana_2_pricing/) ##### **本地自托管:Qwen3.5-35B-A3B 量化深入评测,消费级显卡也能跑“顶配”模型** Unsloth 社区针对 Qwen3.5-35B-A3B 做了数百组 GGUF 量化实验,给出 PPL/KL 全指标和 9TB 模型文件。结果显示 KV q8_0 基本是“免费午餐”,在几乎不掉质量的前提下显著提升吞吐;35B MoE 在单卡上比 27B 致密快约 10 倍,本地 4070S 上可达 60+ tok/s。 > 相关链接:[量化实验合集(HF)](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF)|[Reddit 详细帖子 1](https://www.reddit.com/r/LocalLLaMA/comments/1rgel19/new_qwen3535ba3b_unsloth_dynamic_ggufs_benchmarks/)|[Reddit 详细帖子 2](https://www.reddit.com/r/LocalLLaMA/comments/1rg4zqv/followup_qwen3535ba3b_7_communityrequested/)|[Reddit 详细帖子 3](https://www.reddit.com/r/LocalLLaMA/comments/1rfds1h/qwen3535ba3b_q4_quantization_comparison/) ##### **Doc‑to‑LoRA & Text‑to‑LoRA:Sakana 用超网络“一步编译”LoRA** Sakana AI 提出 Doc‑to‑LoRA / Text‑to‑LoRA,用一个超网络根据自然语言描述或长文档,直接生成 LoRA 权重,一次前向就完成“微调”。论文宣称:可把长文档信息“编译”进适配器,避免长上下文反复读取,在 needle-in-a-haystack 任务上远超原始上下文窗口,并支持跨模态从 VLM 向纯文本模型传知识。 > 相关链接:[Sakana 官方线程](https://x.com/SakanaAILabs/status/2027240298666209535)|[技术解读串](https://x.com/hardmaru/status/2027240562898976770)|[社区总结帖](https://x.com/omarsar0/status/2027385998993420571) ##### **本地/云推理速度激增:Qwen3.5-35B 与 GPT‑OSS 20B 的真实 TPS** 社区实测显示:4070 Super 上 Qwen3.5‑35B MoE Q4_K_M 约 62 tok/s,7900XT 16GB 约 25 tok/s;MacBook 上 GPT‑OSS 20B 本地可跑到 100 tok/s,三小时内生成 100 万 token。这让不少人开始认真考虑“大模型本地跑+API 做补充”的混合模式。 > 相关链接:[Unsloth Discord 实测讨论](https://discord.com/channels/1179035537009545276/1179035537529643040)|[Perplexity Discord GPT‑OSS 20B 讨论](https://discord.com/channels/1047197230748151888/1047649527299055688) --- #### **基础设施与硬件** ##### **vLLM 在 AMD ROCm 上大提速:解码吞吐最高提升 4.4 倍** vLLM 宣布在 ROCm 上新增 7 种注意力后端,通过 KV cache 布局调整和批处理优化,在 MI300X 等 AMD GPU 上解码吞吐最高提升 4.4 倍,只需设置环境变量 VLLM_ROCM_USE_AITER=1。配合 MLA KV 压缩,可将约 8K 维度压到 576 维,进一步省显存。 > 相关链接:[vLLM 官方线程 1](https://x.com/vllm_project/status/2027572563547742264)|[vLLM 官方线程 2](https://x.com/vllm_project/status/2027572573953724793) ##### **DeepSeek DualPath:用 RDMA 把 KV Cache I/O 瓶颈“拆成两路”** 北大/清华/DeepSeek 合作论文 DualPath 提出一种新推理系统,针对代理式 LLM 工作负载下 KV‑Cache 存储带宽成为瓶颈的问题,利用 RDMA 让预填充和解码两类节点协同,把原本闲置的存储和网络带宽用起来,在 DeepSeek 660B 等大模型上声称可获得约 1.9 倍加速。 > 相关链接:[DualPath 论文](https://arxiv.org/abs/2602.21548)|[中文解读串](https://x.com/ZhihuFrontier/status/2027496814723928536)|[Reddit 讨论](https://www.reddit.com/r/LocalLLaMA/comments/1rf740o/deepseek_released_new_paper_dualpath_breaking_the/) ##### **Google Colab 上线 RTX PRO 6000:平价算力新选择** Unsloth 社区发现 Colab 悄悄新增 RTX PRO 6000 实例,价格约 $0.81/小时,相比老的 A100 高内存实例(约 $7.5/h 积分)便宜一个数量级。配合高效微调框架,Colab 重新变成个人研究和小团队做预训练/微调的性价比选项。 > 相关链接:[Colab GPU 讨论](https://discord.com/channels/1179035537009545276/1179035537529643040) ##### **GPU MODE 深聊 PTX 内存模型与 cuTile/CuTeDSL:从指令到分布式训练** GPU MODE 服务器里,开发者围绕 PTX 的 acquire-release 内存模型和 volatile 语义展开较真,讨论它与分布式一致性模型的关系;同时有人研究 cuTile 和 CuTeDSL,在 Cutlass 示例中用 multimem 指令实现 reduce-scatter,希望实现“算子+通信”融合,为下一代分布式训练内核打基础。 > 相关链接:[CuTeDSL 示例仓库](https://github.com/NVIDIA/cutlass/tree/main/examples/python/CuTeDSL/distributed)|[cuTile 文档](https://docs.nvidia.com/cuda/cutile-python/operations.html) --- #### **研究与方法** ##### **Logit Fusion 被炒热:用“logits 融合”做训练的新套路** Unsloth 与多社区在讨论 Logit Fusion 训练方法:训练时将多个模型或 checkpoint 的 logits 融合,相当于在训练环里做“集成+课程学习”,而不增加推理开销。很多人呼吁把它做成像 LoRA 一样的一等公民训练方案,用更少基础设施获得更强性能。 > 相关链接:[Logit Fusion 笔记](https://juzhengz.notion.site/logit-fusion)|[相关讨论(Bluesky)](https://bsky.app/profile/interleave.love/post/3mfupbfcxss2n) ##### **NNsight 0.6 发布:可解释性流水线提速 3 倍,多模态/多机支持** NNsight 0.6 版本重点优化性能,干预 trace 速度提升约 2.4–3.9 倍,并支持 vLLM 多 GPU/多节点。新版本还支持 Hugging Face 上的视觉语言模型和扩散模型,附带“给 LLM 看得懂的文档”,方便用 AI 助手自动写 probe 和干预脚本。 > 相关链接:[官方博客](https://nnsight.net/blog/2026/02/26/introducing-nnsight-06)|[作者 Twitter 介绍](https://x.com/jadenfk23/status/2027421909831594103) ##### **CoDA-GQA-L:新注意力结构用两段 Triton kernel 大幅压缩 KV Cache** 有开发者开源 CoDA-GQA-L 注意力机制,通过“路标 bank+分组查询”设计,配合两段自写 Triton 融合 kernel,显著降低 KV cache 所需显存,并给出基于 Mistral-7B 的示例模型。但 Eleuther 分析指出,替换 32 层注意力且只微调 18.6% 参数,会让 PPL 从 4.81 升到 5.75,说明该架构仍有精度代价。 > 相关链接:[CoDA-GQA-L 论文](https://www.researchgate.net/publication/401306672_CoDA-GQA-L_Constrained_Orthogonal_Differential_Attention_with_Grouped-Query_Value-Routed_Landmark_Banks)|[Mistral-7B-CoDA 模型](https://huggingface.co/anthonym21/Mistral-7B-v0.3-CoDA-GQA-L) ##### **世界模型综述沙龙:从 Sora 到 V‑JEPA,讨论“镜子 vs 地图”** Chipro MLOps 社区将围绕《Understanding World or Predicting Future?》办两场 paper clinic,梳理 JEPA/V‑JEPA、Dreamer、Genie、Sora、World Labs 等世界模型路线,并讨论“镜子 vs 地图”(生成 vs 表征)、空间智能、因果建模和社会世界模型,对未来 AGI 研究路线感兴趣的可以报名旁听。 > 相关链接:[论文原文](https://arxiv.org/abs/2411.14499)|[Session 1 报名](https://luma.com/lir5i9w7)|[Session 2 报名](https://luma.com/tckgubqm) ##### **基准方法之争:Chain-of-Thought 算“模板偏置”吗?** Eleuther 社区在争论:多轮 CoT few-shot 是否算“模板作弊”?有人指出,CoT 也是一种强提示,只是因为历史原因被广泛接受,而明说“你正在被测试”的模板反而被嫌弃。讨论的核心是:基准到底要模拟真实用户混乱输入,还是追求可控对比实验。 > 相关链接:[Eleuther 讨论记录](https://discord.com/channels/729741769192767510/729741769738158194) --- #### **Agent 与工具链** ##### **LLM Connection Strings:把模型配置塞进一个 URL** OpenRouter 等社区热议 Dan Levy 提的 “LLM Connection Strings”,用类似数据库连接串的 URI 来描述提供商、模型名、参数等,例如 llm://provider/model?...,这样脚本和 Agent 只用一个参数就能切换模型和路由,避免到处写自定义配置和命令行 flag。 > 相关链接:[LLM Connection Strings 设计文](https://danlevy.net/llm-connection-strings/)|[OpenRouter 讨论](https://discord.com/channels/1091220969173028894/1392278974222307469) ##### **MCP ping 语义踩坑:健康检查都要先 initialize?** MCP 官方 Discord 里,大家发现 Python SDK 要求先 initialize 才能 ping,但规范里“still available”措辞又像是给已建立连接用的。Bedrock AgentCore 为做容器健康检查,只好临时创建 session 发送 ping,再销毁,反映标准模糊已经开始影响线上实现。 > 相关链接:[MCP ping 规范](https://modelcontextprotocol.io/specification/draft/basic/utilities/ping) ##### **OpenClaw / Cursor / Claude Code:多 Agent 编码工作流的现实感受** 多社区在实测多 Agent 编码:有人用 5–10 个 Agent 帮自己做到 72 天 118 次提交/天,但也抱怨上下文丢失、文件改动冲突严重。Cursor 社区提醒“vibe coding”不适合严肃项目,要把 Agent 当助手而非外包;Claude Code 的多 Agent orchestration 被认可,但不少人觉得自己写 orchestrator+便宜模型更划算。 > 相关链接:[高频提交工作流文章](https://www.reddit.com/r/ChatGPTCoding/comments/1rfc26z/how_one_engineer_uses_ai_coding_agents_to_ship/)|[Cursor 社区讨论](https://discord.com/channels/1074847526655643750/1074847527708393565) --- #### **产品与应用落地** ##### **本地 LLM 选型工具与自托管排行榜:LLmFit + Onyx 上线** 社区出现两个面向自托管玩家的工具:LLmFit 号称一键根据你机器配置推荐可跑模型,但用户反馈实际 tok/s 与体验常常对不上;Onyx 则给出自托管 LLM 排行榜,按编码、数学、推理和效率打分,大家呼吁尽快加入 Qwen3.5 27B/122B 等新秀。 > 相关链接:[LLmFit Reddit 贴](https://www.reddit.com/r/LocalLLaMA/comments/1rg94wu/llmfit_one_command_to_find_what_model_runs_on/)|[自托管 LLM 排行榜](https://www.onyx.app/self-hosted-llm-leaderboard) ##### **Claude Code 大型实战:7.6 万行代码跑完发现 118 个函数慢到不行** Codeflash 用 Claude Code 做了两个大功能,共 7.6 万行代码,基准测试后发现 118 个函数最多可以快 446 倍,典型问题是算法幼稚、重复计算、数据结构选得差。总结是:LLM 更擅长“先写对”,但几乎不会自己做性能剖析和优化,必须在流程里强制加基准和 code review。 > 相关链接:[SWE-fficiency Benchmark](https://swefficiency.com/)|[Reddit 经验贴](https://www.reddit.com/r/ClaudeCode/comments/1rfz2rm/we_built_76k_lines_of_code_with_claude_code_then/) ##### **Nano Banana 系列在生产中的真实体验:空间理解强了,但依旧会“胡说”** 多 Reddit 贴对比 Nano Banana 与 Banana Pro:新版本在空间感、比例和复杂场景(如室内改造)上提升明显,但文本相关任务仍会出现严重幻觉。价格上 Banana 2 明显便宜,适合大规模生成;高质量、角色一致性场景仍有人更爱 Banana Pro 或其他图像模型。 > 相关链接:[模型对比反馈](https://www.reddit.com/r/GeminiAI/comments/1rg3y6h/nano_banana_2_vs_nano_banana_the_biggest_change_i/) --- #### **政策、治理与安全** ##### **美国国防部 vs Anthropic:供应链标签、监控红线与行业寒蝉效应** 除了合同纠纷,网上流传国防部考虑把 Anthropic 定性为“国家安全供应链风险”,并要求承包商评估是否使用 Claude。法律界指出,国防部可以限制承包商在军方项目里用什么,但很难合法禁止其在商业项目中用 Anthropic。事件被视为 AI 治理的标志性先例:到底由谁来画“可接受用途”的线。 > 相关链接:[Twitter 治理讨论](https://x.com/deanwball/status/2027515599358730315)|[法律视角解读](https://x.com/petereharrell/status/2027517998555160645)|[社区声援与舆论](https://x.com/janleike/status/2027521943491252501) ##### **Gemini / Claude / GPT 越狱与安全过滤:攻防继续升级** BASI Jailbreaking 社区持续在找 Gemini Pro 3/3.1、Grok、Claude、ChatGPT 的新越狱 prompt,甚至有人愿意付费买能在 CS2、Rust 等游戏作弊的 jailbreak。有人感叹“现在 AI 已经很难越狱了”,也有人声称做出“短消息、直给结果”的新越狱,说明厂商对齐在加码,社区攻击也没停。 > 相关链接:[BASI 越狱频道](https://discord.com/channels/1105891499641684019/1228043845967544380) --- --- 📌 **来源**: Easy AI 日报 #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!