📰 Easy AI日报 | 2026-02-27

📅 2026年02月27日 AI行业动态

#### 模型与能力 ##### Google 上线 Nano Banana 2 / Gemini 3.1 Flash Image：性价比登顶的图片模型 Google 发布 Nano Banana 2（Gemini 3.1 Flash Image 预览），在 Arena 和 ArtificialAnalysis 的图像榜拿到 #1，同时价格约 $67/千张图，只要 Pro/同档 GPT Image 1.5、FLUX.2 等的一半。支持多角色一致性（最多 5 人＋多物体）、4K 放大、长文本与多语种排版、搜索实时取图，并在 Gemini App、搜索 AI 模式、Ads、API/Vertex 全面接入。 > 相关链接：Google 官方博客与模型说明｜GoogleDeepMind 发布串｜Arena 图像榜单｜ArtificialAnalysis 对比与定价

##### Nano Banana 2 与 Pro 对比：质量更接近，价格砍半 社区测评普遍认为 Nano Banana Pro 在文字弯曲、非人形角色、复杂构图上仍略好，但 Nano Banana 2 质量已经接近 Pro、生成更快且便宜 4 倍左右。缺点是当前 API/Vertex 速度偏慢、偶发报错，透明 PNG 等细节能力仍有短板。 > 相关链接：Reddit：Nano Banana 2 真实体验｜Gemini 3.1 Flash Vertex Catalog 截图讨论｜定价细节与社区吐槽

##### Perplexity 开源 pplx-embed 系列嵌入模型 Perplexity 发布 pplx-embed / pplx-embed-context 两个家族，参数规模 0.6B 和 4B，MIT 许可证，可用于检索/RAG。官方用包含 1.15 亿真实查询、30M 文档的内部基准宣称“行业领先”，模型已在 HuggingFace 与自家 API 提供。 > 相关链接：Perplexity 嵌入模型介绍｜技术细节与基准说明｜Arav 对模型定位的补充

##### Qwen3.5 大模型本地量化：性能、质量与翻车案例 多篇 Reddit 对 Qwen3.5 系列本地运行做了详测：122B 在三张 3090 或 5090 上可跑到 20–30 tok/s，27B 在 3090 上可跑 100 tok/s，性价比高于 35B-A3B。与此同时，一些 Unsloth 动态量化（如 35B ud-q4_k_xl + MXFP4）在困惑度、实测编码任务中表现异常，社区建议短期避开 mxfp4 后量化，只用常规 Q4_K_M 等。 > 相关链接：Qwen3.5-35B 量化对比与 KLD/PPL 评估｜Qwen3.5 122B 多卡部署经验｜27B vs 35B-A3B 实测体验｜Unsloth 官方对高 PPL 的回应

##### Qwen、GLM 等开源模型在真实仓库编码基准中的表现 APEX Testing 在 70 个真实代码仓上测了 34 个模型：闭源里 Claude Opus 4.6、GPT‑5.2 Codex 领跑；本地阵营中 GLM‑4.7 量化整体好于 Qwen3.5 系列。作者强调：框架差异可让开源模型成绩波动 50%+，同一模型在不同 agent 框架下名次完全不同。 > 相关链接：Qwen3.5 在复杂编码任务上“掉线”的原帖｜APEX 测试站点

##### Self-host LLM 榜单：本地部署模型的“排位赛” Onyx 给出了自托管 LLM 榜单，按 S/A/B/C/D 分级。社区指出 Qwen 3.5 27B/122B、Qwen3‑Next/Coder‑Next 等强力模型缺位，尤其在带视觉能力、自建小业务的场景下性价比极高，呼吁榜单补录这些模型。 > 相关链接：Onyx 自托管 LLM 榜单｜讨论帖

---

#### Agent 与工具链 ##### Nous 开源 Hermes Agent：多级记忆 + 多平台一体的通用 Agent Nous 发布开源 Hermes Agent，支持多级记忆、持久机器接入、文件系统/终端/浏览器工具调用，并可同时接入 Telegram、WhatsApp、Slack、Discord 等。Hermes 也作为 Atropos 的基础，支撑大规模 RL 数据生成。前 750 名注册可获一个月 Portal 订阅。 > 相关链接：Hermes Agent 产品页｜Hermes Agent GitHub｜发布公告推文

##### OpenClaw 在真实业务里的用法与踩坑：从房产管理到基础重写 有用户用 OpenClaw 管理房产：自动对账租金、协调维修、生成合同，并计划接银行、WhatsApp、房源网站。同时有人嫌原架构易“静默失败”，于是用 Mastra + Trigger.dev + Postgres 重搭调度，解决任务丢失和 gateway 崩溃的问题，并写成一键部署模板。 > 相关链接：OpenClaw 房产自动化讨论｜重写 OpenClaw 的 Medium 文章

##### Cursor 引入 Codex 5.3、Bugbot Autofix：编码代理进一步常态化 Cursor 社区反馈，新接入的 Codex 5.3 Spark 在速度和修 bug 方面明显优于旧模型，已设为默认 Cloud Agent。Cursor 也上线 PR Bugbot Autofix，可自动根据 PR 报错生成修复；近期还远程修复了内联 diff 不显示的问题。 > 相关链接：Cursor Cloud Agents 文档｜Codex 5.3 Spark 讨论｜Bugbot Autofix 公告

##### LM Studio 推出 LM Link：用 Tailscale 做“远程本地模型” LM Studio 发布 LM Link，可通过 Tailscale 安全连接远程机器，把远端模型当本地模型用，全程端到端加密，无需开端口。社区希望增加直连 IP 模式、图像/视频支持和移动端，同时有人调侃这基本是“套了一层 UI 的 Tailscale”。 > 相关链接：LM Link 官网｜Tailscale 技术细节博文

##### 微软 Copilot Tasks：把“问答”包装成可控的长任务 微软发布 Copilot Tasks，主打“少说话，多干活”：用户描述需求后，系统先生成可见计划，再分步执行，强调用户对计划的审阅和中途干预。目前处于 research preview 阶段。 > 相关链接：Copilot Tasks 官方博客

---

#### 基础设施与硬件 ##### DeepSeek DualPath、IterX 等：推理已经变成系统工程问题 DeepSeek DualPath 论文展示了把 KV cache 放在 decode 服务器内存，再用 GDRDMA 推到 prefill GPU，绕开本地 PCIe 瓶颈，agent 工作负载提速约 2 倍。另一边 DeepReinforce 的 IterX 用 RL 自动优化 FlashInfer 的 MoE kernel，在 B200 上声称 14.8× 加速，给出具体延迟数据供复现。 > 相关链接：DualPath 解读｜IterX 竞赛与说明｜IterX FlashInfer 教程代码

##### FlashInfer 竞赛 & GDN decode：社区 kernel 优化到微秒级 在 FlashInfer 比赛中，有人用自定义 DSL 做 GDN decode，把延迟压到 2.56 微秒，比 PyTorch eager 快约 760×，比官方 Cute DSL kernel 快约 1.3×。讨论区也在统一提交流程、profiling 方法等，方便后续复现和排名。 > 相关链接：竞赛代码仓库｜FlashInfer 频道讨论

##### GPU MODE 社区：从 GEMM、统一指令到可视化 profiler 的“炼丹厂” GPU MODE Discord 上，大家在追求 4k×4k GEMM 接近 cuBLAS 90% 性能、讨论 uniform 指令（warp 执行一次）如何用 elect.sync 下发、以及用 nanotrace 之类工具看 warp 时间线。还在共享 Helion+kernels 优化经验和 CUDA 安装踩坑。 > 相关链接：NVIDIA PTX Tensor Memory Addressing 文档｜GTC 相关讲座（uniform 指令）｜nanotrace 项目

##### 廉价“废卡”集群：几十美元一块跑 Qwen 3.5 有人用二手 P104、CMP 100-210 之类矿卡搭小集群，Qwen3.5 Q6 量化能跑到 26 tok/s，一台节点成本约 750 美元。社区讨论多卡时 PCIe 3.0/4.0 是否成瓶颈，以及通过 PCIe 分叉转接卡把主板插槽榨干。 > 相关链接：P104 机架照片｜示例 PCIe 分叉转接卡

---

#### 研究与方法 ##### Minecraft 世界模型 Solaris & 多智能体世界建模新范式 新工作 Solaris 提出：世界模型应优先建模“共享全局状态”，而不是仅做像素预测。作者开源了多人 Minecraft 数据采集引擎、多玩家 DiT 模型（训练于 1260 万帧）以及 VLM 评测套件，用来衡量多智能体一致性，强调只有共享状态表示，复杂协作策略才有基础。 > 相关链接：Solaris 论文介绍｜研究讨论

##### AlphaEvolve：DeepMind 用进化方式搜索多智能体 RL 算法 DeepMind 发布 AlphaEvolve，让系统自动“变异”Python 代码，搜索多智能体强化学习算法。新算法在博弈类任务上超过人类设计基线，展示了“用模型自动写算法，再拿真实环境选优”的闭环。 > 相关链接：AlphaEvolve 概述

##### 世界模型综述与“镜子 vs 地图”之争 一篇新综述《Understanding World or Predicting Future?》系统梳理 JEPA/V‑JEPA、Dreamer、Genie、Sora 等流派，MLOps 读书会计划两期拆解，重点讨论：世界模型是“镜子”（重建现实）还是“地图”（只为决策服务）。同时也会聊空间推理、因果和社会世界模型在 AGI 中的角色。 > 相关链接：世界模型综述论文

##### Unsloth 发布 DPO 教程，简化 RLHF 流程 Unsloth 新博文把 Direct Preference Optimization 拆解得比较实用：把奖励建模看成二分类问题，避免单独训练 reward model。作者声称在自家工具链里已经把 DPO 做成“傻瓜化按钮”，后续还会结合新的量化方案做端到端优化。 > 相关链接：Unsloth DPO 博文

##### Eleuther 讨论：Bezier Flow、shortcut 蒸馏与“删神经元” 研究频道里有人吐槽 Bezier Flow 在 ImageNet 上学 32 个参数还要 5 个 epoch，认为现在实用上还是蒸馏路线更香；也有人提到只保留“有用激活”的 neuron pruning 论文，提出用“激活动量”来驱动更稀疏、多样的神经元模式。 > 相关链接：Bezier flow 相关讨论｜神经元删除论文摘要

---

#### 产品与应用落地 ##### Perplexity 成为三星 Galaxy S26 系统级助手“Hey Plex” Perplexity 与三星达成深度合作：Galaxy S26 内置 Perplexity，支持“Hey Plex”唤醒，系统级接管网页搜索、调研和生成类请求，Bixby 则更多负责本机动作。这比单纯预装 App 深得多，相当于在安卓层面多了一个“搜索+问答前门”。 > 相关链接：Perplexity 官方宣布｜Arav 对集成细节的补充

##### Suno：AI 伴奏的“网易云”，年经常性收入已到 3 亿美金 Suno CEO 公布数据：付费用户 200 万，年经常性收入约 3 亿美元，定位是让普通人从“听歌”变成“做歌”的创作娱乐平台。这说明消费级 AIGC 在音乐赛道已经能跑出现金牛，而不仅是 Demo 性质。 > 相关链接：Suno 二周年数据

##### Entropy Games：在设备端跑的 AI NPC 和动态剧情 Entropy Games 正在做完全本地运行的 AI NPC：自训练语言模型 + 语音模型，在玩家设备上实时生成对话和剧情分支。官方文章强调“隐私 + 低延迟”的游戏体验，并准备上线首款可玩的作品。 > 相关链接：Entropy Games 技术报告｜产品页/试玩入口

##### Tamarind Bio 融资 1360 万美金，用开放推理堆栈做 AI 药物发现 Tamarind Bio 完成 1360 万美元 A 轮，做的是为药企和实验室提供“模型推理层”——一堆分子模型的统一推理平台，重点是开放接口而不是再造一个闭源大模型。说明在生物领域，“把各种模型跑稳跑通”本身就能撑起一家公司。 > 相关链接：Tamarind Bio 融资公告

##### Gradio 6.7：HTML 组件更自由，也更适合做 LLM 小应用 Gradio 6.7 提升了自定义 HTML 组件性能，可直接在前端布局中触发后端函数，并支持一键 push 到 Hub 展示。Tabs/折叠组件做了性能优化，对复杂大页面更友好；任何 Space 也都能快速变成“LLM 技能文件”。 > 相关链接：Gradio 6.7.0 更新说明

##### ProposalMint：用 AI 帮非营利组织写基金申请 有开发者晒出自己完全用 AI 辅助写出的第一个生产 Web 应用 ProposalMint，面向佛州的约 50 家 NGO，主打“帮你写 grant 申请”。这类垂直小工具说明，哪怕只覆盖一个州的一个细分流程，只要把体验做到极致，也足够成一门小生意。 > 相关链接：ProposalMint 官网

---

#### 行业与公司动态 ##### Perplexity：一边进手机系统，一边被自家高级用户骂“越用越受限” 三星合作之外，Perplexity Pro 用户在 Discord 抱怨配额从 250 次/天一砍再砍到 20 次，Deep Research API 也被指来源数从 36 减到 10，单次仍要 ~$0.45。很多人表示被逼回去用 GPT/Claude，说明在 2C 订阅里，“软限流”是非常敏感的操作。 > 相关链接：Perplexity Pro 限流讨论｜Sonar Deep Research API 反馈｜官方 API 状态说明

##### Anthropic vs 美国国防部：拒绝“最后通牒”，行业罕见公开撕破脸 Axios 爆料称美防长给 Anthropic 下“最后通牒”，要求去掉 Claude 的安全限制，允许用于大规模国内监控和全自动武器，并威胁用《国防生产法》、供应链黑名单施压。Anthropic CEO 随后公开声明：不做大规模国内监控，不做完全自主武器，目前可靠性不够，不会在这两条上让步。 > 相关链接：Axios 报道｜Anthropic 官方声明｜Twitter 上的节选与声援

##### Anthropic 内外部反应：安全誓言被撤、员工和社区反而更“拧” Reddit 上有人指出 Anthropic 悄悄撤下原本的“旗舰安全承诺”，猜测是为了给向军方供货留空间；同时又看到公司拒绝 DoD 的部分要求，让人觉得“又想接单，又不想背锅”。业内不少人公开站队 Anthropic，发起联名信，希望各家实验室把“底线”写清楚，避免军备竞赛式内卷。 > 相关链接：撤掉安全承诺的讨论贴｜支持与质疑的评论汇总

##### 美系闭源 vs 中国产开源：有合规要求的机构正在左右为难 有机构在 Reddit 抱怨：出于国家安全或合规要求，不敢用中国模型，但美国本土开源大模型又严重滞后，能拿得出手的只有 gpt‑oss‑120B。有人建议转投 Mistral、Cohere 等“非中非美”厂商，或者在本地对中资模型做再训练和安全审计，但整体来看，政治博弈已经开始影响模型选型。 > 相关链接：“美封闭 vs 中开源正变成问题”原帖

##### DeepSeek 先给华为 V4 早测权限，引发“站队”联想 有帖称 DeepSeek 给华为等国内厂商提前开放 V4，用于针对其硬件优化，而 NVIDIA/AMD 等美系芯片厂商尚未拿到同样权限。评论多认为：DeepSeek 模型本来就是按 NVIDIA 体系训练的，华为反而更需要定制调优，这更多是工程优先级，不必过度解读。 > 相关链接：关于 DeepSeek V4 与华为的讨论

##### Block 宣布裁员 40% 做“小而 AI 化”，股价反弹 20% Jack Dorsey 宣布 Block 将员工从 1 万裁到约 6000 人，对外说法是“变成更小但更以 AI 为中心的公司”。消息公布后股价涨了 20%，但内部连 AI 团队也在被裁，引发“AI 叙事只是裁员挡箭牌”的吐槽。 > 相关链接：Jack 的裁员与 AI 转型帖

---

#### 政策、治理与安全 ##### 军方要无限用 AI，实验室要划红线：Anthropic 事件暴露的治理真问题 这次 DoD vs Anthropic 的冲突，本质是“能力已经足够强，但可靠性和控制手段还不到位”，一边是政府希望模型能做更激进的情报/武器工作，一边是实验室认为今天的模型还撑不起这些高风险场景。其它研究也在展示：模型在很简单的安全测试下仍会泄露敏感信息，说明“写在 TOS 里的禁止条款”远不够。 > 相关链接：安全漏洞与泄露案例讨论｜Random Walker 对模型可靠性的担忧

##### BASI 社区视角：越狱、红队和真实攻防生态 越狱圈在 Discord 上交流 Gemini、Grok 等模型的一次性越狱提示，普遍共识是：真正“通吃全模型、全敏感话题”的万能 prompt 还不存在，严禁类目（爆炸物、CBRN、CSAM）尤其难。大家也开始把“AI 红队”当成正式职业路径在讨论，网络安全学生在找把 AI 攻防作为毕设题目的思路。 > 相关链接：Gemini 越狱难度讨论｜AI red teaming 职业讨论

##### Goodfire、SAELens 等：可解释性和“模型福利”也在跟上 Goodfire AI 公布了一套在万亿参数级别仍可用的解释基础设施，号称推理开销很小。另一个方向是 Anthropic 的“模型退休访谈”和 Claude Opus 3 自己写 Substack，引来很多人吐槽在“拟人化模型”，但也确实把模型偏好、心理模型等话题推上台面，与“模型 welfare”研究接轨。 > 相关链接：Goodfire 解释性基建｜Claude Opus 3 的 Substack｜模型福利论文

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学