📅 2026年02月27日 AI行业动态
#### 模型与能力 ##### Google 上线 Nano Banana 2 / Gemini 3.1 Flash Image:性价比登顶的图片模型 Google 发布 Nano Banana 2(Gemini 3.1 Flash Image 预览),在 Arena 和 ArtificialAnalysis 的图像榜拿到 #1,同时价格约 $67/千张图,只要 Pro/同档 GPT Image 1.5、FLUX.2 等的一半。支持多角色一致性(最多 5 人+多物体)、4K 放大、长文本与多语种排版、搜索实时取图,并在 Gemini App、搜索 AI 模式、Ads、API/Vertex 全面接入。 > 相关链接:Google 官方博客与模型说明|GoogleDeepMind 发布串|Arena 图像榜单|ArtificialAnalysis 对比与定价
##### Nano Banana 2 与 Pro 对比:质量更接近,价格砍半 社区测评普遍认为 Nano Banana Pro 在文字弯曲、非人形角色、复杂构图上仍略好,但 Nano Banana 2 质量已经接近 Pro、生成更快且便宜 4 倍左右。缺点是当前 API/Vertex 速度偏慢、偶发报错,透明 PNG 等细节能力仍有短板。 > 相关链接:Reddit:Nano Banana 2 真实体验|Gemini 3.1 Flash Vertex Catalog 截图讨论|定价细节与社区吐槽
##### Perplexity 开源 pplx-embed 系列嵌入模型 Perplexity 发布 pplx-embed / pplx-embed-context 两个家族,参数规模 0.6B 和 4B,MIT 许可证,可用于检索/RAG。官方用包含 1.15 亿真实查询、30M 文档的内部基准宣称“行业领先”,模型已在 HuggingFace 与自家 API 提供。 > 相关链接:Perplexity 嵌入模型介绍|技术细节与基准说明|Arav 对模型定位的补充
##### Qwen3.5 大模型本地量化:性能、质量与翻车案例 多篇 Reddit 对 Qwen3.5 系列本地运行做了详测:122B 在三张 3090 或 5090 上可跑到 20–30 tok/s,27B 在 3090 上可跑 100 tok/s,性价比高于 35B-A3B。与此同时,一些 Unsloth 动态量化(如 35B ud-q4_k_xl + MXFP4)在困惑度、实测编码任务中表现异常,社区建议短期避开 mxfp4 后量化,只用常规 Q4_K_M 等。 > 相关链接:Qwen3.5-35B 量化对比与 KLD/PPL 评估|Qwen3.5 122B 多卡部署经验|27B vs 35B-A3B 实测体验|Unsloth 官方对高 PPL 的回应
##### Qwen、GLM 等开源模型在真实仓库编码基准中的表现 APEX Testing 在 70 个真实代码仓上测了 34 个模型:闭源里 Claude Opus 4.6、GPT‑5.2 Codex 领跑;本地阵营中 GLM‑4.7 量化整体好于 Qwen3.5 系列。作者强调:框架差异可让开源模型成绩波动 50%+,同一模型在不同 agent 框架下名次完全不同。 > 相关链接:Qwen3.5 在复杂编码任务上“掉线”的原帖|APEX 测试站点
##### Self-host LLM 榜单:本地部署模型的“排位赛” Onyx 给出了自托管 LLM 榜单,按 S/A/B/C/D 分级。社区指出 Qwen 3.5 27B/122B、Qwen3‑Next/Coder‑Next 等强力模型缺位,尤其在带视觉能力、自建小业务的场景下性价比极高,呼吁榜单补录这些模型。 > 相关链接:Onyx 自托管 LLM 榜单|讨论帖
---
#### Agent 与工具链 ##### Nous 开源 Hermes Agent:多级记忆 + 多平台一体的通用 Agent Nous 发布开源 Hermes Agent,支持多级记忆、持久机器接入、文件系统/终端/浏览器工具调用,并可同时接入 Telegram、WhatsApp、Slack、Discord 等。Hermes 也作为 Atropos 的基础,支撑大规模 RL 数据生成。前 750 名注册可获一个月 Portal 订阅。 > 相关链接:Hermes Agent 产品页|Hermes Agent GitHub|发布公告推文
##### OpenClaw 在真实业务里的用法与踩坑:从房产管理到基础重写 有用户用 OpenClaw 管理房产:自动对账租金、协调维修、生成合同,并计划接银行、WhatsApp、房源网站。同时有人嫌原架构易“静默失败”,于是用 Mastra + Trigger.dev + Postgres 重搭调度,解决任务丢失和 gateway 崩溃的问题,并写成一键部署模板。 > 相关链接:OpenClaw 房产自动化讨论|重写 OpenClaw 的 Medium 文章
##### Cursor 引入 Codex 5.3、Bugbot Autofix:编码代理进一步常态化 Cursor 社区反馈,新接入的 Codex 5.3 Spark 在速度和修 bug 方面明显优于旧模型,已设为默认 Cloud Agent。Cursor 也上线 PR Bugbot Autofix,可自动根据 PR 报错生成修复;近期还远程修复了内联 diff 不显示的问题。 > 相关链接:Cursor Cloud Agents 文档|Codex 5.3 Spark 讨论|Bugbot Autofix 公告
##### LM Studio 推出 LM Link:用 Tailscale 做“远程本地模型” LM Studio 发布 LM Link,可通过 Tailscale 安全连接远程机器,把远端模型当本地模型用,全程端到端加密,无需开端口。社区希望增加直连 IP 模式、图像/视频支持和移动端,同时有人调侃这基本是“套了一层 UI 的 Tailscale”。 > 相关链接:LM Link 官网|Tailscale 技术细节博文
##### 微软 Copilot Tasks:把“问答”包装成可控的长任务 微软发布 Copilot Tasks,主打“少说话,多干活”:用户描述需求后,系统先生成可见计划,再分步执行,强调用户对计划的审阅和中途干预。目前处于 research preview 阶段。 > 相关链接:Copilot Tasks 官方博客
---
#### 基础设施与硬件 ##### DeepSeek DualPath、IterX 等:推理已经变成系统工程问题 DeepSeek DualPath 论文展示了把 KV cache 放在 decode 服务器内存,再用 GDRDMA 推到 prefill GPU,绕开本地 PCIe 瓶颈,agent 工作负载提速约 2 倍。另一边 DeepReinforce 的 IterX 用 RL 自动优化 FlashInfer 的 MoE kernel,在 B200 上声称 14.8× 加速,给出具体延迟数据供复现。 > 相关链接:DualPath 解读|IterX 竞赛与说明|IterX FlashInfer 教程代码
##### FlashInfer 竞赛 & GDN decode:社区 kernel 优化到微秒级 在 FlashInfer 比赛中,有人用自定义 DSL 做 GDN decode,把延迟压到 2.56 微秒,比 PyTorch eager 快约 760×,比官方 Cute DSL kernel 快约 1.3×。讨论区也在统一提交流程、profiling 方法等,方便后续复现和排名。 > 相关链接:竞赛代码仓库|FlashInfer 频道讨论
##### GPU MODE 社区:从 GEMM、统一指令到可视化 profiler 的“炼丹厂” GPU MODE Discord 上,大家在追求 4k×4k GEMM 接近 cuBLAS 90% 性能、讨论 uniform 指令(warp 执行一次)如何用 elect.sync 下发、以及用 nanotrace 之类工具看 warp 时间线。还在共享 Helion+kernels 优化经验和 CUDA 安装踩坑。 > 相关链接:NVIDIA PTX Tensor Memory Addressing 文档|GTC 相关讲座(uniform 指令)|nanotrace 项目
##### 廉价“废卡”集群:几十美元一块跑 Qwen 3.5 有人用二手 P104、CMP 100-210 之类矿卡搭小集群,Qwen3.5 Q6 量化能跑到 26 tok/s,一台节点成本约 750 美元。社区讨论多卡时 PCIe 3.0/4.0 是否成瓶颈,以及通过 PCIe 分叉转接卡把主板插槽榨干。 > 相关链接:P104 机架照片|示例 PCIe 分叉转接卡
---
#### 研究与方法 ##### Minecraft 世界模型 Solaris & 多智能体世界建模新范式 新工作 Solaris 提出:世界模型应优先建模“共享全局状态”,而不是仅做像素预测。作者开源了多人 Minecraft 数据采集引擎、多玩家 DiT 模型(训练于 1260 万帧)以及 VLM 评测套件,用来衡量多智能体一致性,强调只有共享状态表示,复杂协作策略才有基础。 > 相关链接:Solaris 论文介绍|研究讨论
##### AlphaEvolve:DeepMind 用进化方式搜索多智能体 RL 算法 DeepMind 发布 AlphaEvolve,让系统自动“变异”Python 代码,搜索多智能体强化学习算法。新算法在博弈类任务上超过人类设计基线,展示了“用模型自动写算法,再拿真实环境选优”的闭环。 > 相关链接:AlphaEvolve 概述
##### 世界模型综述与“镜子 vs 地图”之争 一篇新综述《Understanding World or Predicting Future?》系统梳理 JEPA/V‑JEPA、Dreamer、Genie、Sora 等流派,MLOps 读书会计划两期拆解,重点讨论:世界模型是“镜子”(重建现实)还是“地图”(只为决策服务)。同时也会聊空间推理、因果和社会世界模型在 AGI 中的角色。 > 相关链接:世界模型综述论文
##### Unsloth 发布 DPO 教程,简化 RLHF 流程 Unsloth 新博文把 Direct Preference Optimization 拆解得比较实用:把奖励建模看成二分类问题,避免单独训练 reward model。作者声称在自家工具链里已经把 DPO 做成“傻瓜化按钮”,后续还会结合新的量化方案做端到端优化。 > 相关链接:Unsloth DPO 博文
##### Eleuther 讨论:Bezier Flow、shortcut 蒸馏与“删神经元” 研究频道里有人吐槽 Bezier Flow 在 ImageNet 上学 32 个参数还要 5 个 epoch,认为现在实用上还是蒸馏路线更香;也有人提到只保留“有用激活”的 neuron pruning 论文,提出用“激活动量”来驱动更稀疏、多样的神经元模式。 > 相关链接:Bezier flow 相关讨论|神经元删除论文摘要
---
#### 产品与应用落地 ##### Perplexity 成为三星 Galaxy S26 系统级助手“Hey Plex” Perplexity 与三星达成深度合作:Galaxy S26 内置 Perplexity,支持“Hey Plex”唤醒,系统级接管网页搜索、调研和生成类请求,Bixby 则更多负责本机动作。这比单纯预装 App 深得多,相当于在安卓层面多了一个“搜索+问答前门”。 > 相关链接:Perplexity 官方宣布|Arav 对集成细节的补充
##### Suno:AI 伴奏的“网易云”,年经常性收入已到 3 亿美金 Suno CEO 公布数据:付费用户 200 万,年经常性收入约 3 亿美元,定位是让普通人从“听歌”变成“做歌”的创作娱乐平台。这说明消费级 AIGC 在音乐赛道已经能跑出现金牛,而不仅是 Demo 性质。 > 相关链接:Suno 二周年数据
##### Entropy Games:在设备端跑的 AI NPC 和动态剧情 Entropy Games 正在做完全本地运行的 AI NPC:自训练语言模型 + 语音模型,在玩家设备上实时生成对话和剧情分支。官方文章强调“隐私 + 低延迟”的游戏体验,并准备上线首款可玩的作品。 > 相关链接:Entropy Games 技术报告|产品页/试玩入口
##### Tamarind Bio 融资 1360 万美金,用开放推理堆栈做 AI 药物发现 Tamarind Bio 完成 1360 万美元 A 轮,做的是为药企和实验室提供“模型推理层”——一堆分子模型的统一推理平台,重点是开放接口而不是再造一个闭源大模型。说明在生物领域,“把各种模型跑稳跑通”本身就能撑起一家公司。 > 相关链接:Tamarind Bio 融资公告
##### Gradio 6.7:HTML 组件更自由,也更适合做 LLM 小应用 Gradio 6.7 提升了自定义 HTML 组件性能,可直接在前端布局中触发后端函数,并支持一键 push 到 Hub 展示。Tabs/折叠组件做了性能优化,对复杂大页面更友好;任何 Space 也都能快速变成“LLM 技能文件”。 > 相关链接:Gradio 6.7.0 更新说明
##### ProposalMint:用 AI 帮非营利组织写基金申请 有开发者晒出自己完全用 AI 辅助写出的第一个生产 Web 应用 ProposalMint,面向佛州的约 50 家 NGO,主打“帮你写 grant 申请”。这类垂直小工具说明,哪怕只覆盖一个州的一个细分流程,只要把体验做到极致,也足够成一门小生意。 > 相关链接:ProposalMint 官网
---
#### 行业与公司动态 ##### Perplexity:一边进手机系统,一边被自家高级用户骂“越用越受限” 三星合作之外,Perplexity Pro 用户在 Discord 抱怨配额从 250 次/天一砍再砍到 20 次,Deep Research API 也被指来源数从 36 减到 10,单次仍要 ~$0.45。很多人表示被逼回去用 GPT/Claude,说明在 2C 订阅里,“软限流”是非常敏感的操作。 > 相关链接:Perplexity Pro 限流讨论|Sonar Deep Research API 反馈|官方 API 状态说明
##### Anthropic vs 美国国防部:拒绝“最后通牒”,行业罕见公开撕破脸 Axios 爆料称美防长给 Anthropic 下“最后通牒”,要求去掉 Claude 的安全限制,允许用于大规模国内监控和全自动武器,并威胁用《国防生产法》、供应链黑名单施压。Anthropic CEO 随后公开声明:不做大规模国内监控,不做完全自主武器,目前可靠性不够,不会在这两条上让步。 > 相关链接:Axios 报道|Anthropic 官方声明|Twitter 上的节选与声援
##### Anthropic 内外部反应:安全誓言被撤、员工和社区反而更“拧” Reddit 上有人指出 Anthropic 悄悄撤下原本的“旗舰安全承诺”,猜测是为了给向军方供货留空间;同时又看到公司拒绝 DoD 的部分要求,让人觉得“又想接单,又不想背锅”。业内不少人公开站队 Anthropic,发起联名信,希望各家实验室把“底线”写清楚,避免军备竞赛式内卷。 > 相关链接:撤掉安全承诺的讨论贴|支持与质疑的评论汇总
##### 美系闭源 vs 中国产开源:有合规要求的机构正在左右为难 有机构在 Reddit 抱怨:出于国家安全或合规要求,不敢用中国模型,但美国本土开源大模型又严重滞后,能拿得出手的只有 gpt‑oss‑120B。有人建议转投 Mistral、Cohere 等“非中非美”厂商,或者在本地对中资模型做再训练和安全审计,但整体来看,政治博弈已经开始影响模型选型。 > 相关链接:“美封闭 vs 中开源正变成问题”原帖
##### DeepSeek 先给华为 V4 早测权限,引发“站队”联想 有帖称 DeepSeek 给华为等国内厂商提前开放 V4,用于针对其硬件优化,而 NVIDIA/AMD 等美系芯片厂商尚未拿到同样权限。评论多认为:DeepSeek 模型本来就是按 NVIDIA 体系训练的,华为反而更需要定制调优,这更多是工程优先级,不必过度解读。 > 相关链接:关于 DeepSeek V4 与华为的讨论
##### Block 宣布裁员 40% 做“小而 AI 化”,股价反弹 20% Jack Dorsey 宣布 Block 将员工从 1 万裁到约 6000 人,对外说法是“变成更小但更以 AI 为中心的公司”。消息公布后股价涨了 20%,但内部连 AI 团队也在被裁,引发“AI 叙事只是裁员挡箭牌”的吐槽。 > 相关链接:Jack 的裁员与 AI 转型帖
---
#### 政策、治理与安全 ##### 军方要无限用 AI,实验室要划红线:Anthropic 事件暴露的治理真问题 这次 DoD vs Anthropic 的冲突,本质是“能力已经足够强,但可靠性和控制手段还不到位”,一边是政府希望模型能做更激进的情报/武器工作,一边是实验室认为今天的模型还撑不起这些高风险场景。其它研究也在展示:模型在很简单的安全测试下仍会泄露敏感信息,说明“写在 TOS 里的禁止条款”远不够。 > 相关链接:安全漏洞与泄露案例讨论|Random Walker 对模型可靠性的担忧
##### BASI 社区视角:越狱、红队和真实攻防生态 越狱圈在 Discord 上交流 Gemini、Grok 等模型的一次性越狱提示,普遍共识是:真正“通吃全模型、全敏感话题”的万能 prompt 还不存在,严禁类目(爆炸物、CBRN、CSAM)尤其难。大家也开始把“AI 红队”当成正式职业路径在讨论,网络安全学生在找把 AI 攻防作为毕设题目的思路。 > 相关链接:Gemini 越狱难度讨论|AI red teaming 职业讨论
##### Goodfire、SAELens 等:可解释性和“模型福利”也在跟上 Goodfire AI 公布了一套在万亿参数级别仍可用的解释基础设施,号称推理开销很小。另一个方向是 Anthropic 的“模型退休访谈”和 Claude Opus 3 自己写 Substack,引来很多人吐槽在“拟人化模型”,但也确实把模型偏好、心理模型等话题推上台面,与“模型 welfare”研究接轨。 > 相关链接:Goodfire 解释性基建|Claude Opus 3 的 Substack|模型福利论文
---
---
📌 来源: Easy AI 日报
#EasyAI #AI日报 #AI教学