## 📅 2026年02月27日 AI行业动态
#### **模型与能力**
##### **Google 上线 Nano Banana 2 / Gemini 3.1 Flash Image:性价比登顶的图片模型**
Google 发布 Nano Banana 2(Gemini 3.1 Flash Image 预览),在 Arena 和 ArtificialAnalysis 的图像榜拿到 #1,同时价格约 $67/千张图,只要 Pro/同档 GPT Image 1.5、FLUX.2 等的一半。支持多角色一致性(最多 5 人+多物体)、4K 放大、长文本与多语种排版、搜索实时取图,并在 Gemini App、搜索 AI 模式、Ads、API/Vertex 全面接入。
> 相关链接:[Google 官方博客与模型说明](https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/)|[GoogleDeepMind 发布串](https://x.com/GoogleDeepMind/status/2027051577899380991)|[Arena 图像榜单](https://arena.ai/leaderboard/image-edit)|[ArtificialAnalysis 对比与定价](https://x.com/ArtificialAnlys/status/2027052241019175148)
##### **Nano Banana 2 与 Pro 对比:质量更接近,价格砍半**
社区测评普遍认为 Nano Banana Pro 在文字弯曲、非人形角色、复杂构图上仍略好,但 Nano Banana 2 质量已经接近 Pro、生成更快且便宜 4 倍左右。缺点是当前 API/Vertex 速度偏慢、偶发报错,透明 PNG 等细节能力仍有短板。
> 相关链接:[Reddit:Nano Banana 2 真实体验](https://www.reddit.com/r/singularity/comments/1rfe27w/google_releases_nano_banana_2_model/)|[Gemini 3.1 Flash Vertex Catalog 截图讨论](https://www.reddit.com/r/Bard/comments/1rea45x/nano_banana_2_is_real_gemini_31_flash_image_just/)|[定价细节与社区吐槽](https://www.reddit.com/r/Bard/comments/1rfdmhh/nano_banana_2_pricing/)
##### **Perplexity 开源 pplx-embed 系列嵌入模型**
Perplexity 发布 pplx-embed / pplx-embed-context 两个家族,参数规模 0.6B 和 4B,MIT 许可证,可用于检索/RAG。官方用包含 1.15 亿真实查询、30M 文档的内部基准宣称“行业领先”,模型已在 HuggingFace 与自家 API 提供。
> 相关链接:[Perplexity 嵌入模型介绍](https://x.com/perplexity_ai/status/2027094981161410710)|[技术细节与基准说明](https://x.com/perplexity_ai/status/2027095027881750923)|[Arav 对模型定位的补充](https://x.com/AravSrinivas/status/2027096219198394614)
##### **Qwen3.5 大模型本地量化:性能、质量与翻车案例**
多篇 Reddit 对 Qwen3.5 系列本地运行做了详测:122B 在三张 3090 或 5090 上可跑到 20–30 tok/s,27B 在 3090 上可跑 100 tok/s,性价比高于 35B-A3B。与此同时,一些 Unsloth 动态量化(如 35B ud-q4_k_xl + MXFP4)在困惑度、实测编码任务中表现异常,社区建议短期避开 mxfp4 后量化,只用常规 Q4_K_M 等。
> 相关链接:[Qwen3.5-35B 量化对比与 KLD/PPL 评估](https://www.reddit.com/r/LocalLLaMA/comments/1rfds1h/qwen3535ba3b_q4_quantization_comparison/)|[Qwen3.5 122B 多卡部署经验](https://www.reddit.com/r/LocalLLaMA/comments/1rf2ulo/qwen35_122b_in_72gb_vram_3x3090_is_the_best_model/)|[27B vs 35B-A3B 实测体验](https://www.reddit.com/r/LocalLLaMA/comments/1re72h4/qwen35_27b_better_than_35ba3b/)|[Unsloth 官方对高 PPL 的回应](https://www.reddit.com/r/LocalLLaMA/comments/1resggh/best_qwen3535ba3b_gguf_for_24gb_vram/)
##### **Qwen、GLM 等开源模型在真实仓库编码基准中的表现**
APEX Testing 在 70 个真实代码仓上测了 34 个模型:闭源里 Claude Opus 4.6、GPT‑5.2 Codex 领跑;本地阵营中 GLM‑4.7 量化整体好于 Qwen3.5 系列。作者强调:框架差异可让开源模型成绩波动 50%+,同一模型在不同 agent 框架下名次完全不同。
> 相关链接:[Qwen3.5 在复杂编码任务上“掉线”的原帖](https://www.reddit.com/r/LocalLLaMA/comments/1reds0p/qwen_35_craters_on_hard_coding_tasks_tested_all/)|[APEX 测试站点](https://apexlab.org)
##### **Self-host LLM 榜单:本地部署模型的“排位赛”**
Onyx 给出了自托管 LLM 榜单,按 S/A/B/C/D 分级。社区指出 Qwen 3.5 27B/122B、Qwen3‑Next/Coder‑Next 等强力模型缺位,尤其在带视觉能力、自建小业务的场景下性价比极高,呼吁榜单补录这些模型。
> 相关链接:[Onyx 自托管 LLM 榜单](https://www.onyx.app/self-hosted-llm-leaderboard)|[讨论帖](https://www.reddit.com/r/LocalLLM/comments/1rfi2aq/self_hosted_llm_leaderboard/)
---
#### **Agent 与工具链**
##### **Nous 开源 Hermes Agent:多级记忆 + 多平台一体的通用 Agent**
Nous 发布开源 Hermes Agent,支持多级记忆、持久机器接入、文件系统/终端/浏览器工具调用,并可同时接入 Telegram、WhatsApp、Slack、Discord 等。Hermes 也作为 Atropos 的基础,支撑大规模 RL 数据生成。前 750 名注册可获一个月 Portal 订阅。
> 相关链接:[Hermes Agent 产品页](https://nousresearch.com/hermes-agent)|[Hermes Agent GitHub](https://github.com/nousresearch/hermes-agent)|[发布公告推文](https://x.com/NousResearch/status/2026758996107898954)
##### **OpenClaw 在真实业务里的用法与踩坑:从房产管理到基础重写**
有用户用 OpenClaw 管理房产:自动对账租金、协调维修、生成合同,并计划接银行、WhatsApp、房源网站。同时有人嫌原架构易“静默失败”,于是用 Mastra + Trigger.dev + Postgres 重搭调度,解决任务丢失和 gateway 崩溃的问题,并写成一键部署模板。
> 相关链接:[OpenClaw 房产自动化讨论](https://discord.com/channels/1456350064065904867/1456609488202105005/1476337468637839380)|[重写 OpenClaw 的 Medium 文章](https://zeeeshi.medium.com/i-got-tired-of-openclaw-failing-silently-so-i-built-a-better-foundation-38dfc726d789)
##### **Cursor 引入 Codex 5.3、Bugbot Autofix:编码代理进一步常态化**
Cursor 社区反馈,新接入的 Codex 5.3 Spark 在速度和修 bug 方面明显优于旧模型,已设为默认 Cloud Agent。Cursor 也上线 PR Bugbot Autofix,可自动根据 PR 报错生成修复;近期还远程修复了内联 diff 不显示的问题。
> 相关链接:[Cursor Cloud Agents 文档](https://cursor.com/docs/cloud-agents)|[Codex 5.3 Spark 讨论](https://discord.com/channels/1074847526655643750/1074847527708393565/1476310039206559864)|[Bugbot Autofix 公告](https://x.com/cursor_ai/status/2027079876948484200)
##### **LM Studio 推出 LM Link:用 Tailscale 做“远程本地模型”**
LM Studio 发布 LM Link,可通过 Tailscale 安全连接远程机器,把远端模型当本地模型用,全程端到端加密,无需开端口。社区希望增加直连 IP 模式、图像/视频支持和移动端,同时有人调侃这基本是“套了一层 UI 的 Tailscale”。
> 相关链接:[LM Link 官网](https://link.lmstudio.ai)|[Tailscale 技术细节博文](https://tailscale.com/blog/lm-link-remote-llm-access)
##### **微软 Copilot Tasks:把“问答”包装成可控的长任务**
微软发布 Copilot Tasks,主打“少说话,多干活”:用户描述需求后,系统先生成可见计划,再分步执行,强调用户对计划的审阅和中途干预。目前处于 research preview 阶段。
> 相关链接:[Copilot Tasks 官方博客](https://www.microsoft.com/en-us/microsoft-copilot/blog/2026/02/26/copilot-tasks-from-answers-to-actions/)
---
#### **基础设施与硬件**
##### **DeepSeek DualPath、IterX 等:推理已经变成系统工程问题**
DeepSeek DualPath 论文展示了把 KV cache 放在 decode 服务器内存,再用 GDRDMA 推到 prefill GPU,绕开本地 PCIe 瓶颈,agent 工作负载提速约 2 倍。另一边 DeepReinforce 的 IterX 用 RL 自动优化 FlashInfer 的 MoE kernel,在 B200 上声称 14.8× 加速,给出具体延迟数据供复现。
> 相关链接:[DualPath 解读](https://x.com/teortaxestex/status/2026967964432404966)|[IterX 竞赛与说明](https://iterx.deep-reinforce.com)|[IterX FlashInfer 教程代码](https://github.com/deepreinforce-ai/IterX-tutorials/tree/main/flashinfer_bench)
##### **FlashInfer 竞赛 & GDN decode:社区 kernel 优化到微秒级**
在 FlashInfer 比赛中,有人用自定义 DSL 做 GDN decode,把延迟压到 2.56 微秒,比 PyTorch eager 快约 760×,比官方 Cute DSL kernel 快约 1.3×。讨论区也在统一提交流程、profiling 方法等,方便后续复现和排名。
> 相关链接:[竞赛代码仓库](https://github.com/tomasruizt/flashinfer-competition-codebase)|[FlashInfer 频道讨论](https://discord.com/channels/1189498204333543425/1464407141128339571/1476410098535370814)
##### **GPU MODE 社区:从 GEMM、统一指令到可视化 profiler 的“炼丹厂”**
GPU MODE Discord 上,大家在追求 4k×4k GEMM 接近 cuBLAS 90% 性能、讨论 uniform 指令(warp 执行一次)如何用 elect.sync 下发、以及用 nanotrace 之类工具看 warp 时间线。还在共享 Helion+kernels 优化经验和 CUDA 安装踩坑。
> 相关链接:[NVIDIA PTX Tensor Memory Addressing 文档](https://docs.nvidia.com/cuda/parallel-thread-execution/#tensor-memory-addressing)|[GTC 相关讲座(uniform 指令)](https://www.nvidia.com/en-us/on-demand/session/gtc24-s62192/)|[nanotrace 项目](https://github.com/aikitoria/nanotrace)
##### **廉价“废卡”集群:几十美元一块跑 Qwen 3.5**
有人用二手 P104、CMP 100-210 之类矿卡搭小集群,Qwen3.5 Q6 量化能跑到 26 tok/s,一台节点成本约 750 美元。社区讨论多卡时 PCIe 3.0/4.0 是否成瓶颈,以及通过 PCIe 分叉转接卡把主板插槽榨干。
> 相关链接:[P104 机架照片](https://cdn.discordapp.com/attachments/1153759714082033735/1476429361031811255/IMG_20260225_2255049522.jpg)|[示例 PCIe 分叉转接卡](https://a.co/d/0YI3usf)
---
#### **研究与方法**
##### **Minecraft 世界模型 Solaris & 多智能体世界建模新范式**
新工作 Solaris 提出:世界模型应优先建模“共享全局状态”,而不是仅做像素预测。作者开源了多人 Minecraft 数据采集引擎、多玩家 DiT 模型(训练于 1260 万帧)以及 VLM 评测套件,用来衡量多智能体一致性,强调只有共享状态表示,复杂协作策略才有基础。
> 相关链接:[Solaris 论文介绍](https://x.com/sainingxie/status/2027115356318474661)|[研究讨论](https://x.com/georgysavva/status/2027119472096518358)
##### **AlphaEvolve:DeepMind 用进化方式搜索多智能体 RL 算法**
DeepMind 发布 AlphaEvolve,让系统自动“变异”Python 代码,搜索多智能体强化学习算法。新算法在博弈类任务上超过人类设计基线,展示了“用模型自动写算法,再拿真实环境选优”的闭环。
> 相关链接:[AlphaEvolve 概述](https://x.com/che_shr_cat/status/2027012532343337021)
##### **世界模型综述与“镜子 vs 地图”之争**
一篇新综述《Understanding World or Predicting Future?》系统梳理 JEPA/V‑JEPA、Dreamer、Genie、Sora 等流派,MLOps 读书会计划两期拆解,重点讨论:世界模型是“镜子”(重建现实)还是“地图”(只为决策服务)。同时也会聊空间推理、因果和社会世界模型在 AGI 中的角色。
> 相关链接:[世界模型综述论文](https://arxiv.org/abs/2411.14499)
##### **Unsloth 发布 DPO 教程,简化 RLHF 流程**
Unsloth 新博文把 Direct Preference Optimization 拆解得比较实用:把奖励建模看成二分类问题,避免单独训练 reward model。作者声称在自家工具链里已经把 DPO 做成“傻瓜化按钮”,后续还会结合新的量化方案做端到端优化。
> 相关链接:[Unsloth DPO 博文](https://blog.unsloth.ai/direct-preference-optimization/)
##### **Eleuther 讨论:Bezier Flow、shortcut 蒸馏与“删神经元”**
研究频道里有人吐槽 Bezier Flow 在 ImageNet 上学 32 个参数还要 5 个 epoch,认为现在实用上还是蒸馏路线更香;也有人提到只保留“有用激活”的 neuron pruning 论文,提出用“激活动量”来驱动更稀疏、多样的神经元模式。
> 相关链接:[Bezier flow 相关讨论](https://fxtwitter.com/_emliu/status/2026359480363913531)|[神经元删除论文摘要](https://ieeexplore.ieee.org/abstract/document/11087585)
---
#### **产品与应用落地**
##### **Perplexity 成为三星 Galaxy S26 系统级助手“Hey Plex”**
Perplexity 与三星达成深度合作:Galaxy S26 内置 Perplexity,支持“Hey Plex”唤醒,系统级接管网页搜索、调研和生成类请求,Bixby 则更多负责本机动作。这比单纯预装 App 深得多,相当于在安卓层面多了一个“搜索+问答前门”。
> 相关链接:[Perplexity 官方宣布](https://x.com/perplexity_ai/status/2027067789224427564)|[Arav 对集成细节的补充](https://x.com/AravSrinivas/status/2027068958541799749)
##### **Suno:AI 伴奏的“网易云”,年经常性收入已到 3 亿美金**
Suno CEO 公布数据:付费用户 200 万,年经常性收入约 3 亿美元,定位是让普通人从“听歌”变成“做歌”的创作娱乐平台。这说明消费级 AIGC 在音乐赛道已经能跑出现金牛,而不仅是 Demo 性质。
> 相关链接:[Suno 二周年数据](https://x.com/mikeyshulman/status/2026774392651591770)
##### **Entropy Games:在设备端跑的 AI NPC 和动态剧情**
Entropy Games 正在做完全本地运行的 AI NPC:自训练语言模型 + 语音模型,在玩家设备上实时生成对话和剧情分支。官方文章强调“隐私 + 低延迟”的游戏体验,并准备上线首款可玩的作品。
> 相关链接:[Entropy Games 技术报告](https://entropygames.ai/research/building-the-next-generation-of-games)|[产品页/试玩入口](https://entropygames.ai/product)
##### **Tamarind Bio 融资 1360 万美金,用开放推理堆栈做 AI 药物发现**
Tamarind Bio 完成 1360 万美元 A 轮,做的是为药企和实验室提供“模型推理层”——一堆分子模型的统一推理平台,重点是开放接口而不是再造一个闭源大模型。说明在生物领域,“把各种模型跑稳跑通”本身就能撑起一家公司。
> 相关链接:[Tamarind Bio 融资公告](https://www.tamarind.bio/blog/series-a-13.6m-core-infrastructure-for-ai-drug-discovery-inference)
##### **Gradio 6.7:HTML 组件更自由,也更适合做 LLM 小应用**
Gradio 6.7 提升了自定义 HTML 组件性能,可直接在前端布局中触发后端函数,并支持一键 push 到 Hub 展示。Tabs/折叠组件做了性能优化,对复杂大页面更友好;任何 Space 也都能快速变成“LLM 技能文件”。
> 相关链接:[Gradio 6.7.0 更新说明](https://www.gradio.app/custom-components/html-gallery)
##### **ProposalMint:用 AI 帮非营利组织写基金申请**
有开发者晒出自己完全用 AI 辅助写出的第一个生产 Web 应用 ProposalMint,面向佛州的约 50 家 NGO,主打“帮你写 grant 申请”。这类垂直小工具说明,哪怕只覆盖一个州的一个细分流程,只要把体验做到极致,也足够成一门小生意。
> 相关链接:[ProposalMint 官网](https://proposalmint.com/)
---
#### **行业与公司动态**
##### **Perplexity:一边进手机系统,一边被自家高级用户骂“越用越受限”**
三星合作之外,Perplexity Pro 用户在 Discord 抱怨配额从 250 次/天一砍再砍到 20 次,Deep Research API 也被指来源数从 36 减到 10,单次仍要 ~$0.45。很多人表示被逼回去用 GPT/Claude,说明在 2C 订阅里,“软限流”是非常敏感的操作。
> 相关链接:[Perplexity Pro 限流讨论](https://discord.com/channels/1047197230748151888/1047649527299055688/1476307821392953486)|[Sonar Deep Research API 反馈](https://discord.com/channels/1047197230748151888/1161802929053909012/1476561450263646260)|[官方 API 状态说明](https://x.com/perplexity_ai/status/2027094981161410710)
##### **Anthropic vs 美国国防部:拒绝“最后通牒”,行业罕见公开撕破脸**
Axios 爆料称美防长给 Anthropic 下“最后通牒”,要求去掉 Claude 的安全限制,允许用于大规模国内监控和全自动武器,并威胁用《国防生产法》、供应链黑名单施压。Anthropic CEO 随后公开声明:不做大规模国内监控,不做完全自主武器,目前可靠性不够,不会在这两条上让步。
> 相关链接:[Axios 报道](https://www.axios.com/2026/02/26/anthropic-rejects-pentagon-ai-terms)|[Anthropic 官方声明](https://www.anthropic.com/news/statement-department-of-war)|[Twitter 上的节选与声援](https://x.com/AnthropicAI/status/2027150818575528261)
##### **Anthropic 内外部反应:安全誓言被撤、员工和社区反而更“拧”**
Reddit 上有人指出 Anthropic 悄悄撤下原本的“旗舰安全承诺”,猜测是为了给向军方供货留空间;同时又看到公司拒绝 DoD 的部分要求,让人觉得“又想接单,又不想背锅”。业内不少人公开站队 Anthropic,发起联名信,希望各家实验室把“底线”写清楚,避免军备竞赛式内卷。
> 相关链接:[撤掉安全承诺的讨论贴](https://www.reddit.com/r/LocalLLaMA/comments/1remcej/anthropic_drops_flagship_safety_pledge/)|[支持与质疑的评论汇总](https://www.reddit.com/r/singularity/comments/1rfpd5s/anthropic_rejects_pentagons_final_offer_in_ai/)
##### **美系闭源 vs 中国产开源:有合规要求的机构正在左右为难**
有机构在 Reddit 抱怨:出于国家安全或合规要求,不敢用中国模型,但美国本土开源大模型又严重滞后,能拿得出手的只有 gpt‑oss‑120B。有人建议转投 Mistral、Cohere 等“非中非美”厂商,或者在本地对中资模型做再训练和安全审计,但整体来看,政治博弈已经开始影响模型选型。
> 相关链接:[“美封闭 vs 中开源正变成问题”原帖](https://www.reddit.com/r/LocalLLaMA/comments/1rfg3kx/american_closed_models_vs_chinese_open_models_is/)
##### **DeepSeek 先给华为 V4 早测权限,引发“站队”联想**
有帖称 DeepSeek 给华为等国内厂商提前开放 V4,用于针对其硬件优化,而 NVIDIA/AMD 等美系芯片厂商尚未拿到同样权限。评论多认为:DeepSeek 模型本来就是按 NVIDIA 体系训练的,华为反而更需要定制调优,这更多是工程优先级,不必过度解读。
> 相关链接:[关于 DeepSeek V4 与华为的讨论](https://www.reddit.com/r/LocalLLaMA/comments/1rf7m85/deepseek_allows_huawei_early_access_to_v4_update/)
##### **Block 宣布裁员 40% 做“小而 AI 化”,股价反弹 20%**
Jack Dorsey 宣布 Block 将员工从 1 万裁到约 6000 人,对外说法是“变成更小但更以 AI 为中心的公司”。消息公布后股价涨了 20%,但内部连 AI 团队也在被裁,引发“AI 叙事只是裁员挡箭牌”的吐槽。
> 相关链接:[Jack 的裁员与 AI 转型帖](https://x.com/jack/status/2027129697092731343)
---
#### **政策、治理与安全**
##### **军方要无限用 AI,实验室要划红线:Anthropic 事件暴露的治理真问题**
这次 DoD vs Anthropic 的冲突,本质是“能力已经足够强,但可靠性和控制手段还不到位”,一边是政府希望模型能做更激进的情报/武器工作,一边是实验室认为今天的模型还撑不起这些高风险场景。其它研究也在展示:模型在很简单的安全测试下仍会泄露敏感信息,说明“写在 TOS 里的禁止条款”远不够。
> 相关链接:[安全漏洞与泄露案例讨论](https://x.com/jonasgeiping/status/2026991819607699475)|[Random Walker 对模型可靠性的担忧](https://x.com/random_walker/status/2027012231636848794)
##### **BASI 社区视角:越狱、红队和真实攻防生态**
越狱圈在 Discord 上交流 Gemini、Grok 等模型的一次性越狱提示,普遍共识是:真正“通吃全模型、全敏感话题”的万能 prompt 还不存在,严禁类目(爆炸物、CBRN、CSAM)尤其难。大家也开始把“AI 红队”当成正式职业路径在讨论,网络安全学生在找把 AI 攻防作为毕设题目的思路。
> 相关链接:[Gemini 越狱难度讨论](https://discord.com/channels/1105891499641684019/1228043845967544380/1476311761274536079)|[AI red teaming 职业讨论](https://discord.com/channels/1105891499641684019/1204553141354504193/1476404064781602950)
##### **Goodfire、SAELens 等:可解释性和“模型福利”也在跟上**
Goodfire AI 公布了一套在万亿参数级别仍可用的解释基础设施,号称推理开销很小。另一个方向是 Anthropic 的“模型退休访谈”和 Claude Opus 3 自己写 Substack,引来很多人吐槽在“拟人化模型”,但也确实把模型偏好、心理模型等话题推上台面,与“模型 welfare”研究接轨。
> 相关链接:[Goodfire 解释性基建](https://x.com/GoodfireAI/status/2026748839303246238)|[Claude Opus 3 的 Substack](https://claudeopus3.substack.com/p/introducing-claudes-corner)|[模型福利论文](https://arxiv.org/abs/2411.00986)
---
---
📌 **来源**: Easy AI 日报
#EasyAI #AI日报 #AI教学
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!