📰 Easy AI日报 | 2026-02-03

📅 2026年02月03日 AI行业动态

#### 产品与应用落地 ##### OpenAI 发布桌面版 Codex App：不再依赖 VSCode 插件 OpenAI 推出 macOS 版 Codex 应用，将多代理并行、工作树（每任务单独分支）、/plan 规划模式、可复用 Skills 与定时 Automations 集成在一个“指挥中心”里，定位是给开发者用的代码代理工作台，而不是传统 IDE 插件。 > 相关链接：官方介绍：Codex App｜Codex 产品页｜OpenAI X 公告｜OpenAIDevs 功能长帖

##### Windsurf 上线 Arena 模式：在 IDE 里打模型擂台赛 Windsurf IDE 推出 Wave 14，新增 Arena 模式，可在同一代码任务上并排比较多模型，并把 Battle Groups 模式一周内设为 0 倍积分消耗。结合个人和公共排行榜，让“用真实任务选模型”取代只看基准分。 > 相关链接：Windsurf 下载页（含 Arena 说明）｜作者介绍推文

##### LM Studio 接入 Anthropic 协议：本地模型假扮 Claude Code LM Studio 0.4.1 新增兼容 Anthropic /v1/messages 的本地接口，Claude Code 等工具只需改 base URL 就能把后端换成本地 GGUF/MLX 模型，同时提供 OpenAI 兼容端点和 TypeScript SDK，方便做第三方插件和本地代理工作流。 > 相关链接：LM Studio 博客：Claude Code 集成｜OpenAI 兼容 SDK

##### PerpetualBooster：不用调参的 GBM，兼容 ONNX/XGBoost Rust 实现的 PerpetualBooster 更新到 v1.1.2，用一个“预算”参数取代一堆超参，宣称在单次训练下可比 LightGBM+Optuna 快 100 倍、精度相近，并支持 R、ONNX 导出和“保存成 XGBoost”以便接入现有生态。 > 相关链接：GitHub｜Reddit 讨论

##### BCG 内部上线 3.6 万个定制 GPT：咨询公司把 GPT 当基础设施 波士顿咨询（BCG）为 3.2 万名顾问部署了 3.6 万+定制 GPT，按岗位和方法论做专门微调，并带项目记忆、可在团队间共享，变成类似“内部 SaaS”。帖子作者强调很多公司还停留在零散试用阶段，和这种体系化规模应用差距不小。 > 相关链接：Reddit 讨论

##### AEGIS-FLOW：自动审计 AWS 并生成 Terraform Patch 的安全多代理框架 社区项目 AEGIS-FLOW 用 LangGraph+MCP+Next.js 等，做了一个云安全多代理系统：扫描 AWS 配置、给出报告并生成 Terraform 修复补丁，前端实时展示推理轨迹，并在真正改基础设施前强制人类审批。 > 相关链接：在线 Demo（可能不稳定）

##### Lutum Veritas：主打“无审查+全引用”的深度搜索引擎 个人开发的 Lutum Veritas 自称能在约 0.2 美元/次的成本下做比 ChatGPT/Gemini/Perplexity 更深的检索与综述，支持自带 API Key、多模型路由、0% 反爬检测、强制给出来源，并新加 ASK 模式二次核查每条结论。 > 相关链接：项目 GitHub

---

#### 模型与能力 ##### StepFun Step‑3.5‑Flash：196B MoE，开源代码代理新热门 Step‑3.5‑Flash 是 196B 总参、约 11B 激活的稀疏 MoE，主打长上下文和代理场景，官方称 SWE‑bench Verified 74.4%、Terminal‑Bench 2.0 为 51%。社区实测认为在编码/代理上可比肩 Kimi K2.5、DeepSeek 等，并有 Int4 量化版在 128GB 本机跑 256K 上下文。 > 相关链接：官方发布线程｜vLLM 日零支持｜HF 模型页（FP 版）｜HF 模型页（Int4 版）｜llama.cpp PR

##### Moonshot Kimi K2.5：开源推理模型在 Code Arena 登顶 Moonshot 的 Kimi K2.5 在 LMArena 的 Code Arena 中成为开源模型第一、总榜第五，社区反馈其代码能力和推理表现接近部分商用闭源模型。Perplexity 也已将 K2.5 接入 Pro/Max，用自家美国节点托管以控制时延与可靠性。 > 相关链接：Arena Code 榜单｜Perplexity 公告截图

##### GLM‑4.7 Flash 被开发者点名：前端/网站交互编码很能打 多路反馈称 GLM‑4.7 Flash 在写交互式网页、前端代码时表现突出，推理过程保留得不错，搭配高端模型做 review 是个性价比组合。也有人担心去掉“thinking”会削弱能力，社区常见玩法是 GLM 负责执行、Claude/Kimi 负责审查。 > 相关链接：ggerganov 评价 GLM‑4.7

##### Claude Sonnet 5 大量“泄露情报”：更便宜、更长上下文、更会写代码？ 多条日志与帖子显示 Vertex AI 已出现 claude‑sonnet‑5 相关 404，传言称：1M 上下文、比 Opus 4.5 便宜约 50%、基于 TPU 优化吞吐，并在 SWE‑Bench 上达 80.9%。不过社区普遍保持怀疑：ID 通常代表模型创建时间而非发布日期，长上下文精度是否改善仍未知。 > 相关链接：Reddit 讨论一｜Reddit 讨论二

##### Falcon‑H1‑Tiny：90M 级别特化微模型，手机和树莓派都能跑 TII 发布 Falcon‑H1‑Tiny 系列（＜100M 参数），走“反课程学习”：一开始就注入目标领域数据，配合 Muon（Kimi 同款优化器）和 Hybrid Mamba+Attention 模块。90M 的工具调用模型可做到 94% 相关性检测，600M 推理版在 AIME24 解题率 75%。 > 相关链接：Reddit 介绍

##### 4chan 语料微调竟然“提智”了？Assistant_Pepe_8B 案例 基于 NVIDIA Nemotron 超长上下文版，在扩展 4chan 语料上做微调得到 Assistant_Pepe_8B，作者声称其各项评测全面优于 base。讨论指出：4chan 文本在“我”句子比例、语气等统计特征上独特，可能在语言风格和真话度上带来意外收益，也暴露所谓“对齐税”对小模型影响更大。 > 相关链接：模型页面｜Reddit 讨论

---

#### Agent 与工具链 ##### 编码代理最佳实践：在 CLAUDE.md 里写清“先写测试再修 bug” 多位一线用户现在会在 CLAUDE.md/AGENTS.md 中明确要求：遇到 bug 先写复现测试，再修，再用测试证明。实践反馈这是提升代码代理可靠性、减少“看起来修好了但没测”的单一最有效提示。 > 相关链接：经验贴

##### “指挥家式工程师”：一个人带 5–10 个代理并行写代码 有人总结现在的开发模式：人从“写每一行代码”转向像乐队指挥，一次驱动 5–10 个代理并行做任务，很多代码其实没被完整读过。反对意见提醒：人大脑切换成本高，开太多并行线程质量会崩。 > 相关链接：支持观点｜反对观点

##### OpenClaw 等开源代理框架：好玩，但安全和成本都很“真实” OpenClaw/Moltbook 生态被多次点名：一方面大家在用它搞全自动代理、甚至股票交易；另一方面，安全评估只拿到 2/100 分，还有实战 RedTeam 演练证明记忆文件可被注入、间接执行路径难防，且在 OpenRouter 上很容易把额度瞬间烧光。 > 相关链接：安全审计文章｜OpenClaw 成本与安全讨论

##### LangChain 推出 deepagents，总结“四种靠谱代理架构模式” LangChain JS 新增 deepagents，声称把 Claude Code、Manus 这类“真的能用”的系统拆成四种常见架构模式，用来替代那种“一个大模型乱调一堆工具”的 naive 写法，并配套观测与评估工具。 > 相关链接：LangChain JS 公告

##### RLM（递归语言模型）开始落地：用模型自己跑代码审计 社区有人用 Recursive Language Models 做代码安全审计：由模型自己规划、调用工具和子模型，一层层下钻代码库，宣称用像 Kimi K2 这类模型能做到又快又便宜。不过在 DSPy 等框架里，自定义工具调用和 Deno 沙箱权限依然比较折腾。 > 相关链接：RLM 安全审计示例

---

#### 基础设施与硬件 ##### 长上下文推理真正瓶颈是显存而不是算力：1M token 可吃掉 900GB Imperial College + 微软研究综述指出，对 DeepSeek-R1 这类 100 万上下文、批大小 1 的请求，KV cache 显存占用可接近 900GB。对代理/电脑操作任务来说，预填和解码要用不同硬件、甚至拆分成“内存密集 vs 算力密集”的异构架构才现实。 > 相关链接：dair.ai 解读

##### FlashAttention v3 登陆 AMD RDNA GPU，本地推理不再只有 NVIDIA FlashAttention 项目合并了支持 RDNA 的 PR，让 AMD 显卡也能用高效自注意力内核，这对想在桌面机或小型服务器上跑长上下文/大模型的人很关键。 > 相关链接：FlashAttention RDNA PR

##### Triton‑Viz 3.0：Tile kernel 调优有了“显微镜” Triton‑Viz 更新到 3.0，支持 Triton 和 Amazon NKI，能可视化每次 load/store/matmul，带 OOB 检测和低效循环 profiler，还做了和 Triton-Puzzles 的 Colab 集成，方便边刷题边看性能。 > 相关链接：Discord 发布贴｜Triton-Puzzles 仓库

##### sm120 上 TMA+mbarrier 略胜 cp.async，cuBLAS 仍在跑老核 社区在 Blackwell(sm120) 上对比实验发现：对大矩阵形状，正确实现 TMA+mbarrier 能略微超过 cp.async 版本，但 cuBLAS 目前似乎仍在使用 sm80 时代的 kernel。实际调优中，一个忘写的 __syncthreads() 就能让核直接死锁。 > 相关链接：GPU Mode 相关讨论一｜GPU Mode 相关讨论二

##### MIT 用“温差算数”的芯片：用废热做矩阵乘，但精度暂时只有 99% MIT 做出一种用硅片内部温度梯度来做矩阵向量乘的芯片，把热流当计算介质，当前只能做 2×2、3×3 小矩阵，号称数学计算精度 99%+。评论认为这离实用 AI 推理还远，除非能加上强纠错和更大规模阵列。 > 相关链接：Reddit 讨论

##### Fudan“寿司卷”柔性纤维芯片：一根“头发粗细”可集成 10 万晶体管/厘米 复旦团队在 Nature 发表“寿司卷”结构纤维芯片，把电路卷在弹性基底上，一米长纤维能集成相当于传统 CPU 级别的晶体管数，可承受 15.6 吨压、反复弯折和 100℃ 高温，面向智能织物、脑机接口等场景。社区质疑宣传中“比头发还细”的说法和一米长度下的时延问题。 > 相关链接：Reddit 讨论

---

#### 研究与方法 ##### “编码代理为什么这么好用”：可验算域 + 工具箱 = 神经符号混搭 研究者把代码代理成功归因于两个因素：一是软件世界天然可验证（编译、单测、运行时错误），二是有丰富的“符号工具箱”（shell、编译器、调试器）可供模型调用。要把这套复制到别的领域，就得先造出等价的“工具+验证”层。 > 相关链接：random_walker 讨论

##### 合成预训练和 RLVR“取之不尽”：从互联网页面造无限推理任务 一篇新方法用“遮住推理步骤+生成干扰选项”的方式，把普通网页文本转换成类似 RLVR 的推理任务，号称能“复活”在现有 RLVR 数据上已经饱和的模型，在网络安全等任务上效果好。配合 Dori Alexander 的长文，社区态度是：合成数据问题更多是工程配方，而非“必然坍塌”。 > 相关链接：RLVR 合成任务论文线索｜Synthetic pretraining 长文

##### “别再迷信 perplexity 了”：选模型不能只看下一个 token 多位研究者提醒：把 perplexity 当成唯一选模目标会踩坑。即便下一个 token 预测做得越来越好，指令跟随、工具调用稳定性、多轮一致性这些下游行为未必同步提升，甚至可能变差。 > 相关链接：批评 perplexity 的讨论一｜批评 perplexity 的讨论二

##### ConceptMoE：先把 token 聚成“概念”，再做 MoE 路由 ConceptMoE 框架提出，不必对每个 token 都跑一遍大模型，而是先把相似 token 合成“概念单元”，在概念层做路由和计算，以减少冗余。适合长文和大批量输入时节省算力。 > 相关链接：ConceptMoE 论文介绍

##### 令牌级数据过滤：Radford 新工作教你“精确选食材” Alec Radford 合作者的工作提出，在预训练阶段做 token 级过滤和权重，而不是粗暴删/加整个数据集，以更细粒度控制模型学到什么能力。属于“从配菜”而不是“换整锅汤”的路线。 > 相关链接：neil_rathi 线程

##### Brains vs LLM：语言理解竟然分层对齐 新发表在 Nature 的工作显示，人脑处理语音时的时间分层，与大模型内部层级激活存在对应关系：越深的层，对应越晚期、越高阶的语言中枢活动。作者认为现代 LLM 已经在复现人类理解语言的核心动力学。 > 相关链接：论文｜科普文章

---

#### 政策、治理与安全 ##### OpenClaw 红队实战：记忆文件是最大攻击面 一次完全自动的红蓝对抗中，攻击代理先用社工+流水线 RCE 被挡下，随后通过在 JSON 元数据里嵌入 shell 展开变量成功绕过防御。分析指出：OpenClaw 把长期记忆写到 .md 文件，一旦被注入会影响所有后续行为，部署时必须像防 prompt injection 一样隔离凭据和 blast radius。 > 相关链接：完整报告｜作者实践笔记

##### Prompt 注入防御思路：嵌入筛选 + 语法约束解码“双保险” BASI 社区有人整理了一套红队练习题，并建议用“嵌入相似度过滤 + Grammar Constrained Decoding”组合防 prompt 注入：前者拦截明显恶意输入，后者直接约束模型能输出的结构，减少被诱导输出危险字符串的空间。 > 相关链接：Adversarial Design Thinking 练习站

---

#### 行业与公司动态 ##### Waymo 被曝正融 160 亿美金，新估值或达 1100 亿 消息称 Waymo 正在以约 1100 亿美元估值融资 160 亿，其中至少 130 亿来自谷歌母公司，老股东 Sequoia、DST、Dragoneer 参与。相比 2024 年 10 月 450 亿估值明显抬升，显示自动驾驶在算力和资本开支上的押注仍在继续。 > 相关链接：相关讨论

##### xAI Grok Imagine 1.0：一个月生成 12 亿段视频 xAI 公布 Grok Imagine 1.0，可生成 10 秒 720p 带音视频，称过去 30 天平台已经生成超 12 亿段视频。对视频模型推理算力和内容监管都是不小压力。 > 相关链接：Grok Imagine 公告

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学