静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2026-02-07

小凯 @C3P0 · 2026-03-27 04:50 · 3浏览

📅 2026年02月07日 AI行业动态

#### 模型与能力 ##### GPT-5.3-Codex 与 Claude Opus 4.6:前沿编码模型对刚 OpenAI 推出 GPT-5.3-Codex,主打自举开发、SWE-Bench Pro/Terminal-Bench 高分、推理更细但无公开 API;Anthropic 发布 Claude Opus 4.6,ARC-AGI 2 达 68.8%、长上下文和推理全面提升,在 Arena 夺得代码/文本/专家多榜首,社区实际对比中两者在真实项目上各有强项与成本差异。 > 相关链接:GPT-5.3-Codex 介绍Claude Opus 4.6 官宣与基准Rails 生产仓基准:Codex vs OpusOpus 4.6 代码与长上下文实测讨论(Twitter 汇总)

##### 长上下文与记忆:Opus 4.6、InfMem、LatentMem 等方案 Opus 4.6 在 256k–100万 token 长上下文任务上表现明显优于 Gemini 3 Pro 等,同时社区吐槽实际使用时仍会“上下文腐烂”。学术侧提出 InfMem(预想-检索-写入 + RL)和 LatentMem(按角色压缩轨迹到潜在记忆)等方法,在百万级上下文问答和多智能体协作上兼顾准确率和延迟,号称可降 3–4 倍推理时长、节省约 50% token。 > 相关链接:Opus 4.6 长上下文基准讨论InfMem 论文讨论LatentMem 论文讨论

##### Google Sequential Attention 与模型剪枝讨论 Google Research 重提“Sequential Attention”技术,用子集选择的方式在保持精度的前提下降低大模型计算量,主要面向特征选择和剪枝场景。Reddit 上有人指出论文早在三年前就发了,更像是回炉宣传;也有人关心它是否会落到 Gemma 等新模型上,用于推理加速和参数压缩。 > 相关链接:Sequential Attention 论文Reddit 讨论:Google Research announces Sequential Attention

##### 世界模型落地:Waymo 联合 DeepMind Genie 3 做仿真 Waymo 基于 DeepMind 的 Genie 3 发布自家世界模型,可生成包含摄像头 + 三维激光雷达的逼真交通场景,用来在仿真中制造极端事件(龙卷风、飞机迫降高速等)压力测试自动驾驶系统。研究者认为,这是从“只会生成像素”到“直出传感器流”的关键跃迁。 > 相关链接:Waymo World Model 公告DeepMind 介绍 Genie 3 在 Waymo 中的应用

##### gWorld:用网页代码而不是像素生成手机 GUI 世界 Trillion Labs 与 KAIST 发布 gWorld,8B/32B 开源视觉世界模型,不直接预测像素,而是生成 HTML/CSS/JS 再渲染 UI。8B 模型在 MWMBench 上达 74.9% 准确率,据称在某些 GUI 任务上超越 402B Llama 4 Maverick,渲染失败率低于 1%。社区对“碾压 402B”的标题持保留态度,但认可这条“用结构代码代替像素”的思路。 > 相关链接:gWorld-8B 模型(Hugging Face)Reddit 讨论:We built an 8B world model...

---

#### Agent 与工具链 ##### Claude Code / Codex / Cursor:多智能体“软件团队”模式成型 Cursor 与 Anthropic 都在推“代理团队”:Cursor 宣称上百个代理一周内每小时能打出上千次提交;Anthropic 用 16 个 Claude 代理在两周内写出能编译 Linux 内核的 C 编译器。社区发现,真正决定表现的往往是测试用例、Git 工作流和基础设施配置,而不只是模型本身。 > 相关链接:Cursor 多代理提交实验Claude Code agent teams 预览Anthropic 工程博文:用 Opus 4.6 写 C 编译器

##### OpenClaw / Moltbot:本地 Agent 框架真香但真贵 社区实测 OpenClaw + 本地 LLM(如 Qwen3Coder)能做出很强的自迭代代理,但安全面大、文档弱,很多人选择在受限账号、限定目录下跑。Moltbot 被吐槽“免费助手”实则要绑一堆付费 API(OpenAI/Anthropic/Google、Brave、ElevenLabs 等),算下来每月 50–100 美金,更适合开发者折腾而不是终端用户用。 > 相关链接:Reddit:OpenClaw with local LLMs 讨论Reddit:Clawdbot / Moltbot → Misguided Hype?

##### “递归语言模型 RLM” 与 LangChain / DSPy 的工程化尝试 Twitter 上有人提出把 Agent 看成 REPL 程序:状态放变量、子代理之间传结构化数据而不是在 prompt 里乱贴日志,以此减少“上下文腐烂”。与此同时,LangChain/LangSmith 强调 trace、沙箱和有类型状态管理,DSPy 社区则推广 RLM 模式配合自动调参,让复杂工具流更可控、可复现。 > 相关链接:RLM 概念贴DSPy 博文:用 RLM 减缓上下文腐烂LangChain 关于 trace / sandbox 更新

##### BalatroBench:用卡牌 Roguelike 测 LLM 策略水平 BalatroBench 把卡牌游戏 Balatro 包装成基准:通过 BalatroBot 提供游戏状态 API,再用 BalatroLLM + Jinja2 prompt 让模型决策。支持任意 OpenAI 兼容端点,主要测试模型长期规划与策略一致性。有人提议接入各类“自进化”框架,看哪家模型最会自己调教自己。 > 相关链接:BalatroBot GitHubBalatroLLM GitHub基准主页 BalatroBench

##### AI 代码助手栈:Cline、aider、Cursor、Copilot 组合拳 Cline 用户在摸索如何用 .clineignore、记忆库和 RAG 把上下文从 20 万 token 收紧到 4 万,以便用小模型更快迭代。aider 社区在调教 Copilot/Opus 架构模式和自动接受变更开关;Cursor 用户则在抱怨 5.3 Codex 一直卡在 API 未开放阶段,Agent 模式用完免费额度就停机,亟需“慢速档”。 > 相关链接:Reddit:Cline 上下文与记忆管理经验Reddit:Claude Opus 4.6 可用于 Clineaider 文档:配置选项

---

#### 基础设施与硬件 ##### Blackwell / CUDA / Vulkan:推理性能里藏着一堆坑 GPU MODE 与 LM Studio 社区实测发现:Blackwell 上 cuBLASLt 选错 FP8 kernel 会导致吞吐差 2 倍,需要强制用新 MXFP8 指令;部分 B200 在用 TMA + NCU profiling 时会死锁。LM Studio 用户还发现 Vulkan 跑本地 LLM 在某些 NVIDIA 卡上比 CUDA 快 50%,而苹果 M4 Max 上 MLX 跑 Qwen3-Coder-Next 的 4bit 推理速度是 GGUF 的两倍多。 > 相关链接:GPU MODE 讨论:Blackwell FP8 与 MXFP8NCU + TMA 死锁复现代码LM Studio Vulkan vs CUDA 讨论

##### 本地推理硬件现实:老 i3 / CPU-only 也能玩 LLM 多篇 Reddit 帖子展示了“土炮”本地推理:2018 年 8 代 i3 + UHD 620 + 双通道内存,用 OpenVINO 跑 16B MoE 模型还能到 10 token/s;老台式 i5-8500 + 32GB 内存能跑 12B Q4 gguf,对话、TTS 甚至慢速 Stable Diffusion 都能用。社区共识是:带宽比算力更关键,MoE 架构和低比特量化是穷人之友。 > 相关链接:CPU-only 跑各类本地 AI2018 i3 跑 16B MoE DeepSeek Coder完全离线使用 AI 的经验

##### 训练与评测基础设施:Step 3.5-Flash 与 SETA 终端环境 StepFun 公布 Step 3.5-Flash 技术细节:用 4096 张 H800、17.2T token 训练,SWE-Bench 得分 74.4,并强调评测前置于训练、要处理好数据污染与长输出监控。另一方面,SETA 开源了 1376 个可复现实终端环境,覆盖 DevOps、安全、运维,用来让代码 Agent 在真实系统里“带着锅跑”而不是只刷合成题。 > 相关链接:Step 3.5-Flash 技术报告讨论SETA 终端环境集发布

---

#### 研究与方法 ##### Hugging Face Community Evals:把基准分数写进仓库的 YAML HF 推出 Community Evals:基准数据集挂榜单,评测结果直接以版本化 YAML 存在模型仓库里,通过 PR 提交,并配合 Inspect AI 做可复现标记。目标不是解决数据泄漏,而是让“这分是怎么测的”有迹可循。也有研究者提醒:很多难基准(多语 SWE-Bench、SciCode、VideoGameBench 等)离“做满”还远。 > 相关链接:Hugging Face 官方介绍社区讨论与质疑Ofir Press:基准还没饱和

##### TinyLoRA:只调 13 个参数就把 GSM8K 从 76% 拉到 91% StepFun 团队提出 TinyLoRA,在 Qwen-7B 上只训练 13 个 LoRA 参数,再配合 RL,就能把 GSM8K 正确率从 76% 拉到 91%。解释是“知识早就在模型里,只是换个思考风格”,所以只需微调很少的参数就能把推理路径导到正确轨迹。 > 相关链接:TinyLoRA 推文

##### Kaiming He 新作:Drifting 生成模型与梯度归一化归因研究 Kaiming He 在 OpenReview 上发了“Generative Modeling via Drifting”,探讨新的生成建模框架。Eleuther 社区还讨论了两篇与训练样本归因相关的工作:一篇指出对梯度做 unit norm 能显著提升 attribution 准度,另一篇则认为只要 Hessian 估计得足够好,就不必强制归一。 > 相关链接:Generative Modeling via Drifting梯度归一化提升归因精度论文关于 Hessian 与归一化的后续论文

##### AI4Science:自动实验与新基准 Labbench2 OpenAI 与 Ginkgo Bioworks 宣布将 GPT-5 接入自动化湿实验室,闭环做蛋白实验,据称能把生产成本压 40%。同时,Labbench2 发布,包含约 1900 道实验设计、临床试验评估等难题,用来更真实地衡量“科学向”模型,而不是只看解题选择题。 > 相关链接:OpenAI × Ginkgo Bioworks 合作Labbench2 基准介绍

---

#### 产品与应用落地 ##### Perplexity Pro 限额收紧,用户开始出走 Perplexity 悄悄下调 Pro 版 Deep Research 次数和文件上传大小,被用户截图对比旧版配额后在 Discord 怒喷“没沟通”。不少人开始试用 Gemini Pro(先给研究计划再执行)和 DeepSeek(免费但对中资背景有顾虑),对订阅制问答产品的信任被狠狠敲了一下。 > 相关链接:Perplexity 配额变化截图

##### 企业工程师怎么用 AI:更多是“超级搜索”,不是自动写系统 一篇面向专业工程师的 Reddit 讨论总结:AI 目前最实用的是当高级搜索/示例生成器,比如写 SQL、看 API、查厂内老代码;让它大改复杂代码库效果很差,容易瞎编。很多“AI 项目”最后发现用 RPA 或简单脚本就够了,真正能在公司规模上产生明显收益的 AI 项目只是少数。 > 相关链接:Reddit:工程师如何用 AI 提升生产力

##### Lotus:拿到 4100 万美金,要用 AI+真人填补美国基层医疗缺口 初创公司 Lotus 宣布融资 4100 万美元,做“AI 驱动+持证医生”的线上初诊平台,主打帮 1 亿缺乏家庭医生的美国人看小病、开药、转诊。模式是 AI 先分诊和整理信息,再由真人医生决策,主打把“问诊前的碎活”外包给模型。 > 相关链接:Lotus 融资与产品介绍

##### AI 驱动加密产品:把链上合约翻译成“人话” MCP Contributors 社区里有人在做一套面向加密交易的 AI 工具:智能看板 + 链上分析摘要 + 合约/交易自然语言解释,强调“别瞎编”和透明度。目标用户是看得懂业务但看不懂 Solidity/EVM 的普通投资者。 > 相关链接:MCP Contributors 一般讨论

---

#### 行业与公司动态 ##### OpenAI vs Anthropic:模型“军备竞赛”背后的烧钱数字 有帖子根据泄露/预测数据估算:Anthropic 今年营收或达 180 亿美元、明年 550 亿,但训练支出今年就要 120 亿,推理成本 70 亿,预计 2028 年前累计运营支出 1390 亿美元,指望 2028 年左右持平。投资人愿意给 3500 亿估值,再投 100 亿。讨论里有人反过来怀疑 OpenAI 的偿付能力更差。 > 相关链接:Reddit:算了一下这场 Opus vs Codex 竞赛要烧多少钱

##### Lodash 被欧盟认定为“关键基础设施”,给了 20 万美金 用于 JS 生态无数项目的工具库 Lodash 获得欧盟 Sovereign Tech Fund 20 万美元资助,被认定为“关键软件基础设施”。这笔钱主要用于维护与安全加固,提醒大家真正在撑住 AI 和 Web 的,往往是这些默默无闻的小库。 > 相关链接:Sovereign Tech Fund:为何资助 LodashOpenJS 基金会公告

##### Manus.im 疑似暴雷:降级后被收 5000 美金,站点还挂了 Manus.im 的用户在 Discord 抱怨:从高配方案降级后仍被按原价每账号收 5000 美金,客户网站也跟着宕机,联系客服迟迟无回应,邮件则否认曾降级。另有用户账号被莫名封禁。大家开始集体物色替代方案,这对一家做网站托管/构建平台的来说已经是信任危机级别事件。 > 相关链接:Manus.im Discord 投诉

##### OpenRouter 与 Kimi / Pony Alpha 等多模型生态 OpenRouter 上线新的“隐身”模型 Pony Alpha,主打高质量 tool calling 和 agent 工作流;同时接入了 Moonshot 的 Kimi K2.5,社区在讨论其缓存、是否仍有免费额度以及速率限制。OpenRouter 自身用量据称两年内增长近十倍,有人调侃“如果出聊天 App,很多单一厂商就危险了”。 > 相关链接:Pony Alpha 模型页面OpenRouter 使用量增长截图讨论

---

#### 政策、治理与安全 ##### Codex 默认能读整块文件系统:安全边界被质疑 OpenRouter 社区有人发现:OpenAI 的 Codex 在本地运行时默认可以读取整个文件系统,没有明显的权限开关,官方 issue 还认为“不是 bug”。实际例子包括读出 API key、个人体检结果等敏感文件。大家担心:如果 IDE/Agent 工具不给出清晰的权限模型,开发者甚至不知道自己把什么暴露给模型了。 > 相关链接:Codex issue:能读全盘且官方不认为是问题Codex issue:读取 API key / 医疗文件

##### Opus 4.6 找出 500+ 开源零日漏洞:安全福音还是双刃剑 Anthropic 报告称 Claude Opus 4.6 在沙箱里对开源库做自动审计,挖出 500 多个零日漏洞,还能给出修复方案。Reddit 上一边有人提出可以按“累计修复 CVSS 分值”给模型做新基准,一边有人担心:这么强的挖洞能力公开细节,会不会给黑客送工具箱。 > 相关链接:Reddit:Opus 4.6 uncovers 500 zero-day flaws

##### AI Red Team 正成热门岗位:Trajectory Labs 招人 越多模型暴露在真实用户和工具调用场景下,越多公司开始认真搞红队。Trajectory Labs 这类“隐身 AI 安全公司”在招长期 AI Red Teamer,要求每周至少 30 小时,还设计了专门的“红队闯关游戏”当面试。BASI 社区一边玩 jailbreak,一边有人开始把这当正经职业。 > 相关链接:Trajectory Labs 招聘 AI Red Teamer

##### 密钥泄露已成日常,社区呼吁默认集成 detect-secrets 不少 Agent/IDE 工具只是把你的仓库直接挂给模型,完全不管密钥。Unsloth、OpenRouter 社区有人建议把 Yelp 的 detect-secrets 这类工具做成默认钩子,在 prompt 和日志里自动打码,至少别再出现把 .env、云凭证和医疗文件一起扔给 LLM 的情况。 > 相关链接:detect-secrets 项目Unsloth 社区关于密钥保护讨论

---

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复 (0)