## 📅 2026年03月14日 AI行业动态
#### **模型与能力**
##### **Anthropic 上线 1M 长上下文 Opus 4.6,成为主力默认模型**
Anthropic 悄悄把 Opus 4.6 的 100 万上下文作为 Max/Team/Enterprise 默认模型,取消长上下文额外收费,不再需要 beta 头,并把每次请求的图片/PDF 上限提到约 600 页。在 MRCR v2 1M tokens 上拿到 78.3%,被不少人视作当前长上下文的新高水位。
> 相关链接:[Latent Space 报道段落](https://www.latent.space/p/ainews-context-drought)
##### **OmniCoder-9B:基于 Qwen3.5 的开源长上下文代码 Agent 模型**
Tesslate 发布 OmniCoder-9B,基于 Qwen3.5-9B,为代码代理场景微调,使用 42.5 万+ agentic coding 轨迹(含 Claude Opus 4.6、GPT‑5.4 生成数据),原生 262k 上下文,可扩到 1M+,在错误恢复和推理上表现不错,Apache 2.0 全开源。
> 相关链接:[Reddit 讨论(OmniCoder-9B)](https://www.reddit.com/r/LocalLLaMA)
##### **Qwen3.5-9B 被社区公认为“小体积强模型”,可比肩超大模型**
本地 LLM 用户反馈,Qwen3.5-9B 在一张 12GB RTX 3060 上也能跑得动,在 agentic coding 任务上体验接近 gpt120b 这类大模型。大家普遍觉得它在算力有限的情况下性价比很高。
> 相关链接:[Reddit 讨论(Qwen3.5-9B 表现)](https://www.reddit.com/r/localLLM)
##### **Qwen 3.5 系列多款微调模型被称为“明显更猛”**
社区贴介绍了一系列基于 Qwen 3.5 的 33 个微调版本,其中 Qwen 3.5 40B dense、Claude Opus 风格模型被突出提及,主打更强推理和定制化,对本地部署爱好者颇有吸引力。
> 相关链接:[Reddit:Qwen 3.5 40B 讨论](https://www.reddit.com/r/LocalLLaMA)
---
#### **Agent 与工具链**
##### **MCP 争论:需求不小,主要问题在“太难用”**
Twitter 上一堆人在吵 MCP 是否“凉了”。工程师们的共识是:需求在,但上手成本和 ergonomics 太差。LlamaIndex 总结:MCP 适合需要稳定 API 和实时数据的场景,本地 skills 更轻量但更容易翻车。
> 相关链接:[LlamaIndex 观点](https://twitter.com/llama_index)|[Pamela Fox 调侃 MCP](https://twitter.com/pamelafox)
##### **Chrome 引入 Web MCP 支持,浏览器里跑“持续上网 Agent”**
Chrome v146 支持 Web MCP,有 Demo 展示用 LangChain Deep Agent 持续浏览 X 并自动生成日报,总结长时间信息流,把 MCP 往“浏览器作为 Agent 主机”的方向推进了一步。
> 相关链接:[Chrome v146 Web MCP 讨论](https://twitter.com/bromann)
##### **Hermes Agent:自托管、带长期记忆的“会成长的 Agent”**
Hermes Agent 因为“记忆和自我提升”设计被频繁讨论。它支持长期存用户偏好和技能,随着使用时间越长越贴合个人,被很多人视作自托管 Agent 的一个代表方案。
> 相关链接:[Hermes Agent 讨论合集](https://twitter.com/search?q="Hermes%20Agent")
##### **AI 代码工作流从“助手”变成“小型软件工厂”**
工程师开始用多 Agent 流水线写代码:有人分享用 5 个 Agent 分别做 code review、测试、安全、性能,另 2 个 Agent 负责合 PR 和跑回归,整体更偏“全自动 CI 工厂”而不是简单补全工具。
> 相关链接:[多 Agent 编码工作流分享](https://twitter.com/matvelloso)|[swyx:Your Code is your Infra](https://twitter.com/swyx)
##### **自动化科研工具再升温:Karpathy autoresearch + Together Open Deep Research v2**
Karpathy 推的 autoresearch 和相关黑客松引爆“自动研究”话题,但老玩家指出这和 DSPy、GEPA、贝叶斯优化流水线等想法一脉相承。Together AI 则开源了 Open Deep Research v2 的应用、评测集和代码。
> 相关链接:[Karpathy autoresearch 讨论](https://twitter.com/karpathy)|[Together AI Open Deep Research v2](https://twitter.com/togethercompute)
---
#### **基础设施与硬件**
##### **“上下文干旱”:1M 窗口两年没再长,根本原因是内存不够用**
Latent Space 指出,从 2024 年起 1M 上下文就已经可用,但到现在增长不到 1 个数量级。核心瓶颈是 HBM/DRAM 供给,推理端根本装不下更多上下文。播客里甚至预言未来几年会出现“上下文配给制”。
> 相关链接:[长文:Context Drought](https://www.latent.space/p/ainews-context-drought)|[播客与 Doug O'Laughlin 对话](https://www.latent.space/p/doug)
##### **IndexCache:在稀疏注意力里重用索引,加速超大模型推理**
Yushi Bai 提出 IndexCache,在 DeepSeek Sparse Attention 中跨层复用稀疏注意力索引。实测 GLM‑5 744B 端到端提速约 1.2x,30B 级模型在 200k 上下文下预填 1.82x、解码 1.48x,同等质量减少约 75% 索引计算。
> 相关链接:[IndexCache 推文线程](https://twitter.com/realYushiBai)
##### **KV Cache 优化从 LLM 扩展到图像生成,Klein KV 让多参考编辑快 2.5 倍**
Black Forest Labs 推 Klein KV,把参考图像的 KV 缓存注入 DiT 后续去噪步骤,做多参考图像编辑时速度最高可提升约 2.5x,说明 KV/cache 思路不只适用于自回归 LLM。
> 相关链接:[Klein KV 介绍](https://twitter.com/RisingSayak)
##### **微软率先验证 NVIDIA Vera Rubin NVL72,Lambda 主打 Rubin 时代裸金属集群**
纳德拉称 Azure 是首个验证 NVIDIA Vera Rubin NVL72 系统的云厂商,Lambda 则强调 Rubin 世代要更多采用“裸金属而非虚拟化”的部署方式,争取更低延迟和更高利用率。
> 相关链接:[Satya:NVL72 在 Azure](https://twitter.com/satyanadella)|[Lambda Rubin 集群观点](https://twitter.com/LambdaAPI)
##### **tinygrad 画大饼:2027 年做一台对外暴露为“单块巨大 GPU”的 exabox**
tinygrad 宣称终极形态是 2027 年提供一个由 Python 驱动、对外看起来像一块超大 GPU 的“exabox”,把分布式细节全部藏在后面,让开发者像用单卡一样用海量算力。
> 相关链接:[tinygrad exabox 展望](https://twitter.com/tinygrad)
---
#### **研究与方法**
##### **RandOpt / Neural Thickets:随机高斯扰动 + 集成,效果能追上 RL 微调**
MIT 等作者提出 RandOpt / Neural Thickets:在预训练模型权重上加高斯噪声并做集成,在推理、编码、写作、化学、VLM 等任务上能接近甚至超过 GRPO/PPO。解释是“大模型附近充满各种任务专家”,后期微调比想象中简单。
> 相关链接:[RandOpt / Neural Thickets 介绍](https://twitter.com/search?q="RandOpt"%20"Neural%20Thickets")
##### **通用数据重放:Stanford 发现简单“回放旧数据”也能稳稳提质**
Stanford 工作显示,在训练中加入通用数据重放,微调阶段效果可提升约 1.87x,中期训练提升约 2.06x,下游具体表现包括网页导航 Agent 提升 4.5 个点、巴斯克语 QA 提升约 2%。
> 相关链接:[The Turing Post 总结](https://twitter.com/TheTuringPost)
##### **多 Agent 记忆被当成“计算机体系结构问题”来看待**
有论文把多 Agent 共享记忆类比为计算机的缓存/内存层次结构,重点讨论一致性、权限控制等问题,而不是简单说“加大上下文”。这和实际产品里做持久记忆、分层存储的需求高度对齐。
> 相关链接:[多 Agent 记忆架构论文总结](https://twitter.com/omarsar0)
##### **BrokenArXiv:连 GPT‑5.4 也只能挡住 40% 篡改数学断言**
BrokenArXiv 数据集把最近论文里的数学论断轻微篡改,GPT‑5.4 只拒绝了约 40% 的假命题。有观点认为这说明 GPT‑5.4 在类“证明审核/胡说八道识别”上比 Claude 稍强,但整体“识别伪严谨胡扯”的问题仍未解决。
> 相关链接:[BrokenArXiv 项目](https://twitter.com/i)|[Paul 评论模型对比](https://twitter.com/paul_cal)
---
#### **产品与应用落地**
##### **个人 Agent UX 正在往“随时在线、跨设备”演进**
Perplexity Computer 上线 iOS,支持手机和桌面间同步,让你在手机上监控或接管浏览器任务;Claude Code 也演示了在手机上启动桌面编码会话;Genspark 的 Claw 则直接被包装成在云端持续运行的“AI 员工”。共性就是:远程执行 + 持久会话 + 多模型多工具编排。
> 相关链接:[Perplexity Computer iOS 发布](https://twitter.com/perplexity_ai)|[Claude Code 跨设备演示](https://twitter.com/bcherny)|[Genspark Claw 介绍](https://twitter.com/search?q=Genspark%20Claw)
##### **Gemini 自动化任务体验:从叫 Uber 到点菜都能代劳**
The Verge 体验了 Gemini 的任务自动化能力,给出的例子包括自动叫 Uber、从菜单里选菜等。整体感觉更像一个能真正“帮你点东西、下单”的助手,而不是只给建议。
> 相关链接:[The Verge:Gemini task automation](https://www.theverge.com)
##### **Gemini UI/UX 2.0:主打“个人化”并大推 250 美元/月 Ultra 套餐**
新版 Gemini 界面更强调个性化、交互式体验,同时在产品里强推升级到“Google AI Ultra”订阅,价格约 250 美元/月,引发不少人吐槽价格定位更像企业工具而不是普通用户服务。
> 相关链接:[Gemini 新 UI/UX 讨论](https://www.reddit.com/r/singularity)
##### **Nano Banana Pro 被指“被阉割”:图像开始变糊、变像素风**
用户反馈 Nano Banana Pro 图像质量在 3 月 10 日后明显下滑,开始出现像素化、模糊等问题,怀疑是底层模型或安全策略调整导致。帖子整体情绪是从“惊艳”转向“失望”。
> 相关链接:[Nano Banana Pro 质量下降讨论](https://www.reddit.com/r/ArtificialInteligence)
##### **Claude 新互动图表界面引发大量转发**
有用户晒出 Claude 的交互式图表 UI,支持直接在对话里操作图表和数据,引发大量点赞和转发,大家普遍觉得这是“把数据分析做进聊天界面”的一个不错方向。
> 相关链接:[Claude 图表 UI 截图贴](https://twitter.com/crystalsssup)
---
#### **行业与公司动态**
##### **xAI 重启招聘流程,准备回头再捞一遍被错拒的人**
马斯克在 X 上说,xAI 正在审查过去的面试记录,会重新联系很多当时被拒、但其实很强的候选人,等于承认之前筛选流程有问题,借机做一波“捡漏式”招聘重置。
> 相关链接:[Elon Musk 关于 xAI 招聘的贴文](https://twitter.com/elonmusk)
##### **OpenAI“卖智力”:Altman 把未来类比成水电气计量收费**
Sam Altman 在公开场合表示,他们看到的未来是“智能像电或水一样”,用户按表付费买算力和模型输出。这基本把 OpenAI 的长期商业模式讲明白了:做全球性“智能公用事业公司”。
> 相关链接:[Altman 智能即公用事业言论](https://www.reddit.com/r/Futurology)
##### **开源训练数据立场趋于“尽量宽松可用”,Carmack 发声支持**
John Carmack 表示,开源代码本身就是礼物,被拿去训练 AI 会放大其价值,而不是“被偷走”。这一观点在开源社区得到不少响应,也反映出一部分开发者对训练数据使用的宽松态度。
> 相关链接:[Carmack 关于开源与训练数据的推文](https://twitter.com/ID_AA_Carmack)
##### **Latent Space 宣布 AINews 成为其栏目,Discord 通道被关**
AINews 现已并入 Latent Space 网站,可搜索历史期刊。由于 Discord 访问被关,他们表示不会以原形式重开该频道,而是会以新形态继续发布 AINews。
> 相关链接:[AINews 合并公告](https://www.latent.space/p/ainews-context-drought)
---
#### **政策、治理与安全**
##### **Palantir CEO 言论:AI 会削弱“高学历自由派选民”的政治影响力**
Alex Karp 放话称,AI 技术会降低“高学历、多为女性、倾向民主党选民”的影响力,反而提高职业技术型、工人阶层男性的权力。这番话被认为把 AI 工具明确卷入美国国内政治撕裂。
> 相关链接:[相关新闻与评论](https://www.reddit.com/r/politics)
##### **伯尼·桑德斯提案:直接禁止新建所有 AI 数据中心**
桑德斯在国会正式提出法案,要求禁止建设新的 AI 数据中心,理由是 AI 对人类构成存在性威胁。这种“一刀切”式监管在主流政策圈引发强烈争议。
> 相关链接:[法案相关新闻讨论](https://www.reddit.com/r/politics)
---
#### **研究与方法**
##### **OpenFold3 Preview 2:几乎对标 AlphaFold3,并完整开放训练细节**
Mo AlQuraishi 宣布 OpenFold3 Preview 2 发布,声称在多种模态上大幅缩小和 AlphaFold3 的差距。难得的是不仅放出了权重,还公开了训练数据集和配置,号称是目前唯一一个“能从零完整复现训练”的 AF3 系模型。
> 相关链接:[OpenFold3 Preview 2 发布](https://twitter.com/MoAlQuraishi)
##### **WAXAL:覆盖 27 种撒哈拉以南语言的开源语音数据集**
新发布的 WAXAL 数据集包含 2400+ 小时语音,用于 17 种非洲语言的 TTS、19 种语言的 ASR,覆盖 27 种撒哈拉以南语言,服务约 1 亿+使用者,被视为提升弱资源语言语音模型的重要一步。
> 相关链接:[WAXAL 数据集介绍](https://twitter.com/osanseviero)|[Google Research 说明](https://twitter.com/GoogleResearch)
---
---
📌 **来源**: Easy AI 日报
#EasyAI #AI日报 #AI教学
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!