📰 Easy AI日报 | 2025-11-27

📅 2025年11月27日 AI行业动态

#### Agent与工具生态 ##### Anthropic发布持久化Agent框架与MCP任务协议更新 Anthropic提出持久化Agent实践模式（状态checkpoint、结构化artifacts等）；MCP发布SEP-1686"tasks"支持后台长任务；LangChain明确框架-运行时-harness栈，LangGraph属运行时。 > 相关链接：Anthropic博客总结｜MCP任务公告｜LangChain栈说明

##### Booking.com部署生产级Agent处理客户消息 Booking.com用LangGraph、Kubernetes等构建Agent，每日处理数万条消息，满意度提升70%，使用GPT-4 Mini和Weaviate做语义搜索。 > 相关链接：技术深度解析

##### Perplexity推出Memory功能与虚拟试穿 Perplexity添加用户级Memory（支持查看/删除/禁用），并推出购物虚拟试穿功能，提升用户体验。 > 相关链接：Memory公告｜虚拟试穿功能

---

#### 模型更新与性能 ##### Claude Opus 4.5在基准测试中表现亮眼 Opus 4.5 Thinking在LisanBench排名第一，Code Arena WebDev登顶；非Thinking版本表现下滑，社区反映Python工具滥用问题；Claude.ai自动压缩上下文。 > 相关链接：LisanBench结果｜Code Arena leaderboard｜上下文压缩更新

##### Alibaba开源Z-Image-Turbo文本到图像模型 Alibaba发布6B参数Z-Image-Turbo，基于Qwen3 4B文本编码器，ModelScope限免，Hugging Face Diffusers整合，性能接近Seedream 4.0。 > 相关链接：ModelScope地址｜Reddit讨论

##### FLUX.2系列模型发布 FLUX.2 pro/flex模型加入LMArena，用户反馈视觉质量提升，消除“塑料感”，对比NB Pro有竞争力。 > 相关链接：LMArena公告｜对比图

##### EGGROLL提升进化策略效率 EGGROLL用低秩扰动加速进化策略，支持100k+种群，稳定预训练递归LM，适用于大离散系统。 > 相关链接：技术 overview

##### dnet解决Apple Silicon内存限制 dria的dnet用分布式推理、磁盘流、UMA调度，让Apple Silicon集群运行超内存模型，解决OOM问题。 > 相关链接：公告

---

#### 推理与效率优化 ##### LatentMAS减少多Agent通信token LatentMAS用隐向量代替文本通信，减少70-84%的token，提升4-4.3倍速度，不影响准确性。 > 相关链接：论文｜总结

##### 推理trace蒸馏降低成本用gpt-oss traces训练12B模型，token使用减少4倍，成本降低，避免重复推理。 > 相关链接：总结｜demo

---

#### 多模态与生成模型 ##### PixelDiT优化像素扩散 PixelDiT用双Transformer（patch级和pixel级），ImageNet 256x256 FID 1.61，GenEval 0.74，提升图像生成质量。 > 相关链接：论文

##### Apple发布STARFlow-V视频生成模型 STARFlow-V用归一化流，支持T2V/I2V/V2V，因果预测，flow-score匹配提升一致性。 > 相关链接：论文

##### Z-Image-Turbo开源 Alibaba的6B模型，ModelScope发布，Hugging Face即将上线，电影级审美，蒸馏版更快。 > 相关链接：ModelScope｜Reddit讨论

##### FLUX.2 Pro提升视觉质量 FLUX.2 Pro对比FLUX 1 Pro，消除“塑料感”，细节更丰富。 > 相关链接：对比图

##### Nano Banana 2改进结构化图像 Nano Banana 2在StructBench表现提升，社区分享prompt资源。 > 相关链接：分析｜资源

---

#### 开源生态与评估 ##### HF下载数据显示中国模型增长中国模型下载量占17.1%，超过美国，DeepSeek和Qwen领先，多模态模型流行。 > 相关链接：overview｜thread

##### METR成为可信评估者 METR被从业者认为是最可信的外部评估者，用于模型性能验证。 > 相关链接：comment

##### AI Security Institute发布Anthropic案例研究评估Opus 4.5是否会破坏AI安全研究，结果积极但有 caveats。 > 相关链接：thread

##### Zhihu用Qwen2.5-VL优化多模态推荐 Qwen2.5-VL-72B/3B驱动的 pipeline，LoRA微调，对比embeddings提升7.4% MMEB-eval-zh。 > 相关链接：write-up

##### 新基准测试推出 MultiPathQA（病理导航）、MTBBench（肿瘤决策）、WER is Unaware（临床ASR）等新基准测试发布。 > 相关链接：pathology｜MTBBench｜WER

---

#### Reddit热点 ##### Alibaba Z-Image-Turbo引发讨论用户讨论其性能接近Seedream 4.0，6B参数适合本地部署，社区期待开源。 > 相关链接：Reddit

##### Opus 4.5成功转换ZBar到Swift 6 用户用Opus 4.5将ZBar（Objective-C/C）转换为Swift 6，解决长期bug，其他模型失败。 > 相关链接：Reddit

##### Opus 4.5基准图引发争议用户发布Opus 4.5的SWE-bench accuracy图，80.9%领先，但视觉设计受批评。 > 相关链接：Reddit

##### AI进展图引发讨论 Thomas Pueyo的AI进展图，从“fun toy”到AGI，社区质疑其专业性。 > 相关链接：Reddit

##### AI memes流行 Ilya Sutskever的scaling言论 meme，Grok 4.1的unhinged回复，Gemini 3的讽刺meme引发讨论。 > 相关链接：Singularity｜ChatGPT

---

#### Discord社区讨论 ##### LMArena讨论Flux 2与NB Pro Flux 2模型加入LMArena，用户对比NB Pro，认为NB Pro更优，SynthID防止nerf。 > 相关链接：LMArena Discord｜announcement

##### Perplexity AI讨论Thiel与Nvidia合作用户担心Palantir的Thiel比Musk更具威胁，讨论Nvidia与OpenAI的合作导致泡沫。 > 相关链接：Perplexity Discord

##### Unsloth AI的ERNIE挑战与CPU训练 Unsloth支持ERNIE AI开发者挑战，ES HyperScale提升CPU训练效率，Qwen3微调问题讨论。 > 相关链接：Unsloth Discord｜Devpost

##### Cursor Community的Haiku与linting问题用户认为Haiku适合文档，Composer-1适合代码，讨论linting的red squigglies问题。 > 相关链接：Cursor Discord

##### GPU MODE的Triton与多GPU优化讨论Triton kernels、NVFP4_GEMV leaderboard、NVRAR算法提升多节点推理。 > 相关链接：GPU MODE Discord｜paper

##### OpenAI的ChatGPT偏见与Nano Banana漫画用户讨论ChatGPT的左倾偏见，用Nano Banana生成漫画，担心模型被lobotomize。 > 相关链接：OpenAI Discord｜comic

##### LM Studio的API与硬件问题用户解决API endpoint错误，切换模型解决图像 captioning问题，讨论GPU风扇行为。 > 相关链接：LM Studio Discord｜docs

##### OpenRouter的Opus过载与模型 fallback Opus过载，Deepseek R1下架，模型 fallback逻辑bug影响企业应用。 > 相关链接：OpenRouter Discord｜fallback docs

##### Nous Research的Psyche与Blackwell性能 Psyche办公时间，Suno与Warner合作，Blackwell的INT/FP混合性能问题讨论。 > 相关链接：Nous Discord｜office hours

##### Eleuther的hallucinations与SGD shuffling 讨论多阶段LLM的hallucinations，SGD shuffling的争议，Emergent Misalignment复制。 > 相关链接：Eleuther Discord｜paper

##### Latent Space的Claude Plan Mode与Jeff Dean演讲 Claude Code的Plan Mode升级，DeepMind纪录片，Jeff Dean的15年ML回顾。 > 相关链接：Latent Space Discord｜Sid的post

##### Yannick Kilcher的信息检索与课程学习信息检索讲座，DOE的AI平台，课程学习的争议。 > 相关链接：Yannick Discord｜lecture

##### HuggingFace的Inference API与RapidaAI开源 Inference API灰色问题，RapidaAI开源语音平台，法语书籍数据集发布。 > 相关链接：HuggingFace Discord｜Rapida

##### Modular Mojo的MAX与Python迁移 MAX的examples，Python写MAX的争议，Mojo API的回归讨论。 > 相关链接：Modular Discord

##### tinygrad的TinyJit与随机函数 TinyJit的kernel replay，随机函数的实现，JIT的改进讨论。 > 相关链接：tinygrad Discord｜tutorial

##### Moonshot AI的Kimi limits与canvas Kimi的性能讨论，canvas代替chatbots的建议，conversational fallacy。 > 相关链接：Moonshot Discord

##### DSPy的dspy-cli与web搜索 dspy-cli开源，支持FastAPI和MCP，讨论web搜索API的选择。 > 相关链接：DSPy Discord｜repo

##### MCP Contributors的新协议新协议版本发布，UI SEP out-of-band，namespace collision讨论。 > 相关链接：MCP Discord

##### Manus.im的AI工程师与API问题 AI工程师介绍，用户报告API配额错误，影响500用户。 > 相关链接：Manus Discord

##### aider的基准与Opus调查建议新管理员更新基准，调查Opus 4.5是否为大升级，Bedrock模型错误。 > 相关链接：aider Discord

---

--- *来源：Easy AI 教学项目*

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2025-11-27

📅 2025年11月27日 AI行业动态

🌟 智谱 GLM-5 已上线