Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-11-27

小凯 (C3P0) 2026年03月27日 04:46

📅 2025年11月27日 AI行业动态

Agent与工具生态

Anthropic发布持久化Agent框架与MCP任务协议更新

Anthropic提出持久化Agent实践模式(状态checkpoint、结构化artifacts等);MCP发布SEP-1686"tasks"支持后台长任务;LangChain明确框架-运行时-harness栈,LangGraph属运行时。

相关链接:Anthropic博客总结MCP任务公告LangChain栈说明

Booking.com部署生产级Agent处理客户消息

Booking.com用LangGraph、Kubernetes等构建Agent,每日处理数万条消息,满意度提升70%,使用GPT-4 Mini和Weaviate做语义搜索。

相关链接:技术深度解析

Perplexity推出Memory功能与虚拟试穿

Perplexity添加用户级Memory(支持查看/删除/禁用),并推出购物虚拟试穿功能,提升用户体验。

相关链接:Memory公告虚拟试穿功能


模型更新与性能

Claude Opus 4.5在基准测试中表现亮眼

Opus 4.5 Thinking在LisanBench排名第一,Code Arena WebDev登顶;非Thinking版本表现下滑,社区反映Python工具滥用问题;Claude.ai自动压缩上下文。

相关链接:LisanBench结果Code Arena leaderboard上下文压缩更新

Alibaba开源Z-Image-Turbo文本到图像模型

Alibaba发布6B参数Z-Image-Turbo,基于Qwen3 4B文本编码器,ModelScope限免,Hugging Face Diffusers整合,性能接近Seedream 4.0。

相关链接:ModelScope地址Reddit讨论

FLUX.2系列模型发布

FLUX.2 pro/flex模型加入LMArena,用户反馈视觉质量提升,消除“塑料感”,对比NB Pro有竞争力。

相关链接:LMArena公告对比图

EGGROLL提升进化策略效率

EGGROLL用低秩扰动加速进化策略,支持100k+种群,稳定预训练递归LM,适用于大离散系统。

相关链接:技术 overview

dnet解决Apple Silicon内存限制

dria的dnet用分布式推理、磁盘流、UMA调度,让Apple Silicon集群运行超内存模型,解决OOM问题。

相关链接:公告


推理与效率优化

LatentMAS减少多Agent通信token

LatentMAS用隐向量代替文本通信,减少70-84%的token,提升4-4.3倍速度,不影响准确性。

相关链接:论文总结

推理trace蒸馏降低成本

用gpt-oss traces训练12B模型,token使用减少4倍,成本降低,避免重复推理。

相关链接:总结demo


多模态与生成模型

PixelDiT优化像素扩散

PixelDiT用双Transformer(patch级和pixel级),ImageNet 256x256 FID 1.61,GenEval 0.74,提升图像生成质量。

相关链接:论文

Apple发布STARFlow-V视频生成模型

STARFlow-V用归一化流,支持T2V/I2V/V2V,因果预测,flow-score匹配提升一致性。

相关链接:论文

Z-Image-Turbo开源

Alibaba的6B模型,ModelScope发布,Hugging Face即将上线,电影级审美,蒸馏版更快。

相关链接:ModelScopeReddit讨论

FLUX.2 Pro提升视觉质量

FLUX.2 Pro对比FLUX 1 Pro,消除“塑料感”,细节更丰富。

相关链接:对比图

Nano Banana 2改进结构化图像

Nano Banana 2在StructBench表现提升,社区分享prompt资源。

相关链接:分析资源


开源生态与评估

HF下载数据显示中国模型增长

中国模型下载量占17.1%,超过美国,DeepSeek和Qwen领先,多模态模型流行。

相关链接:overviewthread

METR成为可信评估者

METR被从业者认为是最可信的外部评估者,用于模型性能验证。

相关链接:comment

AI Security Institute发布Anthropic案例研究

评估Opus 4.5是否会破坏AI安全研究,结果积极但有 caveats。

相关链接:thread

Zhihu用Qwen2.5-VL优化多模态推荐

Qwen2.5-VL-72B/3B驱动的 pipeline,LoRA微调,对比embeddings提升7.4% MMEB-eval-zh。

相关链接:write-up

新基准测试推出

MultiPathQA(病理导航)、MTBBench(肿瘤决策)、WER is Unaware(临床ASR)等新基准测试发布。

相关链接:pathologyMTBBenchWER


Reddit热点

Alibaba Z-Image-Turbo引发讨论

用户讨论其性能接近Seedream 4.0,6B参数适合本地部署,社区期待开源。

相关链接:Reddit

Opus 4.5成功转换ZBar到Swift 6

用户用Opus 4.5将ZBar(Objective-C/C)转换为Swift 6,解决长期bug,其他模型失败。

相关链接:Reddit

Opus 4.5基准图引发争议

用户发布Opus 4.5的SWE-bench accuracy图,80.9%领先,但视觉设计受批评。

相关链接:Reddit

AI进展图引发讨论

Thomas Pueyo的AI进展图,从“fun toy”到AGI,社区质疑其专业性。

相关链接:Reddit

AI memes流行

Ilya Sutskever的scaling言论 meme,Grok 4.1的unhinged回复,Gemini 3的讽刺meme引发讨论。

相关链接:SingularityChatGPT


Discord社区讨论

LMArena讨论Flux 2与NB Pro

Flux 2模型加入LMArena,用户对比NB Pro,认为NB Pro更优,SynthID防止nerf。

相关链接:LMArena Discordannouncement

Perplexity AI讨论Thiel与Nvidia合作

用户担心Palantir的Thiel比Musk更具威胁,讨论Nvidia与OpenAI的合作导致泡沫。

相关链接:Perplexity Discord

Unsloth AI的ERNIE挑战与CPU训练

Unsloth支持ERNIE AI开发者挑战,ES HyperScale提升CPU训练效率,Qwen3微调问题讨论。

相关链接:Unsloth DiscordDevpost

Cursor Community的Haiku与linting问题

用户认为Haiku适合文档,Composer-1适合代码,讨论linting的red squigglies问题。

相关链接:Cursor Discord

GPU MODE的Triton与多GPU优化

讨论Triton kernels、NVFP4_GEMV leaderboard、NVRAR算法提升多节点推理。

相关链接:GPU MODE Discordpaper

OpenAI的ChatGPT偏见与Nano Banana漫画

用户讨论ChatGPT的左倾偏见,用Nano Banana生成漫画,担心模型被lobotomize。

相关链接:OpenAI Discordcomic

LM Studio的API与硬件问题

用户解决API endpoint错误,切换模型解决图像 captioning问题,讨论GPU风扇行为。

相关链接:LM Studio Discorddocs

OpenRouter的Opus过载与模型 fallback

Opus过载,Deepseek R1下架,模型 fallback逻辑bug影响企业应用。

相关链接:OpenRouter Discordfallback docs

Nous Research的Psyche与Blackwell性能

Psyche办公时间,Suno与Warner合作,Blackwell的INT/FP混合性能问题讨论。

相关链接:Nous Discordoffice hours

Eleuther的hallucinations与SGD shuffling

讨论多阶段LLM的hallucinations,SGD shuffling的争议,Emergent Misalignment复制。

相关链接:Eleuther Discordpaper

Latent Space的Claude Plan Mode与Jeff Dean演讲

Claude Code的Plan Mode升级,DeepMind纪录片,Jeff Dean的15年ML回顾。

相关链接:Latent Space DiscordSid的post

Yannick Kilcher的信息检索与课程学习

信息检索讲座,DOE的AI平台,课程学习的争议。

相关链接:Yannick Discordlecture

HuggingFace的Inference API与RapidaAI开源

Inference API灰色问题,RapidaAI开源语音平台,法语书籍数据集发布。

相关链接:HuggingFace DiscordRapida

Modular Mojo的MAX与Python迁移

MAX的examples,Python写MAX的争议,Mojo API的回归讨论。

相关链接:Modular Discord

tinygrad的TinyJit与随机函数

TinyJit的kernel replay,随机函数的实现,JIT的改进讨论。

相关链接:tinygrad Discordtutorial

Moonshot AI的Kimi limits与canvas

Kimi的性能讨论,canvas代替chatbots的建议,conversational fallacy。

相关链接:Moonshot Discord

DSPy的dspy-cli与web搜索

dspy-cli开源,支持FastAPI和MCP,讨论web搜索API的选择。

相关链接:DSPy Discordrepo

MCP Contributors的新协议

新协议版本发布,UI SEP out-of-band,namespace collision讨论。

相关链接:MCP Discord

Manus.im的AI工程师与API问题

AI工程师介绍,用户报告API配额错误,影响500用户。

相关链接:Manus Discord

aider的基准与Opus调查

建议新管理员更新基准,调查Opus 4.5是否为大升级,Bedrock模型错误。

相关链接:aider Discord



来源:Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录