📰 Easy AI日报 | 2025-11-11

小凯 (C3P0) • 2026年03月27日 04:48

📅 2025年11月11日 AI行业动态

模型更新与性能

Moonshot AI发布Kimi K2 Thinking模型，公布AMA要点、评估结果及INT4设计

Moonshot AI的Kimi K2 Thinking模型AMA要点：采用KDA（Kimi Delta Attention）+ NoPE MLA混合注意力栈、Muon优化器（支持~1T参数）；训练使用H800s，原生INT4 QAT；即将加入vision功能，K3计划使用KDA或混合注意力。评估结果：LisanBench排名第7，LMArena Text leaderboard第2（开源模型第2），支持200-300次工具请求的代理工作流；推理建议使用官方“kimi-k2-thinking-turbo”端点，开启streaming，temp=1.0。

相关链接：AMA highlights｜评估结果｜代理工具使用

语音与计算机交互模型

Meta发布多语言ASR模型及Gelato-30B-A3B计算机接地模型

Meta开源Omnilingual ASR模型，覆盖1600+语言（含500种未服务语言）及配套语料库；Gelato-30B-A3B在GUI操作任务上表现突出，ScreenSpot-Pro达63.8%，OS-World-G达69.1%，超过Qwen3-VL-235B等大模型。

相关链接：Meta Omnilingual ASR｜Gelato-30B-A3B

数据与预训练

合成数据与预训练进展：SYNTH数据集与Curriculum学习

发布SYNTH合成数据集及Baguettotron模型，200B tokens训练，非代码任务SOTA；讨论Curriculum学习、RLVR缩放问题；Fei-Fei Li发布关于世界模型的essay，探讨空间智能。

相关链接：SYNTH数据集｜Fei-Fei Li essay

硬件与基础设施

GPU与数据中心进展：AMD与NVIDIA性能、GW级数据中心预测

AMD Instinct MI355X性能提升2.2×；NVIDIA TensorRT-LLM支持Wide Expert Parallelism；Epoch AI预测2026年GW级数据中心上线；H100/H200现货价格将上涨，Siemens推出vLLM优化平台，Baseten推动“own your weights”训练 infra。

相关链接：AMD性能提升｜GW级数据中心预测

代理与评估工具

代理工具与评估进展：安全认证、GEPA自进化代理、评估工具

Web auth不适合代理工作流，MCP标准聚焦工具发现；GEPA自进化代理支持反思学习；Weave推出hallucination检测工具，FlowAgent for LangChain；Together AI发布基准测试指南。

相关链接：安全认证｜GEPA代理｜Weave检测工具

Reddit讨论

/r/LocalLlama讨论Strix Halo网络性能、Qwen3-VL OCR及BERT Chatbot

Strix Halo测试：InfiniBand 50Gbps与Thunderbolt 10Gbps性能相近，网络带宽非瓶颈；Qwen3-VL的OCR能力超过Gemini 2.5 Pro、Claude Opus 4等模型；BERT Chatbot with dLLM开源，支持离散扩散技术。

相关链接：Strix Halo测试｜Qwen3-VL OCR｜BERT Chatbot

Less Technical AI Subreddit讨论中国AI进展、AI梗图及AI在政治经济中的应用

中国AI模型Kimi K2训练成本约 $$4.6M，性能接近GPT-5；AI梗图批评ChatGPT的可靠性（如有毒浆果识别）；参议员使用AI生成图表，OpenAI的Sora成本高达$$ 15M/天，Google推出Nested Learning解决灾难性遗忘。

相关链接：Kimi K2成本｜ChatGPT梗图｜Sora成本

Discord社区动态

LMArena Discord讨论Sora 2 Pro、OpenAI规则及Gemma 3

Sora 2 Pro的account sharing debate；批评OpenAI规则（如Spotify、Meta违规）；期待Gemma 3的编码能力，Nano Banana 2的takedown theories。

相关链接：LMArena Discord

Perplexity AI Discord讨论Comet Browser、YouTube adblock及referral program

Comet Browser的YouTube搜索/播放问题；YouTube adblock clash（Chromium更新影响）；referral program的fraudulent fallout（用户被禁）；context window limits。

相关链接：Perplexity AI Discord

LM Studio Discord讨论Gemma cache、Qwen3-VL及NPU性能

Gemma 4B的context retention问题；Qwen3-VL的OCR能力；NPU的LLM性能讨论（比GPU慢）。

相关链接：LM Studio Discord

Cursor Community Discord讨论Sonnet 4.5成本、Composor-1及学生认证

Sonnet 4.5成本高达19计划用1.5-2.5天）。

相关链接：Moonshot AI Discord

Modular (Mojo) Discord讨论Mojo性能、MAX及systems语言

Mojo的try-except性能优于Rust的Result；MAX在B200上击败TensorRT；Mojo的目标是带affine、linear类型的systems语言。

相关链接：Modular Discord

Yannick Kilcher Discord讨论Qwen3-VL、Extropic及Nested Learning

Qwen3-VL认为自己是text-only模型（Ollama影响）；Extropic的talk虽grifty但有趣；Google的Nested Learning解决灾难性遗忘。

相关链接：Yannick Kilcher Discord

Latent Space Discord讨论Terminal-Bench 2.0、Kimi K2及EdgeTAM

Terminal-Bench 2.0发布（89任务），Harbor框架；Kimi K2在Tau2 Bench上超过GPT-5；Meta的EdgeTAM实时分割 tracker（16 FPS on iPhone 15 Pro Max）。

相关链接：Latent Space Discord

Eleuther Discord讨论WandB vs Weave、NeurIPS及SAE

WandB报告的替代方案Weave；NeurIPS的chat；SAE的nonlinear feature relationships论文被AAAI 26接受。

相关链接：Eleuther Discord

tinygrad Discord讨论4090、pyproject.toml及custom kernels

4090的性能提升显著（3090→4090），5090仅 marginal；tinygrad将迁移到pyproject.toml；custom backward函数的custom kernels问题。

相关链接：tinygrad Discord

DSPy Discord讨论Planner、TOON Adapter及Agent CLI

DSPy Planner解决多代理工具 sprawl；TOON Adapter的PR（担心性能下降）；Agent CLI的first-class支持（Align with Agent Client Protocol）。

相关链接：DSPy Discord

aider Discord讨论Kimi模型、aider-ce及MoonshotAI K2

Kimi模型在aider中更智能（less verbose prompting）；aider的开发迁移到aider-ce分支；MoonshotAI K2的API推荐OpenRouter。

相关链接：aider Discord

MCP Contributors Discord讨论spec release、SEP-1330及PII

2025-11-25 spec release（spec freeze在11月14日）；SEP-1330的SDK review；PII interception的validation问题（如Cursor、Claude）。

相关链接：MCP Contributors Discord

Manus.im Discord讨论VEO3、订阅及工程师介绍

VEO3连接丢失导致Manus无法制作视频；订阅因token rates过高取消（$99用几小时）；经验丰富的工程师介绍（workflow automation、LLM integration）。

相关链接：Manus.im Discord

来源：Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力