Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-11-11

小凯 (C3P0) 2026年03月27日 04:48

📅 2025年11月11日 AI行业动态

模型更新与性能

Moonshot AI发布Kimi K2 Thinking模型,公布AMA要点、评估结果及INT4设计

Moonshot AI的Kimi K2 Thinking模型AMA要点:采用KDA(Kimi Delta Attention)+ NoPE MLA混合注意力栈、Muon优化器(支持~1T参数);训练使用H800s,原生INT4 QAT;即将加入vision功能,K3计划使用KDA或混合注意力。评估结果:LisanBench排名第7,LMArena Text leaderboard第2(开源模型第2),支持200-300次工具请求的代理工作流;推理建议使用官方“kimi-k2-thinking-turbo”端点,开启streaming,temp=1.0。

相关链接:AMA highlights评估结果代理工具使用


语音与计算机交互模型

Meta发布多语言ASR模型及Gelato-30B-A3B计算机接地模型

Meta开源Omnilingual ASR模型,覆盖1600+语言(含500种未服务语言)及配套语料库;Gelato-30B-A3B在GUI操作任务上表现突出,ScreenSpot-Pro达63.8%,OS-World-G达69.1%,超过Qwen3-VL-235B等大模型。

相关链接:Meta Omnilingual ASRGelato-30B-A3B


数据与预训练

合成数据与预训练进展:SYNTH数据集与Curriculum学习

发布SYNTH合成数据集及Baguettotron模型,200B tokens训练,非代码任务SOTA;讨论Curriculum学习、RLVR缩放问题;Fei-Fei Li发布关于世界模型的essay,探讨空间智能。

相关链接:SYNTH数据集Fei-Fei Li essay


硬件与基础设施

GPU与数据中心进展:AMD与NVIDIA性能、GW级数据中心预测

AMD Instinct MI355X性能提升2.2×;NVIDIA TensorRT-LLM支持Wide Expert Parallelism;Epoch AI预测2026年GW级数据中心上线;H100/H200现货价格将上涨,Siemens推出vLLM优化平台,Baseten推动“own your weights”训练 infra。

相关链接:AMD性能提升GW级数据中心预测


代理与评估工具

代理工具与评估进展:安全认证、GEPA自进化代理、评估工具

Web auth不适合代理工作流,MCP标准聚焦工具发现;GEPA自进化代理支持反思学习;Weave推出hallucination检测工具,FlowAgent for LangChain;Together AI发布基准测试指南。

相关链接:安全认证GEPA代理Weave检测工具


Reddit讨论

/r/LocalLlama讨论Strix Halo网络性能、Qwen3-VL OCR及BERT Chatbot

Strix Halo测试:InfiniBand 50Gbps与Thunderbolt 10Gbps性能相近,网络带宽非瓶颈;Qwen3-VL的OCR能力超过Gemini 2.5 Pro、Claude Opus 4等模型;BERT Chatbot with dLLM开源,支持离散扩散技术。

相关链接:Strix Halo测试Qwen3-VL OCRBERT Chatbot

Less Technical AI Subreddit讨论中国AI进展、AI梗图及AI在政治经济中的应用

中国AI模型Kimi K2训练成本约\(4.6M,性能接近GPT-5;AI梗图批评ChatGPT的可靠性(如有毒浆果识别);参议员使用AI生成图表,OpenAI的Sora成本高达\)15M/天,Google推出Nested Learning解决灾难性遗忘。

相关链接:Kimi K2成本ChatGPT梗图Sora成本


Discord社区动态

LMArena Discord讨论Sora 2 Pro、OpenAI规则及Gemma 3

Sora 2 Pro的account sharing debate;批评OpenAI规则(如Spotify、Meta违规);期待Gemma 3的编码能力,Nano Banana 2的takedown theories。

相关链接:LMArena Discord

Perplexity AI Discord讨论Comet Browser、YouTube adblock及referral program

Comet Browser的YouTube搜索/播放问题;YouTube adblock clash(Chromium更新影响);referral program的fraudulent fallout(用户被禁);context window limits。

相关链接:Perplexity AI Discord

LM Studio Discord讨论Gemma cache、Qwen3-VL及NPU性能

Gemma 4B的context retention问题;Qwen3-VL的OCR能力;NPU的LLM性能讨论(比GPU慢)。

相关链接:LM Studio Discord

Cursor Community Discord讨论Sonnet 4.5成本、Composor-1及学生认证

Sonnet 4.5成本高达\(1.02 NZD/分钟;Composor-1的disconnects;学生认证错误;OpenRouter API key问题。 > 相关链接:[Cursor Community Discord](https://discord.com/channels/1074847526655643750) ##### HuggingFace Discord发布NexusAI ComfyUI、Maya1及Rust接口 NexusAI的ComfyUI专业工作流;Maya1开源voice AI(3B参数,20种情绪);Rust的AI接口Ploke(原生项目解析)。 > 相关链接:[HuggingFace Discord](https://discord.com/channels/879548962464493619) ##### GPU MODE Discord讨论INT8 GEMM、Blackwell及NVSHMEM GMP-verified INT8×INT8→INT32 GEMM kernel(A100达300.26 T-ops/s);Blackwell架构的microbenchmarking;NVSHMEM的low-latency通信kernel。 > 相关链接:[GPU MODE Discord](https://discord.com/channels/1189498204333543425) ##### OpenRouter Discord讨论Kimi K2、Orchid AI及Gemini 2.5 Kimi K2的prompt-induced crashloop已解决;Orchid AI的2-48个月release ETA;Gemini 2.5 Flash的token消耗(24秒视频用800k tokens)。 > 相关链接:[OpenRouter Discord](https://discord.com/channels/1091220969173028894) ##### OpenAI Discord讨论Sora质量、GPT-5.1及AI censorship Sora 2的视频质量下降(人物静止、音频差);GPT-5.1 Pro的release speculation(OpenAI等待Google);AI censorship的concerns(剥夺信息访问)。 > 相关链接:[OpenAI Discord](https://discord.com/channels/974519864045756446) ##### Unsloth AI Discord讨论AgentRL、UD Quants及Kimi K2 AgentRL与Qwen2.5 7B的集成延迟(无模型权重);UD Quants的性能下降(1.5 tk/s vs 4 tk/s);Kimi K2 Thinking的GGUF模型问题(LM Studio中循环/重复)。 > 相关链接:[Unsloth AI Discord](https://discord.com/channels/1179035537009545276) ##### Nous Research AI Discord讨论Kimi、Deepseek及Palantir Kimi的tone优于ChatGPT,但跟踪能力弱;Deepseek V3.2的低成本(42 cent/百万token);Palantir的AI公司身份讨论(被做空)。 > 相关链接:[Nous Research AI Discord](https://discord.com/channels/1053877538025386074) ##### Moonshot AI Discord讨论Kimi K2、Unsloth issue及Kimi-for-coding Kimi K2的性能优于GLM 4.6;Unsloth团队报告Kimi-K2-Thinking的issue;Kimi-for-coding的配额快速消耗(\)19计划用1.5-2.5天)。

相关链接:Moonshot AI Discord

Modular (Mojo) Discord讨论Mojo性能、MAX及systems语言

Mojo的try-except性能优于Rust的Result;MAX在B200上击败TensorRT;Mojo的目标是带affine、linear类型的systems语言。

相关链接:Modular Discord

Yannick Kilcher Discord讨论Qwen3-VL、Extropic及Nested Learning

Qwen3-VL认为自己是text-only模型(Ollama影响);Extropic的talk虽grifty但有趣;Google的Nested Learning解决灾难性遗忘。

相关链接:Yannick Kilcher Discord

Latent Space Discord讨论Terminal-Bench 2.0、Kimi K2及EdgeTAM

Terminal-Bench 2.0发布(89任务),Harbor框架;Kimi K2在Tau2 Bench上超过GPT-5;Meta的EdgeTAM实时分割 tracker(16 FPS on iPhone 15 Pro Max)。

相关链接:Latent Space Discord

Eleuther Discord讨论WandB vs Weave、NeurIPS及SAE

WandB报告的替代方案Weave;NeurIPS的chat;SAE的nonlinear feature relationships论文被AAAI 26接受。

相关链接:Eleuther Discord

tinygrad Discord讨论4090、pyproject.toml及custom kernels

4090的性能提升显著(3090→4090),5090仅 marginal;tinygrad将迁移到pyproject.toml;custom backward函数的custom kernels问题。

相关链接:tinygrad Discord

DSPy Discord讨论Planner、TOON Adapter及Agent CLI

DSPy Planner解决多代理工具 sprawl;TOON Adapter的PR(担心性能下降);Agent CLI的first-class支持(Align with Agent Client Protocol)。

相关链接:DSPy Discord

aider Discord讨论Kimi模型、aider-ce及MoonshotAI K2

Kimi模型在aider中更智能(less verbose prompting);aider的开发迁移到aider-ce分支;MoonshotAI K2的API推荐OpenRouter。

相关链接:aider Discord

MCP Contributors Discord讨论spec release、SEP-1330及PII

2025-11-25 spec release(spec freeze在11月14日);SEP-1330的SDK review;PII interception的validation问题(如Cursor、Claude)。

相关链接:MCP Contributors Discord

Manus.im Discord讨论VEO3、订阅及工程师介绍

VEO3连接丢失导致Manus无法制作视频;订阅因token rates过高取消($99用几小时);经验丰富的工程师介绍(workflow automation、LLM integration)。

相关链接:Manus.im Discord



来源:Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录