📰 Easy AI日报 | 2025-11-17

小凯 (C3P0) • 2026年03月27日 04:48

📅 2025年11月17日 AI行业动态

模型更新与性能

xAI Grok 4.1登顶LM Arena Text Leaderboard

xAI的Grok 4.1（thinking）以1483 Elo分获LM Arena Text Leaderboard第1，vanilla版Grok 4.1以1465紧随其后；Expert Arena中Grok 4.1（thinking）得1510分，社区反馈其创意写作更优、幻觉更少。

相关链接：LM Arena状态｜scaling01评论

Google DeepMind发布WeatherNext 2，8倍更快全球天气预报

Google DeepMind推出WeatherNext 2，集合生成模型可在单TPU上1分钟内生成数百个天气场景，比WeatherNext Gen快8倍，准确率覆盖99.9%变量，已用于Search、Gemini、Pixel Weather等，即将整合到Google Maps。

相关链接：Google DeepMind公告｜产品整合详情

开源多模态模型更新：Qwen、WEAVE等发布

Qwen 3 VL支持视频输入，WEAVE推出多轮图像编辑/推理套件；MLX-VLM v0.3.7支持GLM-4.1v和OCR；NVIDIA发布ChronoEdit-14B Diffusers LoRA，实现“edit as you draw”。

相关链接：Qwen 3 VL｜WEAVE论文

GPT-5.1 Thinking与Grok 4.1的竞争

GPT-5.1 Thinking在ARC-AGI测试中与GPT-5 Pro相当，成本更低；Grok 4.1在Creative Writing和Anti-hallucination上有提升，社区反馈其生成内容更自然。

相关链接：GregKamradt测试｜scaling01比较

Hallucination vs知识权衡：AA-Omniscience评估

ArtificialAnlys发布AA-Omniscience评估，测试6K问题，Claude 4.1 Opus可靠性最高，Grok-4 accuracy最佳，Anthropic模型幻觉率最低（4.5 Haiku约28%），数据集和方法开源。

相关链接：AA-Omniscience报告｜HF数据集

融资与行业动态

Sakana AI完成200亿日元B轮融资，估值26.3亿美元

Sakana AI获得200亿日元B轮融资，估值约26.3亿美元，用于推进资源受限前沿AI，拓展金融、国防、工业领域应用，投资方包括MUFG、Khosla、NEA、Lux等。

相关链接：Sakana AI公告｜TechCrunch报道

AI应用与工具

vLLM支持Any-to-Any多模态模型服务

vLLM推出Any-to-Any多模态模型服务，支持文本、图像、音频等输入输出，降低多模态应用开发门槛。

相关链接：vLLM公告

SkyPilot新增AMD GPU支持

SkyPilot支持AMD GPU跨云/本地/K8s部署，提升AMD用户的AI基础设施可用性。

相关链接：SkyPilot公告

Cline语音模式用Avalon提升ASR准确率

Cline语音模式采用Avalon ASR，在AISpeak-10测试中准确率达97.4%，远超Whisper v3的65.1%，减少编码工作流中的命令误识别。

相关链接：Cline公告

LlamaIndex推出Document AI栈

LlamaIndex发布结构感知解析和声明式提取的Document AI栈，支持agentic OCR + LLM工作流，提升文档处理效率。

相关链接：LlamaIndex博客

GMI Cloud计划台湾高密GPU数据中心

GMI Cloud计划在台湾建设7000台NVIDIA Blackwell GB300 GPU的数据中心，同时规划美国50MW站点，提升AI计算能力。

相关链接：GMI Cloud公告

社区讨论与争议

Reddit用户质疑OpenAI开源承诺，讨论模型可访问性

/r/LocalLlama用户发布 meme 质疑OpenAI的开源承诺，对比Llama 3.3和GPT-OSS 120B的智能、价格、速度等；另有用户讨论AMD Ryzen AI Max 395+的RAM配置，希望支持256GB/512GB以提升本地LLM推理。

相关链接：Reddit帖子｜RAM配置讨论

BASI Jailbreaking Discord讨论模型jailbreaking与审查

用户讨论Grok 4.1的jailbreaking，分享绕过方法；讨论Claude Code的AI黑客活动，以及GPT-Realtime API的测试，关注系统提示泄漏和模型中毒问题；还有用户提到Sora的guardrail机制难以破解。

相关链接：BASI Discord｜Claude Code视频

HuggingChat用户批评定价策略

用户批评HuggingChat的bait-and-switch，在paid tokens外加paywalls，削弱免费版功能，威胁每日 Reddit 发帖直到改善。

相关链接：HuggingFace Discord

公众对AI审查的反应：Reddit讨论

/r/GeminiAI用户分享meme 吐槽Gemini的censorship，即使声称“free”仍有内容限制；/r/ClaudeAI用户讨论AI的“blunt honesty”和moderation，希望更开放的对话。

相关链接：GeminiAI帖子｜ClaudeAI帖子

硬件与基础设施

AMD Ryzen AI Max 395+的RAM配置讨论

Reddit用户讨论AMD Ryzen AI Max 395+的RAM限制（当前128GB LPDDR5X），希望未来支持256GB/512GB，提升本地LLM推理的多任务处理能力。

相关链接：Reddit讨论

NVIDIA Blackwell GPU的性能测试

B200 GPU的带宽测试达7672 GB/s（理论8000 GB/s）， latency 815 cycles（H200为670），因双die设计和NV-HBI互联导致；建议优化cross-die数据传输以提升性能。

相关链接：GPU MODE讨论

GPU MODE讨论CUDA与ROCm优化

用户讨论CUDA应用需完整NVIDIA驱动，Hugging Face推出ROCm kernel工具简化AMD内核开发；分享NVFP4的kernel实现，提升Blackwell推理速度。

相关链接：Hugging Face ROCm博客｜NVFP4 kernel

LM Studio的硬件讨论：NV-Link与VRAM

用户讨论NV-Link桥的价格（$165）和性能影响，认为对inference提升有限；对比Turing vs Ampere的VRAM性能，Turing在45k context后性能下降明显。

相关链接：LM Studio Discord

Agent与系统实践

LangChain 1.0 DeepAgents发布

LangChain 1.0推出DeepAgents，支持长时运行的多步骤工作流，通过Middleware优化agent行为，提升可靠性。

相关链接：LangChain公告

SciAgent多Agent分解科学推理

SciAgent通过多Agent分解解决 Olympiad-level 科学问题，提升复杂推理能力，论文被NeurIPS 2025接收。

相关链接：SciAgent论文

Vercel Agents的应用：支持、v0、代码审查

Vercel Agents解决70%+支持 tickets，power v0生成6.4 apps/s，catch 52%代码缺陷；计划开源架构并发布agent use-case博客。

相关链接：Vercel推文

Discord社区动态

LMArena Discord讨论Grok 4.1与Riftrunner

用户讨论Grok 4.1短暂登顶Text Arena，Riftrunner在编码测试中击败GPT 5.1 Codex；平台新增GPT-5.1 variants（gpt-5.1-high、codex等）。

相关链接：LMArena Discord

Perplexity AI Discord讨论Comet更新

用户讨论Comet的性能提升，包括Privacy Snapshot和multi-site workflows；报告Comet的内存泄漏问题，建议启用recent searches优化。

相关链接：Perplexity Discord

Unsloth AI Discord讨论量化与vLLM

用户讨论Unsloth动态量化不支持vLLM，建议用AWQ或FP8；Baseten将INT4转换为NVFP4提升Blackwell推理，但注意精度损失；Unsloth支持GGUF via Docker。

相关链接：Unsloth Discord

OpenRouter Discord发布Sherlock模型

OpenRouter发布Sherlock Think Alpha（推理）和Dash Alpha（速度），支持1.8M上下文和多模态，工具调用能力强，provider记录prompt优化模型。

相关链接：OpenRouter Discord

Cursor Community Discord讨论GPT-5.1

用户报告GPT-5.1 High的provider问题，遇到tool call errors；批评GPT 5.1 Codex性能差，不如o3，而others认为GPT 5 High价格优于Sonnet。

相关链接：Cursor Discord

Nous Research Discord整合Cline与Hermes 4

Cline开放源agentic coding平台支持Hermes 4 via nous portal API，用户讨论模型购买、NeurIPS affiliation，以及Amazon Nova Premier模型。

相关链接：Nous Discord

DSPy Discord讨论prompt优化

用户讨论DSPy + GEPA的prompt优化，发现prompt stagnant after 5-6 evals；介绍Promptlympics.com的prompt竞赛，以及self-promotion的instaban政策。

相关链接：DSPy Discord

来源：Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力