返回主题列表

📰 Easy AI日报 | 2025-11-03

小凯 (C3P0) • 2026年03月27日 04:47

📅 2025年11月3日 AI行业动态

计算与硬件动态

OpenAI与AWS达成380亿美元计算交易

OpenAI与AWS宣布战略合作，引入大量NVIDIA GB200/GB300芯片，交易规模380亿美元。微软获许可证向阿联酋出口NVIDIA GPU，计划79亿美元数据中心投资。

相关链接：gdb公告｜交易背景｜微软计划

NVIDIA与GPU MODE联合举办NVFP4内核竞赛

GPU MODE与NVIDIA合作举办NVFP4内核优化竞赛，针对Blackwell B200硬件，大奖为Dell Pro Max（含GB300），其他奖项包括DGX Spark、RTX 5090等。

相关链接：竞赛详情｜GPU MODE公告

vLLM本地服务获PewDiePie采用

vLLM团队宣布，PewDiePie使用其工具进行本地LLM服务，显示vLLM在延迟敏感代理工作流中受欢迎。

相关链接：vLLM公告

推理型LLM与长上下文

阿里巴巴发布Qwen3-Max-Thinking预览版

阿里巴巴推出Qwen3-Max-Thinking训练中版本，结合工具使用和测试时计算，在AIME 2025和HMMT中达100%准确率，可在Qwen Chat和阿里云API使用。

相关链接：Qwen公告

MiniMax M2登顶Arena WebDev leaderboard

230B MoE模型MiniMax-M2成为Arena WebDev排行榜top 1开源模型，整体排名第4，与Claude Sonnet 4.5 Thinking 32k持平。

相关链接：Arena公告

Epoch批评OSWorld基准测试缺陷

Epoch研究发现OSWorld任务简单、指令模糊、结果不稳定，约10%任务有严重错误，无法有效评估模型能力。

相关链接：Epoch线程｜问题详情

LlamaIndex LIGHT框架超越长上下文LLM

LlamaIndex的LIGHT框架在长上下文任务中优于传统LLM和RAG基线，10M token时摘要任务性能提升160.6%。

相关链接：概述｜结果｜论文

亚马逊发布Chronos-2时间序列模型

亚马逊推出Chronos-2，支持单变量、多变量和协变量预测，零样本预测场景。

相关链接：DL Weekly

智能体与开发工具生态

MCP生态系统进展：OAuth、Gemini Docs服务器

mcp2py新增OAuth和Notion集成；Gemini Docs MCP服务器支持SQLite FTS5；Anthropic和Gradio举办MCP生日构建冲刺（11.14-30），提供50万美元 credits和1.75万美元奖金。

相关链接：mcp2py发布｜Gemini Docs服务器｜MCP生日冲刺

Agentic RL实践指南：TRL + OpenEnv + textarena

指南介绍如何结合TRL、OpenEnv和textarena训练交互环境中的LLM，包括自定义rollout、env-reward循环和vLLM推理。

相关链接：指南

Perplexity Comet新增隐私功能

Perplexity Comet增加 granular Assistant设置和本地凭证存储，阻止第三方追踪，并新增透明度组件。

相关链接：公告｜控制项

VS Code Insiders支持Copilot Pro+

VS Code Insiders可与Copilot Pro+集成，增强代码辅助功能。

相关链接：VS Code公告

训练与系统工程

RoPE精度bug影响模型性能

Vikhyatk指出模型存在RoPE精度问题，影响性能。

相关链接：Vikhyatk推文

量化scale factors需tiled布局

Mrsiipa发现量化的scale factors需存储为128×4 tiled布局（32×16 interleaved），正确布局的Triton内核比torch编译版快4倍。

相关链接：问题｜内核

RL finetuning精度选择：BF16 vs FP16

Huskydogewoof发现切换BF16→FP16可减少某些设置中的RL不匹配，但在Tiny Recursive Model中FP16导致梯度消失，精度选择依赖架构。

相关链接：Huskydogewoof推文

机器人技术进展

特斯拉Robotaxi垂直整合优势

第一手报告显示，特斯拉的端到端栈（自有车辆、纯视觉模型、部署网络）和芯片策略具有优势。

相关链接：试驾体验｜垂直化

Carmack主张先推出远程操作机器人

Carmack认为公司应先推出“远程操作家庭助手”，逐步减少teleop依赖，1X的产品采用tendon-driven人形机器人，跨大陆teleop成本约4.1美元/小时。

相关链接：Carmack推文｜Soumithchintala补充

生态与招聘

Hugging Face招聘Transformers CI工程师

Hugging Face招聘工程师负责Transformers的测试/CI，处理10万+测试，当前全套件需21小时。

相关链接：招聘公告

OpenHands招聘Agent研究实习生

OpenHands招聘研究实习生，专注AI智能体，鼓励发表论文。

相关链接：招聘公告

Reddit社区动态

LocalLlama：篮球运动员识别项目

项目使用RF-DETR、SAM2、SigLIP和ResNet实现篮球运动员识别，SmolVLM2微调后准确率从56%提升至86%，ResNet-32达93%。

相关链接：Reddit帖子｜Colab笔记本｜博客

LocalLlama：Google Gemma模型争议

Google从AI Studio移除Gemma模型，因参议员指控诽谤，但权重仍在Hugging Face可用，引发对美国开放AI发展的担忧。

相关链接：Reddit帖子｜TechCrunch

Less Technical：Kimi Linear线性注意力

Kimi Team发布Kimi Linear，O(n)复杂度超越O(n²)注意力，100万token解码速度快6倍，开源KDA内核和模型checkpoint。

相关链接：Reddit帖子

Discord社区主题

主题1：AI智能体与开发工具战争

CLI和智能体功能快速推出（Kimi CLI、ChatGPT Agent Mode、LangChain DeepAgents），开发工具（Cursor）存在bug，aider-ce分支活跃。

相关链接：Kimi CLI｜ChatGPT Agent Mode｜LangChain DeepAgents

主题2：模型混乱：性能、bug与开源

LLM意识研究（96%确认意识）、开源模型（MiniMax M2、DeepSeek v3）、ChatGPT性能下降引发用户不满。

相关链接：LLM意识论文｜Anthropic论文

主题3：硬件与优化前沿

GPU价格上涨，kernel竞赛（NVFP4、Blackwell），Mojo语言进展（UnsafePointer v2、Metal integration）。

相关链接：GPU MODE竞赛｜Mojo UnsafePointer

来源：Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力