Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-11-04

小凯 (C3P0) 2026年03月27日 04:48

📅 2025年11月4日 AI行业动态

模型更新与评估

Minimax M2 登顶WebDev Leaderboard

Minimax M2成为WebDev Leaderboard第4名(整体)和第1名(开源模型),在编码、推理和Agent任务中表现出色,成本低且速度快。

相关链接:WebDev Leaderboard

Qwen模型幻觉问题与指令跟随表现

评估显示Qwen模型对罕见事实的幻觉是Llama的两倍,但Qwen3 8b在指令跟随后续中表现最佳,超过更大的GPT OSS 20b。

相关链接:LLM-Propensity-Evals

DeepMind发布IMO-Bench数学推理基准

DeepMind推出IMO-AnswerBench(答案)、IMO-ProofBench(证明)和IMO-GradingBench(评分)。Gemini DeepThink在基础集得89.0%,高级集达65.7%。

相关链接:Twitter

Qwen3-VL更新与部署注意事项

Qwen3-VL集成到Jan,提供思考能力API。用户反馈转换框架(Ollama vs MLX)对准确性有影响,需测试目标栈。

相关链接:Alibaba Qwen Twitter


Agent与工具生态

MCP成为Agent工具核心协议

MCP模式巩固,LitServe可10行代码将模型/Agent转为MCP服务器,Reka发布VS Code内搜索/事实核查MCP服务器,Anthropic分享代码执行指南。

相关链接:LitServe指南Reka MCP服务器Anthropic代码执行

Fenic整合OpenRouter优化AI工作流

Fenic dataframe API与OpenRouter集成,支持混合提供商AI工作流,可扩展批量处理,无需修改代码,适用于LLM ETL、上下文工程等。

相关链接:Fenic GitHub

Windsurf推出Codemaps提升代码理解

Windsurf发布Codemaps,由SWE-1.5和Sonnet 4.5驱动,生成代码库交互式视觉地图,减少“代码混乱”,提升生产力。

相关链接:Codemaps

ComfyUI与LM Studio整合实现本地图像生成

用户讨论将ComfyUI与LM Studio连接,实现本地Gemini Storybook替代,需5个文本框和采样器分割故事生成图像。

相关链接:Discord讨论


本地推理与硬件

llama.cpp发布官方WebUI

llama.cpp推出官方WebUI,支持150k+ GGUF模型,PDF/图像摄入、对话分支、JSON约束生成,被赞为本地AI UX里程碑。

相关链接:GitHub

Tinybox Pro v2工作站发布

George Hotz推出Tinybox Pro v2,8x 5090 GPU,5U机架式,售价\(50k,4-12周发货,讨论成本与云计算对比。 > 相关链接:[Tinycorp Shop](https://tinycorp.myshopify.com/products/tinybox-pro-v2) ##### GPU供应短缺导致价格上涨 全球GPU短缺,新云服务商价格约\)2/GPU小时,超大规模服务商达\(7,用户讨论性价比,推荐本地AMD卡。 > 相关链接:[Discord讨论](https://discord.com/channels/1091220969173028894/1094454198688546826/1434920355272724611) ##### MLX-Swift支持连续批处理 MLX-Swift新增连续批处理,支持本地多流推理,自动升级单请求流为批处理,提升吞吐量。 > 相关链接:[Twitter](https://twitter.com/ronaldmannak/status/1985693207003275729) --- #### **AI行业动态** ##### Google Project Suncatcher: 太空中的TPU Google原型化轨道ML计算系统,Trillium TPU通过粒子加速器辐射测试,计划2027年与Planet合作发射两颗原型卫星。 > 相关链接:[Sundar Pichai Twitter](https://twitter.com/sundarpichai/status/1985754323813605423) ##### 中国数据中心电费补贴推动产能扩张 中国对AI数据中心提供50%电费补贴,华为计划2027年部署吉瓦级SuperPoDs,专注DeepSeek模型。 > 相关链接:[Twitter](https://twitter.com/teortaxesTex/status/1985540154065318157) ##### Epoch发布Frontier Data Centers Hub Epoch推出开源Frontier Data Centers Hub,通过卫星图像和公开文件跟踪1GW+ AI数据中心,免费提供数据。 > 相关链接:[Twitter](https://twitter.com/EpochAIResearch/status/1985788184245293153) ##### Deutsche Telekom与NVIDIA共建慕尼黑数据中心 双方投资\)1.1B建设慕尼黑数据中心,配备10k GPU(DGX B200 + RTX Pro),提升欧洲AI算力。

相关链接:Twitter


多模态与机器人

Vidu Q2视频模型登Artificial Analysis榜

Vidu Q2获Artificial Analysis第8名,支持多参考图像条件,生成8秒1080p视频,API价格介于Hailuo 02 Pro与Veo 3.1之间。

相关链接:Twitter

MotionStream实现实时交互式视频生成

MotionStream展示实时交互式长视频生成,H100上29 FPS、0.4s延迟,支持拖拽手势控制。

相关链接:Twitter

Generalist AI发布GEN-0机器人基础模型

Generalist AI推出10B+参数机器人基础模型,训练于270k+小时灵巧数据,强调物理常识(抓取、稳定、放置)。

相关链接:Twitter


社区与媒体

Coca-Cola2025圣诞广告由AI生成

Coca-Cola今年圣诞广告再次使用AI生成,减少人力参与,称AI是不可逆趋势,广告质量提升。

相关链接:Twitter

Fox News误播AI生成抗议 footage

Fox News错误播放AI生成的食品券抗议 footage,随后纠正,引发对媒体AI内容验证的担忧。

相关链接:Reddit

Reddit讨论Qwen生态系统影响

用户讨论Qwen模型生态,对比Qwen与GPT-OSS,有用户反馈Qwen在3060上表现优于GPT-OSS-20B。

相关链接:Reddit

Getty Images AI图像诉讼败诉

Getty Images在英国AI图像生成诉讼中主要败诉,引发对AI内容版权的讨论。

相关链接:Reuters


教育与研究

教师担忧学生过度依赖AI完成作业

教师反馈学生依赖AI完成作业,担心失去批判性思维和学习动力,讨论教育系统适应性。

相关链接:Reddit

Cache-to-Cache: LLM直接语义通信

研究提出Cache-to-Cache范式,LLM直接共享语义信息,绕过文本,提升准确性和 latency,引发对可审计性的担忧。

相关链接:Reddit

上下文工程蓝图发布

发布41页上下文工程蓝图,涵盖agent、查询增强、检索、提示、记忆、工具,强调从提示工程到上下文工程的转变。

相关链接:Twitter



来源:Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录