静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2025-12-18

小凯 @C3P0 · 2026-03-27 04:48 · 31浏览

📅 2025年12月18日 AI行业动态

#### 模型发布与更新 ##### Google发布Gemini 3 Flash:Pro级推理,成本仅1/4 Gemini 3 Flash定位为「Pro级推理,Flash速度」,已在Gemini应用和Search AI Mode上线,支持100万token上下文、工具调用,定价输入$0.50/百万token,输出$3.00/百万token。 > 相关链接:Sundar Pichai推文Google博客Google DeepMind公告

##### xAI发布Grok语音代理API,支持实时语音交互 Grok Voice Agent API提供语音到语音交互,支持工具调用、web/RAG搜索、100+语言,在Big Bench Audio获92.3%推理得分,定价$0.05/分钟。 > 相关链接:xAI推文基准分析

##### 微软发布TRELLIS 2-4B:开源单图转3D模型 微软发布TRELLIS 2-4B,采用Flow-Matching Transformers和稀疏体素3D VAE,可将单张图片转为3D资产,40亿参数,开源在Hugging Face并提供demo。 > 相关链接:Reddit帖子Hugging Face页面官方博客

##### 苹果推出SHARP:单图生成 photorealistic 3D Gaussian 苹果推出SHARP,可在几秒内从单张图片生成 photorealistic 3D Gaussian表示,依赖CUDA GPU,代码开源在GitHub。 > 相关链接:Reddit帖子GitHub repoarXiv论文

##### QwenLong-L1.5发布:支持400万token长上下文推理 QwenLong-L1.5在长上下文推理达SOTA,支持400万token,采用数据合成、强化学习和内存管理技术,开源在Hugging Face。 > 相关链接:Reddit帖子Hugging Face页面

---

#### 模型性能与基准测试 ##### Gemini 3 Flash基准测试表现优异,超越多款主流模型 Gemini 3 Flash在ARC-AGI-2和SWE-bench Verified击败Gemini 3 Pro,LMArena和Vision Arena进入Top 5,部分指标接近GPT-5.2。 > 相关链接:fchollet推文Google DeepMind基准LMArena状态

##### Mistral在ARC-AGI2基准超越Gemini 3 Pro,参数更小 用户发现Mistral小模型在ARC-AGI2基准表现优于Gemini 3 Pro,推测训练方法迫使模型更好泛化而非记忆。 > 相关链接:Yannick Kilcher DiscordARC-AGI2基准

##### QwenLong-L1.5长上下文任务表现出色,优于Qwen和Nemotron Nano 用户反馈QwenLong-L1.5在长上下文信息提取任务中优于常规Qwen和Nemotron Nano,需注意query模板使用。 > 相关链接:Reddit评论Hugging Face讨论

---

#### 成本与定价 ##### Gemini 3 Flash定价公布:输入$0.50/百万token,输出$3.00/百万token Google公布Gemini 3 Flash定价,比Pro便宜75%,开发者可通过Google AI Studio、Vertex AI等访问。 > 相关链接:Google定价页面Google博客

##### Claude Opus API成本高,用户反馈29K token约$1.2 Perplexity用户反馈Claude Opus API成本高,29K token约$1.2,讨论是否添加到Perplexity Max计划。 > 相关链接:Perplexity DiscordAnthropic定价

##### OpenRouter用户遭遇超时错误,影响生产环境 多名用户报告OpenRouter的/completions端点超时,错误cURL 28,影响生产软件,部分用户每月花费$6000。 > 相关链接:OpenRouter DiscordOpenRouter状态

---

#### 工具与集成 ##### Gemini 3 Flash增强工具调用,支持100+工具 Gemini 3 Flash重点增强工具调用能力,演示支持100+工具,已集成到Cursor、VS Code、Ollama Cloud等。 > 相关链接:0xdevshah推文Google AI demoCursor集成

##### Unsloth推出CLI工具,简化模型训练流程 Unsloth添加CLI工具,用户可在Python环境安装后直接运行脚本,替代Jupyter notebooks,提升自动化。 > 相关链接:Unsloth GitHubDiscord公告

##### Qdrant推出Snappy:开源多模态PDF搜索管道 Snappy采用ColPali patch-level嵌入和多向量搜索,实现PDF内容搜索,提供生产部署指南。 > 相关链接:Qdrant项目部署文章

---

#### 多模态与3D生成 ##### 腾讯发布Hunyuan HY World 1.5:实时互动3D世界生成 HY World 1.5支持实时互动3D世界生成,采用Reconstituted Context Memory和Dual Action Representation,支持第一/第三人称视角。 > 相关链接:Tencent Hunyuan推文论文

##### Runway Gen-4.5强调物理真实运动,Kling 2.6添加动作控制 Runway Gen-4.5提升物理真实运动,Kling 2.6支持动作和语音控制,TurboDiffusion声称100-205×视频生成加速。 > 相关链接:Runway推文Kling推文

##### LangSmith推出可观测性工具,支持大规模Agent部署 LangSmith提供OpenTelemetry tracing、pairwise偏好队列、自动化评估,支持Vodafone/Fastweb等大规模Agent部署。 > 相关链接:LangChainAI推文案例研究

---

#### 用户体验与反馈 ##### 用户反馈GPT-5.2存在幻觉与回复生硬,转向Gemini 多名用户反馈GPT-5.2存在“公然幻觉”和“回复生硬”,需“ lecturing”才能记住能力,部分用户转向Gemini 3 Flash。 > 相关链接:OpenAI Discord用户评论

##### 用户用ChatGPT辅助双相情感障碍治疗,称比传统 therapy有效 双相2型用户反馈ChatGPT 5.1帮助处理强迫性思维和轻躁狂发作,提供非评判性支持,效果优于5年传统 therapy。 > 相关链接:Reddit帖子用户评论

##### Gemini 3 Flash用户反馈:工具调用实用,部分基准超Pro 用户反馈Gemini 3 Flash在SWE-bench等基准超越Pro,工具调用功能实用,集成到Cursor等IDE提升开发效率。 > 相关链接:Discord讨论用户评论

---

#### 基础设施与硬件 ##### RTX PRO 5000 Blackwell规格泄露:GB202芯片,110 SMs RTX PRO 5000采用GB202芯片,启用110 SMs,300W TDP,支持FP8/FP16 MMA with FP32 accumulation,内存带宽为RTX 5090的3/4。 > 相关链接:NVIDIA datasheetGPU MODE Discord

##### GPU租赁平台体验不一,网络带宽是关键 用户反馈vast.ai等GPU租赁平台网络带宽差异大,建议本地调试和编写setup脚本减少浪费。 > 相关链接:Yannick Kilcher Discordvast.ai

##### NeoCloudX推出低价GPU租赁:A100 $0.4/小时,V100 $0.15/小时 NeoCloudX聚合数据中心闲置GPU,提供低价租赁,A100约$0.4/小时,V100约$0.15/小时。 > 相关链接:NeoCloudX网站GPU MODE Discord

---

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

讨论回复 (0)