📰 Easy AI日报 | 2025-12-18

📅 2025年12月18日 AI行业动态

#### 模型发布与更新 ##### Google发布Gemini 3 Flash：Pro级推理，成本仅1/4 Gemini 3 Flash定位为「Pro级推理，Flash速度」，已在Gemini应用和Search AI Mode上线，支持100万token上下文、工具调用，定价输入$0.50/百万token，输出$3.00/百万token。 > 相关链接：Sundar Pichai推文｜Google博客｜Google DeepMind公告

##### xAI发布Grok语音代理API，支持实时语音交互 Grok Voice Agent API提供语音到语音交互，支持工具调用、web/RAG搜索、100+语言，在Big Bench Audio获92.3%推理得分，定价$0.05/分钟。 > 相关链接：xAI推文｜基准分析

##### 微软发布TRELLIS 2-4B：开源单图转3D模型 微软发布TRELLIS 2-4B，采用Flow-Matching Transformers和稀疏体素3D VAE，可将单张图片转为3D资产，40亿参数，开源在Hugging Face并提供demo。 > 相关链接：Reddit帖子｜Hugging Face页面｜官方博客

##### 苹果推出SHARP：单图生成 photorealistic 3D Gaussian 苹果推出SHARP，可在几秒内从单张图片生成 photorealistic 3D Gaussian表示，依赖CUDA GPU，代码开源在GitHub。 > 相关链接：Reddit帖子｜GitHub repo｜arXiv论文

##### QwenLong-L1.5发布：支持400万token长上下文推理 QwenLong-L1.5在长上下文推理达SOTA，支持400万token，采用数据合成、强化学习和内存管理技术，开源在Hugging Face。 > 相关链接：Reddit帖子｜Hugging Face页面

---

#### 模型性能与基准测试 ##### Gemini 3 Flash基准测试表现优异，超越多款主流模型 Gemini 3 Flash在ARC-AGI-2和SWE-bench Verified击败Gemini 3 Pro，LMArena和Vision Arena进入Top 5，部分指标接近GPT-5.2。 > 相关链接：fchollet推文｜Google DeepMind基准｜LMArena状态

##### Mistral在ARC-AGI2基准超越Gemini 3 Pro，参数更小 用户发现Mistral小模型在ARC-AGI2基准表现优于Gemini 3 Pro，推测训练方法迫使模型更好泛化而非记忆。 > 相关链接：Yannick Kilcher Discord｜ARC-AGI2基准

##### QwenLong-L1.5长上下文任务表现出色，优于Qwen和Nemotron Nano 用户反馈QwenLong-L1.5在长上下文信息提取任务中优于常规Qwen和Nemotron Nano，需注意query模板使用。 > 相关链接：Reddit评论｜Hugging Face讨论

---

#### 成本与定价 ##### Gemini 3 Flash定价公布：输入$0.50/百万token，输出$3.00/百万token Google公布Gemini 3 Flash定价，比Pro便宜75%，开发者可通过Google AI Studio、Vertex AI等访问。 > 相关链接：Google定价页面｜Google博客

##### Claude Opus API成本高，用户反馈29K token约$1.2 Perplexity用户反馈Claude Opus API成本高，29K token约$1.2，讨论是否添加到Perplexity Max计划。 > 相关链接：Perplexity Discord｜Anthropic定价

##### OpenRouter用户遭遇超时错误，影响生产环境 多名用户报告OpenRouter的/completions端点超时，错误cURL 28，影响生产软件，部分用户每月花费$6000。 > 相关链接：OpenRouter Discord｜OpenRouter状态

---

#### 工具与集成 ##### Gemini 3 Flash增强工具调用，支持100+工具 Gemini 3 Flash重点增强工具调用能力，演示支持100+工具，已集成到Cursor、VS Code、Ollama Cloud等。 > 相关链接：0xdevshah推文｜Google AI demo｜Cursor集成

##### Unsloth推出CLI工具，简化模型训练流程 Unsloth添加CLI工具，用户可在Python环境安装后直接运行脚本，替代Jupyter notebooks，提升自动化。 > 相关链接：Unsloth GitHub｜Discord公告

##### Qdrant推出Snappy：开源多模态PDF搜索管道 Snappy采用ColPali patch-level嵌入和多向量搜索，实现PDF内容搜索，提供生产部署指南。 > 相关链接：Qdrant项目｜部署文章

---

#### 多模态与3D生成 ##### 腾讯发布Hunyuan HY World 1.5：实时互动3D世界生成 HY World 1.5支持实时互动3D世界生成，采用Reconstituted Context Memory和Dual Action Representation，支持第一/第三人称视角。 > 相关链接：Tencent Hunyuan推文｜论文

##### Runway Gen-4.5强调物理真实运动，Kling 2.6添加动作控制 Runway Gen-4.5提升物理真实运动，Kling 2.6支持动作和语音控制，TurboDiffusion声称100-205×视频生成加速。 > 相关链接：Runway推文｜Kling推文

##### LangSmith推出可观测性工具，支持大规模Agent部署 LangSmith提供OpenTelemetry tracing、pairwise偏好队列、自动化评估，支持Vodafone/Fastweb等大规模Agent部署。 > 相关链接：LangChainAI推文｜案例研究

---

#### 用户体验与反馈 ##### 用户反馈GPT-5.2存在幻觉与回复生硬，转向Gemini 多名用户反馈GPT-5.2存在“公然幻觉”和“回复生硬”，需“ lecturing”才能记住能力，部分用户转向Gemini 3 Flash。 > 相关链接：OpenAI Discord｜用户评论

##### 用户用ChatGPT辅助双相情感障碍治疗，称比传统 therapy有效 双相2型用户反馈ChatGPT 5.1帮助处理强迫性思维和轻躁狂发作，提供非评判性支持，效果优于5年传统 therapy。 > 相关链接：Reddit帖子｜用户评论

##### Gemini 3 Flash用户反馈：工具调用实用，部分基准超Pro 用户反馈Gemini 3 Flash在SWE-bench等基准超越Pro，工具调用功能实用，集成到Cursor等IDE提升开发效率。 > 相关链接：Discord讨论｜用户评论

---

#### 基础设施与硬件 ##### RTX PRO 5000 Blackwell规格泄露：GB202芯片，110 SMs RTX PRO 5000采用GB202芯片，启用110 SMs，300W TDP，支持FP8/FP16 MMA with FP32 accumulation，内存带宽为RTX 5090的3/4。 > 相关链接：NVIDIA datasheet｜GPU MODE Discord

##### GPU租赁平台体验不一，网络带宽是关键 用户反馈vast.ai等GPU租赁平台网络带宽差异大，建议本地调试和编写setup脚本减少浪费。 > 相关链接：Yannick Kilcher Discord｜vast.ai

##### NeoCloudX推出低价GPU租赁：A100 $0.4/小时，V100 $0.15/小时 NeoCloudX聚合数据中心闲置GPU，提供低价租赁，A100约$0.4/小时，V100约$0.15/小时。 > 相关链接：NeoCloudX网站｜GPU MODE Discord

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2025-12-18

📅 2025年12月18日 AI行业动态

🌟 智谱 GLM-5 已上线