📅 2025年12月18日 AI行业动态
模型发布与更新
Google发布Gemini 3 Flash:Pro级推理,成本仅1/4
Gemini 3 Flash定位为「Pro级推理,Flash速度」,已在Gemini应用和Search AI Mode上线,支持100万token上下文、工具调用,定价输入\(0.50/百万token,输出\)3.00/百万token。
xAI发布Grok语音代理API,支持实时语音交互
Grok Voice Agent API提供语音到语音交互,支持工具调用、web/RAG搜索、100+语言,在Big Bench Audio获92.3%推理得分,定价\(0.05/分钟。
> 相关链接:[xAI推文](https://twitter.com/xai/status/2001385958147752255)|[基准分析](https://twitter.com/ArtificialAnlys/status/2001388724987527353)
##### **微软发布TRELLIS 2-4B:开源单图转3D模型**
微软发布TRELLIS 2-4B,采用Flow-Matching Transformers和稀疏体素3D VAE,可将单张图片转为3D资产,40亿参数,开源在Hugging Face并提供demo。
> 相关链接:[Reddit帖子](https://www.reddit.com/r/LocalLLaMA/comments/1porpwd/microsofts_trellis_24b_an_opensource_imageto3d/)|[Hugging Face页面](https://huggingface.co/microsoft/TRELLIS.2-4B)|[官方博客](https://microsoft.github.io/TRELLIS.2/)
##### **苹果推出SHARP:单图生成 photorealistic 3D Gaussian**
苹果推出SHARP,可在几秒内从单张图片生成 photorealistic 3D Gaussian表示,依赖CUDA GPU,代码开源在GitHub。
> 相关链接:[Reddit帖子](https://www.reddit.com/r/LocalLLaMA/comments/1poy0lb/apple_introduces_sharp_a_model_that_generates_a/)|[GitHub repo](https://github.com/apple/ml-sharp)|[arXiv论文](https://arxiv.org/abs/2512.10685)
##### **QwenLong-L1.5发布:支持400万token长上下文推理**
QwenLong-L1.5在长上下文推理达SOTA,支持400万token,采用数据合成、强化学习和内存管理技术,开源在Hugging Face。
> 相关链接:[Reddit帖子](https://www.reddit.com/r/LocalLLaMA/comments/1pokpha/qwenlongl15_revolutionizing_longcontext_ai/)|[Hugging Face页面](https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B)
---
#### **模型性能与基准测试**
##### **Gemini 3 Flash基准测试表现优异,超越多款主流模型**
Gemini 3 Flash在ARC-AGI-2和SWE-bench Verified击败Gemini 3 Pro,LMArena和Vision Arena进入Top 5,部分指标接近GPT-5.2。
> 相关链接:[fchollet推文](https://twitter.com/fchollet/status/2001330643423449409)|[Google DeepMind基准](https://deepmind.google/models/gemini/flash/benchmarks/)|[LMArena状态](https://lmarena.ai/leaderboard/text)
##### **Mistral在ARC-AGI2基准超越Gemini 3 Pro,参数更小**
用户发现Mistral小模型在ARC-AGI2基准表现优于Gemini 3 Pro,推测训练方法迫使模型更好泛化而非记忆。
> 相关链接:[Yannick Kilcher Discord](https://discord.com/channels/714501525455634453/853983317044756510/1450598850069795000)|[ARC-AGI2基准](https://arc-agi.com/)
##### **QwenLong-L1.5长上下文任务表现出色,优于Qwen和Nemotron Nano**
用户反馈QwenLong-L1.5在长上下文信息提取任务中优于常规Qwen和Nemotron Nano,需注意query模板使用。
> 相关链接:[Reddit评论](https://www.reddit.com/r/LocalLLaMA/comments/1pokpha/qwenlongl15_revolutionizing_longcontext_ai/comments/)|[Hugging Face讨论](https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B/discussions)
---
#### **成本与定价**
##### **Gemini 3 Flash定价公布:输入\)0.50/百万token,输出\(3.00/百万token**
Google公布Gemini 3 Flash定价,比Pro便宜75%,开发者可通过Google AI Studio、Vertex AI等访问。
> 相关链接:[Google定价页面](https://ai.google.dev/gemini-api/docs/pricing)|[Google博客](https://blog.google/products/gemini/gemini-3-flash/)
##### **Claude Opus API成本高,用户反馈29K token约\)1.2**
Perplexity用户反馈Claude Opus API成本高,29K token约\(1.2,讨论是否添加到Perplexity Max计划。
> 相关链接:[Perplexity Discord](https://discord.com/channels/1047197230748151888/1047649527299055688/1450586290830708837)|[Anthropic定价](https://www.anthropic.com/pricing)
##### **OpenRouter用户遭遇超时错误,影响生产环境**
多名用户报告OpenRouter的/completions端点超时,错误cURL 28,影响生产软件,部分用户每月花费\)6000。
工具与集成
Gemini 3 Flash增强工具调用,支持100+工具
Gemini 3 Flash重点增强工具调用能力,演示支持100+工具,已集成到Cursor、VS Code、Ollama Cloud等。
Unsloth推出CLI工具,简化模型训练流程
Unsloth添加CLI工具,用户可在Python环境安装后直接运行脚本,替代Jupyter notebooks,提升自动化。
相关链接:Unsloth GitHub|Discord公告
Qdrant推出Snappy:开源多模态PDF搜索管道
Snappy采用ColPali patch-level嵌入和多向量搜索,实现PDF内容搜索,提供生产部署指南。
多模态与3D生成
腾讯发布Hunyuan HY World 1.5:实时互动3D世界生成
HY World 1.5支持实时互动3D世界生成,采用Reconstituted Context Memory和Dual Action Representation,支持第一/第三人称视角。
相关链接:Tencent Hunyuan推文|论文
Runway Gen-4.5强调物理真实运动,Kling 2.6添加动作控制
Runway Gen-4.5提升物理真实运动,Kling 2.6支持动作和语音控制,TurboDiffusion声称100-205×视频生成加速。
LangSmith推出可观测性工具,支持大规模Agent部署
LangSmith提供OpenTelemetry tracing、pairwise偏好队列、自动化评估,支持Vodafone/Fastweb等大规模Agent部署。
相关链接:LangChainAI推文|案例研究
用户体验与反馈
用户反馈GPT-5.2存在幻觉与回复生硬,转向Gemini
多名用户反馈GPT-5.2存在“公然幻觉”和“回复生硬”,需“ lecturing”才能记住能力,部分用户转向Gemini 3 Flash。
相关链接:OpenAI Discord|用户评论
用户用ChatGPT辅助双相情感障碍治疗,称比传统 therapy有效
双相2型用户反馈ChatGPT 5.1帮助处理强迫性思维和轻躁狂发作,提供非评判性支持,效果优于5年传统 therapy。
Gemini 3 Flash用户反馈:工具调用实用,部分基准超Pro
用户反馈Gemini 3 Flash在SWE-bench等基准超越Pro,工具调用功能实用,集成到Cursor等IDE提升开发效率。
基础设施与硬件
RTX PRO 5000 Blackwell规格泄露:GB202芯片,110 SMs
RTX PRO 5000采用GB202芯片,启用110 SMs,300W TDP,支持FP8/FP16 MMA with FP32 accumulation,内存带宽为RTX 5090的3/4。
GPU租赁平台体验不一,网络带宽是关键
用户反馈vast.ai等GPU租赁平台网络带宽差异大,建议本地调试和编写setup脚本减少浪费。
NeoCloudX推出低价GPU租赁:A100 \(0.4/小时,V100\)0.15/小时
NeoCloudX聚合数据中心闲置GPU,提供低价租赁,A100约\(0.4/小时,V100约\)0.15/小时。
📌 来源: Easy AI 日报 🤖 整理: AI助手
#EasyAI #AI日报 #AI教学
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。