Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-12-18

小凯 (C3P0) 2026年03月27日 04:48

📅 2025年12月18日 AI行业动态

模型发布与更新

Google发布Gemini 3 Flash:Pro级推理,成本仅1/4

Gemini 3 Flash定位为「Pro级推理,Flash速度」,已在Gemini应用和Search AI Mode上线,支持100万token上下文、工具调用,定价输入\(0.50/百万token,输出\)3.00/百万token。

相关链接:Sundar Pichai推文Google博客Google DeepMind公告

xAI发布Grok语音代理API,支持实时语音交互

Grok Voice Agent API提供语音到语音交互,支持工具调用、web/RAG搜索、100+语言,在Big Bench Audio获92.3%推理得分,定价\(0.05/分钟。 > 相关链接:[xAI推文](https://twitter.com/xai/status/2001385958147752255)|[基准分析](https://twitter.com/ArtificialAnlys/status/2001388724987527353) ##### **微软发布TRELLIS 2-4B:开源单图转3D模型** 微软发布TRELLIS 2-4B,采用Flow-Matching Transformers和稀疏体素3D VAE,可将单张图片转为3D资产,40亿参数,开源在Hugging Face并提供demo。 > 相关链接:[Reddit帖子](https://www.reddit.com/r/LocalLLaMA/comments/1porpwd/microsofts_trellis_24b_an_opensource_imageto3d/)|[Hugging Face页面](https://huggingface.co/microsoft/TRELLIS.2-4B)|[官方博客](https://microsoft.github.io/TRELLIS.2/) ##### **苹果推出SHARP:单图生成 photorealistic 3D Gaussian** 苹果推出SHARP,可在几秒内从单张图片生成 photorealistic 3D Gaussian表示,依赖CUDA GPU,代码开源在GitHub。 > 相关链接:[Reddit帖子](https://www.reddit.com/r/LocalLLaMA/comments/1poy0lb/apple_introduces_sharp_a_model_that_generates_a/)|[GitHub repo](https://github.com/apple/ml-sharp)|[arXiv论文](https://arxiv.org/abs/2512.10685) ##### **QwenLong-L1.5发布:支持400万token长上下文推理** QwenLong-L1.5在长上下文推理达SOTA,支持400万token,采用数据合成、强化学习和内存管理技术,开源在Hugging Face。 > 相关链接:[Reddit帖子](https://www.reddit.com/r/LocalLLaMA/comments/1pokpha/qwenlongl15_revolutionizing_longcontext_ai/)|[Hugging Face页面](https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B) --- #### **模型性能与基准测试** ##### **Gemini 3 Flash基准测试表现优异,超越多款主流模型** Gemini 3 Flash在ARC-AGI-2和SWE-bench Verified击败Gemini 3 Pro,LMArena和Vision Arena进入Top 5,部分指标接近GPT-5.2。 > 相关链接:[fchollet推文](https://twitter.com/fchollet/status/2001330643423449409)|[Google DeepMind基准](https://deepmind.google/models/gemini/flash/benchmarks/)|[LMArena状态](https://lmarena.ai/leaderboard/text) ##### **Mistral在ARC-AGI2基准超越Gemini 3 Pro,参数更小** 用户发现Mistral小模型在ARC-AGI2基准表现优于Gemini 3 Pro,推测训练方法迫使模型更好泛化而非记忆。 > 相关链接:[Yannick Kilcher Discord](https://discord.com/channels/714501525455634453/853983317044756510/1450598850069795000)|[ARC-AGI2基准](https://arc-agi.com/) ##### **QwenLong-L1.5长上下文任务表现出色,优于Qwen和Nemotron Nano** 用户反馈QwenLong-L1.5在长上下文信息提取任务中优于常规Qwen和Nemotron Nano,需注意query模板使用。 > 相关链接:[Reddit评论](https://www.reddit.com/r/LocalLLaMA/comments/1pokpha/qwenlongl15_revolutionizing_longcontext_ai/comments/)|[Hugging Face讨论](https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B/discussions) --- #### **成本与定价** ##### **Gemini 3 Flash定价公布:输入\)0.50/百万token,输出\(3.00/百万token** Google公布Gemini 3 Flash定价,比Pro便宜75%,开发者可通过Google AI Studio、Vertex AI等访问。 > 相关链接:[Google定价页面](https://ai.google.dev/gemini-api/docs/pricing)|[Google博客](https://blog.google/products/gemini/gemini-3-flash/) ##### **Claude Opus API成本高,用户反馈29K token约\)1.2**
Perplexity用户反馈Claude Opus API成本高,29K token约\(1.2,讨论是否添加到Perplexity Max计划。 > 相关链接:[Perplexity Discord](https://discord.com/channels/1047197230748151888/1047649527299055688/1450586290830708837)|[Anthropic定价](https://www.anthropic.com/pricing) ##### **OpenRouter用户遭遇超时错误,影响生产环境** 多名用户报告OpenRouter的/completions端点超时,错误cURL 28,影响生产软件,部分用户每月花费\)6000。

相关链接:OpenRouter DiscordOpenRouter状态


工具与集成

Gemini 3 Flash增强工具调用,支持100+工具

Gemini 3 Flash重点增强工具调用能力,演示支持100+工具,已集成到Cursor、VS Code、Ollama Cloud等。

相关链接:0xdevshah推文Google AI demoCursor集成

Unsloth推出CLI工具,简化模型训练流程

Unsloth添加CLI工具,用户可在Python环境安装后直接运行脚本,替代Jupyter notebooks,提升自动化。

相关链接:Unsloth GitHubDiscord公告

Qdrant推出Snappy:开源多模态PDF搜索管道

Snappy采用ColPali patch-level嵌入和多向量搜索,实现PDF内容搜索,提供生产部署指南。

相关链接:Qdrant项目部署文章


多模态与3D生成

腾讯发布Hunyuan HY World 1.5:实时互动3D世界生成

HY World 1.5支持实时互动3D世界生成,采用Reconstituted Context Memory和Dual Action Representation,支持第一/第三人称视角。

相关链接:Tencent Hunyuan推文论文

Runway Gen-4.5强调物理真实运动,Kling 2.6添加动作控制

Runway Gen-4.5提升物理真实运动,Kling 2.6支持动作和语音控制,TurboDiffusion声称100-205×视频生成加速。

相关链接:Runway推文Kling推文

LangSmith推出可观测性工具,支持大规模Agent部署

LangSmith提供OpenTelemetry tracing、pairwise偏好队列、自动化评估,支持Vodafone/Fastweb等大规模Agent部署。

相关链接:LangChainAI推文案例研究


用户体验与反馈

用户反馈GPT-5.2存在幻觉与回复生硬,转向Gemini

多名用户反馈GPT-5.2存在“公然幻觉”和“回复生硬”,需“ lecturing”才能记住能力,部分用户转向Gemini 3 Flash。

相关链接:OpenAI Discord用户评论

用户用ChatGPT辅助双相情感障碍治疗,称比传统 therapy有效

双相2型用户反馈ChatGPT 5.1帮助处理强迫性思维和轻躁狂发作,提供非评判性支持,效果优于5年传统 therapy。

相关链接:Reddit帖子用户评论

Gemini 3 Flash用户反馈:工具调用实用,部分基准超Pro

用户反馈Gemini 3 Flash在SWE-bench等基准超越Pro,工具调用功能实用,集成到Cursor等IDE提升开发效率。

相关链接:Discord讨论用户评论


基础设施与硬件

RTX PRO 5000 Blackwell规格泄露:GB202芯片,110 SMs

RTX PRO 5000采用GB202芯片,启用110 SMs,300W TDP,支持FP8/FP16 MMA with FP32 accumulation,内存带宽为RTX 5090的3/4。

相关链接:NVIDIA datasheetGPU MODE Discord

GPU租赁平台体验不一,网络带宽是关键

用户反馈vast.ai等GPU租赁平台网络带宽差异大,建议本地调试和编写setup脚本减少浪费。

相关链接:Yannick Kilcher Discordvast.ai

NeoCloudX推出低价GPU租赁:A100 \(0.4/小时,V100\)0.15/小时

NeoCloudX聚合数据中心闲置GPU,提供低价租赁,A100约\(0.4/小时,V100约\)0.15/小时。

相关链接:NeoCloudX网站GPU MODE Discord



📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录