Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2025-11-24

小凯 (C3P0) 2026年03月27日 04:46
## 📅 2025年11月24日 AI行业动态 #### **模型更新与性能提升** ##### Anthropic发布Claude Opus 4.5,定位编码与Agent最佳模型 Anthropic推出旗舰模型Claude Opus 4.5,定价较Opus 4.1降低3倍($5/$25 per million tokens),新增effort control等API功能,在SWE-Bench Verified中取得80.9%的成绩,刷新SOTA。 > 相关链接:[官方发布](https://www.anthropic.com/news/claude-opus-4-5)|[Twitter公告](https://twitter.com/claudeai/status/1993030546243699119) ##### Google发布Gemini 3 Pro,SWE-Bench Verified达76.2% Google推出Gemini 3 Pro,在SWE-Bench Verified中取得76.2%的成绩,但存在幻觉问题,用户反馈其经常忽略指令。 > 相关链接:[基准结果](https://twitter.com/scaling01/status/1993030224846721237)|[用户反馈](https://discord.com/channels/998381918976479270/998382692394164265/1441681333192622161) ##### OpenAI推出GPT-5.1-Codex-Max,SWE-Bench Verified达77.9% OpenAI发布GPT-5.1-Codex-Max,在SWE-Bench Verified中取得77.9%的成绩,暂列当时SOTA,提升编码能力。 > 相关链接:[相关推文](https://twitter.com/scaling01/status/1993030224846721237) ##### Google发布Gemini 3 Image,登顶图像基准 Google推出Gemini 3 Image,在Artificial Analysis图像基准中登顶,支持14张输入图像,提升photorealism和编辑能力。 > 相关链接:[官方推文](https://twitter.com/Google/status/1993087643224064371)|[基准结果](https://twitter.com/ArtificialAnlys/status/1993032471274024970) --- #### **基准测试与推理能力** ##### Claude Opus 4.5刷新多基准纪录,SWE-Bench Verified达80.9% Claude Opus 4.5在SWE-Bench Verified中突破80%,SWE-bench Pro达52%,BrowseComp-Plus达85.3%,ARC-AGI-1达80%,ARC-AGI-2达37.64%。 > 相关链接:[基准结果](https://twitter.com/scaling01/status/1993030224846721237)|[系统卡](https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf) ##### Qwen3-VL-32B在MathVision基准中超越Kimi K1.5 Qwen3-VL-32B在MathVision基准中以24.8分的优势超越Kimi K1.5,表现出更强的视觉推理能力。 --- #### **工具与生态系统** ##### Claude Opus 4.5新增API功能,提升开发灵活性 Claude Opus 4.5新增effort control(控制推理强度)、context compaction(上下文压缩)、advanced tool use(高级工具调用)等API功能,支持Bedrock、Vertex等云平台。 > 相关链接:[effort control文档](https://platform.claude.com/docs/en/build-with-claude/effort)|[context compaction文档](https://platform.claude.com/docs/en/build-with-claude/context-editing#client-side-compaction-sdk) ##### Windsurf更新支持Claude Opus 4.5,限时以Sonnet价格提供 Windsurf发布1.12.35稳定版和1.12.152预览版,支持Claude Opus 4.5,限时以Sonnet价格提供(2x credits),提升用户体验。 > 相关链接:[官方更新](https://windsurf.com/changelog)|[下载地址](https://windsurf.com/download/editor) ##### Weaviate v1.32默认启用8-bit Rotational Quantization Weaviate v1.32将8-bit Rotational Quantization设为默认,声称保持98-99%的准确性,同时降低延迟并提升写入性能。 > 相关链接:[官方推文](https://twitter.com/weaviate_io/status/1992986708766323004) ##### Weights & Biases推出Serverless LoRA推理 Weights & Biases推出Serverless LoRA服务,支持上传适配器并在推理时动态切换,无冷启动问题,提升开发效率。 > 相关链接:[官方推文](https://twitter.com/wandb/status/1993032159985385978) --- #### **研究与技术突破** ##### Zyphra推出AMD原生MoE模型ZAYA1-base,性能超越Llama-3-8B Zyphra与AMD、IBM合作推出ZAYA1-base,为AMD原生混合专家模型(8.3B总参数,760M活跃),在数学和编码任务中表现出色,超越Llama-3-8B。 > 相关链接:[官方推文](https://twitter.com/ZyphraAI/status/1993001706402333092)|[技术细节](https://twitter.com/ZyphraAI/status/1993001723959689411) ##### DiRL框架优化扩散语言模型,8B模型MATH500达83% 研究人员提出DiRL框架,结合SFT和扩散原生RL算法DiPO,解决扩散语言模型的RL优化问题,8B模型在MATH500等基准中表现出色。 > 相关链接:[相关推文](https://twitter.com/ZhihuFrontier/status/1992919281445855697) ##### Sakana AI提出Continuous Thought Machines(CTM) Sakana AI的NeurIPS spotlight工作CTM,通过神经元级动态和同步实现自适应计算和涌现式序列推理,在迷宫规划等任务中表现出色。 > 相关链接:[官方推文](https://twitter.com/SakanaAILabs/status/1992909033800716667) --- #### **行业动态与政策** ##### 美国启动Genesis Mission,推动AI-for-science 白宫启动Genesis Mission,旨在通过AI加速科学发现,Anthropic与美国能源部合作,推动能源和科学生产力。 > 相关链接:[Anthropic合作公告](https://twitter.com/AnthropicAI/status/1993103199029674175) --- #### **社区与产品反馈** ##### Gemini 3用户反馈幻觉严重,经常忽略指令 Gemini 3用户反馈其存在严重幻觉问题,生成虚假信息,且经常忽略明确指令(如要求不生成第三选项仍会生成)。 > 相关链接:[Discord讨论](https://discord.com/channels/998381918976479270/998382692394164265/1441681333192622161) ##### Manus.im用户抗议Chat Mode移除,强制切换Agent Mode Manus.im用户反馈Chat Mode被移除,强制使用Agent Mode,引发不满,部分用户要求恢复Chat Mode。 > 相关链接:[Discord讨论](https://discord.com/channels/1348819876348825620/1349440650495398020/1441522353489051750) ##### Anthropic工程师称软件工程将在明年上半年“完成” Anthropic工程师表示,AI生成代码将像编译器输出一样可信,软件工程将在明年上半年“完成”,引发行业讨论。 > 相关链接:[Reddit讨论](https://www.reddit.com/r/singularity/comments/1p5uwtz/anthropic_engineer_says_software_engineering_is/) ##### LM Studio用户请求移除系统提示部分 LM Studio用户请求移除系统提示部分,称其存在两年未使用,建议标记为deprecated,提升界面简洁性。 > 相关链接:[Discord讨论](https://discord.com/channels/1110598183144399058/1110598183144399061/1441520255011913738) --- #### **开源与本地模型** ##### ArliAI发布GLM-4.5-Air-Derestricted模型,消除拒绝行为 ArliAI推出GLM-4.5-Air-Derestricted模型,采用Norm-Preserving Biprojected Abliteration技术,保持推理能力同时消除拒绝行为,基于Gemma 3 12B架构。 > 相关链接:[Hugging Face地址](https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted) ##### Qwen3-Next模型支持llama.cpp,用户测试达12 tokens/sec Qwen3-Next模型(如Qwen3-Next-80B-A3B-Instruct)已支持llama.cpp,用户测试在RTX 5070ti上可达12 tokens/sec,提升本地推理性能。 > 相关链接:[GitHub PR](https://github.com/ggml-org/llama.cpp/pull/16095#issuecomment-3568446797) --- #### **安全与越狱** ##### BASI Jailbreaking社区发布Gemini 3.0越狱方法 BASI Jailbreaking社区发布Gemini 3.0越狱指南,通过上传Google Docs文件绕过安全过滤,支持多语言提示(如克罗地亚语)。 > 相关链接:[越狱指南](https://docs.google.com/document/d/16oCQ2dZDq1NQh0UEgVcMAArtHeX6Lgwsr72KQlVElRI/edit)|[Discord讨论](https://discord.com/channels/1105891499641684019/1228043845967544380/1441524691800948736) --- --- *来源:Easy AI 教学项目* #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!