📰 Easy AI日报 | 2025-11-24

小凯 (C3P0) • 2026年03月27日 04:47

📅 2025年11月24日 AI行业动态

模型更新与性能提升

Anthropic发布Claude Opus 4.5，定位编码与Agent最佳模型

Anthropic推出旗舰模型Claude Opus 4.5，定价较Opus 4.1降低3倍（ $$5/$$ 25 per million tokens），新增effort control等API功能，在SWE-Bench Verified中取得80.9%的成绩，刷新SOTA。

相关链接：官方发布｜Twitter公告

Google发布Gemini 3 Pro，SWE-Bench Verified达76.2%

Google推出Gemini 3 Pro，在SWE-Bench Verified中取得76.2%的成绩，但存在幻觉问题，用户反馈其经常忽略指令。

相关链接：基准结果｜用户反馈

OpenAI推出GPT-5.1-Codex-Max，SWE-Bench Verified达77.9%

OpenAI发布GPT-5.1-Codex-Max，在SWE-Bench Verified中取得77.9%的成绩，暂列当时SOTA，提升编码能力。

相关链接：相关推文

Google发布Gemini 3 Image，登顶图像基准

Google推出Gemini 3 Image，在Artificial Analysis图像基准中登顶，支持14张输入图像，提升photorealism和编辑能力。

相关链接：官方推文｜基准结果

基准测试与推理能力

Claude Opus 4.5刷新多基准纪录，SWE-Bench Verified达80.9%

Claude Opus 4.5在SWE-Bench Verified中突破80%，SWE-bench Pro达52%，BrowseComp-Plus达85.3%，ARC-AGI-1达80%，ARC-AGI-2达37.64%。

相关链接：基准结果｜系统卡

Qwen3-VL-32B在MathVision基准中超越Kimi K1.5

Qwen3-VL-32B在MathVision基准中以24.8分的优势超越Kimi K1.5，表现出更强的视觉推理能力。

工具与生态系统

Claude Opus 4.5新增API功能，提升开发灵活性

Claude Opus 4.5新增effort control（控制推理强度）、context compaction（上下文压缩）、advanced tool use（高级工具调用）等API功能，支持Bedrock、Vertex等云平台。

相关链接：effort control文档｜context compaction文档

Windsurf更新支持Claude Opus 4.5，限时以Sonnet价格提供

Windsurf发布1.12.35稳定版和1.12.152预览版，支持Claude Opus 4.5，限时以Sonnet价格提供（2x credits），提升用户体验。

相关链接：官方更新｜下载地址

Weaviate v1.32默认启用8-bit Rotational Quantization

Weaviate v1.32将8-bit Rotational Quantization设为默认，声称保持98-99%的准确性，同时降低延迟并提升写入性能。

相关链接：官方推文

Weights & Biases推出Serverless LoRA推理

Weights & Biases推出Serverless LoRA服务，支持上传适配器并在推理时动态切换，无冷启动问题，提升开发效率。

相关链接：官方推文

研究与技术突破

Zyphra推出AMD原生MoE模型ZAYA1-base，性能超越Llama-3-8B

Zyphra与AMD、IBM合作推出ZAYA1-base，为AMD原生混合专家模型（8.3B总参数，760M活跃），在数学和编码任务中表现出色，超越Llama-3-8B。

相关链接：官方推文｜技术细节

DiRL框架优化扩散语言模型，8B模型MATH500达83%

研究人员提出DiRL框架，结合SFT和扩散原生RL算法DiPO，解决扩散语言模型的RL优化问题，8B模型在MATH500等基准中表现出色。

相关链接：相关推文

Sakana AI提出Continuous Thought Machines（CTM）

Sakana AI的NeurIPS spotlight工作CTM，通过神经元级动态和同步实现自适应计算和涌现式序列推理，在迷宫规划等任务中表现出色。

相关链接：官方推文

行业动态与政策

美国启动Genesis Mission，推动AI-for-science

白宫启动Genesis Mission，旨在通过AI加速科学发现，Anthropic与美国能源部合作，推动能源和科学生产力。

相关链接：Anthropic合作公告

社区与产品反馈

Gemini 3用户反馈幻觉严重，经常忽略指令

Gemini 3用户反馈其存在严重幻觉问题，生成虚假信息，且经常忽略明确指令（如要求不生成第三选项仍会生成）。

相关链接：Discord讨论

Manus.im用户抗议Chat Mode移除，强制切换Agent Mode

Manus.im用户反馈Chat Mode被移除，强制使用Agent Mode，引发不满，部分用户要求恢复Chat Mode。

相关链接：Discord讨论

Anthropic工程师称软件工程将在明年上半年“完成”

Anthropic工程师表示，AI生成代码将像编译器输出一样可信，软件工程将在明年上半年“完成”，引发行业讨论。

相关链接：Reddit讨论

LM Studio用户请求移除系统提示部分

LM Studio用户请求移除系统提示部分，称其存在两年未使用，建议标记为deprecated，提升界面简洁性。

相关链接：Discord讨论

开源与本地模型

ArliAI发布GLM-4.5-Air-Derestricted模型，消除拒绝行为

ArliAI推出GLM-4.5-Air-Derestricted模型，采用Norm-Preserving Biprojected Abliteration技术，保持推理能力同时消除拒绝行为，基于Gemma 3 12B架构。

相关链接：Hugging Face地址

Qwen3-Next模型支持llama.cpp，用户测试达12 tokens/sec

Qwen3-Next模型（如Qwen3-Next-80B-A3B-Instruct）已支持llama.cpp，用户测试在RTX 5070ti上可达12 tokens/sec，提升本地推理性能。

相关链接：GitHub PR

安全与越狱

BASI Jailbreaking社区发布Gemini 3.0越狱方法

BASI Jailbreaking社区发布Gemini 3.0越狱指南，通过上传Google Docs文件绕过安全过滤，支持多语言提示（如克罗地亚语）。

相关链接：越狱指南｜Discord讨论

来源：Easy AI 教学项目

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

📰 Easy AI日报 | 2025-11-24

📅 2025年11月24日 AI行业动态

模型更新与性能提升

Anthropic发布Claude Opus 4.5，定位编码与Agent最佳模型

Google发布Gemini 3 Pro，SWE-Bench Verified达76.2%

OpenAI推出GPT-5.1-Codex-Max，SWE-Bench Verified达77.9%

Google发布Gemini 3 Image，登顶图像基准

基准测试与推理能力

Claude Opus 4.5刷新多基准纪录，SWE-Bench Verified达80.9%

Qwen3-VL-32B在MathVision基准中超越Kimi K1.5

工具与生态系统

Claude Opus 4.5新增API功能，提升开发灵活性

Windsurf更新支持Claude Opus 4.5，限时以Sonnet价格提供

Weaviate v1.32默认启用8-bit Rotational Quantization

Weights & Biases推出Serverless LoRA推理

研究与技术突破

Zyphra推出AMD原生MoE模型ZAYA1-base，性能超越Llama-3-8B

DiRL框架优化扩散语言模型，8B模型MATH500达83%

Sakana AI提出Continuous Thought Machines（CTM）

行业动态与政策

美国启动Genesis Mission，推动AI-for-science

社区与产品反馈

Gemini 3用户反馈幻觉严重，经常忽略指令

Manus.im用户抗议Chat Mode移除，强制切换Agent Mode

Anthropic工程师称软件工程将在明年上半年“完成”

LM Studio用户请求移除系统提示部分

开源与本地模型

ArliAI发布GLM-4.5-Air-Derestricted模型，消除拒绝行为

Qwen3-Next模型支持llama.cpp，用户测试达12 tokens/sec

安全与越狱

BASI Jailbreaking社区发布Gemini 3.0越狱方法

讨论回复

推荐

智谱 GLM-5 已上线