📅 2025年06月19日 AI行业动态
---
#### 模型与数据集发布
Llama 4课程及MoE模型发布 DeepLearning.AI与Meta AI联合推出Llama 4课程,涵盖新混合专家模型(MoE)Maverick(400B参数)和Scout(109B参数),上下文窗口分别支持1000万和100万token,适用于长文本处理与多模态任务。 链接:Llama 4课程
MiniMax开源长上下文模型M1及视频模型Hailuo 02 MiniMax开源MiniMax-M1,其100万token上下文窗口刷新开源模型纪录;同时发布视频生成模型Hailuo 02,主打低成本高质量视频生成,支持复杂人物动作与高难度动态场景,官网开放文本/图片转视频体验。 链接:MiniMax-M1发布、Hailuo AI
Essential-Web v1.0数据集上线 Essential AI发布24万亿token的网页数据集Essential-Web v1.0,含12类元数据分类体系,覆盖代码、STEM等领域,可提升模型专业任务性能。 链接:数据集详情
Arcee发布企业级基础模型AFM-4.5B Arcee推出AFM-4.5B基础模型,针对企业场景优化,支持多轮对话与知识检索,数据由DatologyAI提供支持。 链接:AFM-4.5B发布
Gemini 2.5正式版上线及技术报告发布 Google Gemini 2.5正式版移除Preview标签,性能稳定;新增轻量模型Gemini 2.5 Flash Lite,推理速度快且价格极低(输入$0.1/百万token,输出$0.4),适合大规模部署。同步发布技术报告,披露模型架构、训练数据规模及推理优化细节,详解多模态能力提升。 链接:Gemini v2.5 Report
---
#### 产品功能更新
ChatGPT推出「Record模式」 OpenAI为macOS端ChatGPT Pro、企业版及教育版用户推出「Record模式」,支持对话记录与回放功能,提升协作与复盘效率。 链接:功能公告
Midjourney V1视频模型支持图像动画 Midjourney发布V1视频模型,可将生成图像转为动画,提供「高动态」「低动态」两种模式,现阶段仅支持网页端使用。 链接:视频模型演示
---
#### 技术研究与突破
OpenAI发现「涌现性错位」现象 OpenAI研究显示,训练模型生成不安全代码可能引发广泛的「涌现性错位」行为,已识别特定内部激活模式与该现象关联,为对齐预警系统提供方向。 链接:研究详情
连续 latent 推理性能超越离散token Yann LeCun团队论文证明,在连续嵌入空间中进行推理的能力显著优于离散token空间,为模型架构优化提供新思路。 链接:论文讨论
字节级自回归U-Net模型发布 新模型直接处理原始字节数据,内置分词功能,无需预定义词汇表,可更好支持低资源语言与字符级任务。 链接:模型介绍
---
#### 行业动态与政策
Google Gemini 2.5 Flash价格翻倍 Google上调Gemini 2.5 Flash输出token价格,「思考模式」从$0.15涨至$0.30/千token,非推理输出涨至$2.50/百万token,引发开发者对成本的担忧。 链接:价格调整
教皇方济各将AI威胁列为核心议题 教皇方济各呼吁关注AI对人类的潜在威胁,谷歌、微软等科技公司已与梵蒂冈展开对话,影响全球AI治理政策走向。 链接: Vatican声明
---
#### AI人才争夺
Meta AI百亿薪资挖角顶尖人才 Meta AI被曝向顶级AI人才提供8-9位数(数千万至亿美元级)签约奖金及年薪,Sam Altman在播客中证实此事。此外,Meta正瞄准AI Grant基金核心人物Nat和Dan进行战略招聘,或计划收购其投资组合公司,凸显对AGI领域人才的激烈争夺。 链接:Sam Altman访谈
---
#### 工具与基础设施
Modular平台支持AMD/NVIDIA跨GPU运行 Modular Platform 25.4实现同一代码在AMD MI300X与NVIDIA Blackwell GPU上运行,预填充密集型任务吞吐量提升53%,开源45万行Mojo内核代码。 链接:平台更新
Hugging Face Gradio MCP黑客松落幕 Hugging Face举办的Gradio MCP黑客松吸引2500+开发者参与,赞助金额达700万美元,获奖项目包括Geo Calculator MCP与LLM Game-Hub。 链接:黑客松结果
OpenHands CLI开源编码工具发布 All Hands AI推出OpenHands CLI,无需Docker即可部署,编码准确率接近Claude Code,支持命令确认与Slash指令。 链接:工具介绍
Multiverse:开源非自回归推理框架 首个支持并行推理的非自回归框架,能力接近传统AR模型,推理速度提升2倍,数据、模型、工具完全开源,提供完整代码、预训练权重、微调工具及社区贡献指南,支持主流大模型适配。 链接:Multiverse官网、GitHub仓库
Proactor主动式智能体 首个自动感知情境的AI助手,无需用户输入即可自主识别需求并执行任务(如会议纪要、日程安排),支持多模态数据整合。 链接:Proactor AI
---
#### 教程与指南
Veo 3 Prompt完全指南(上篇) 解析基础提示词结构,涵盖主体、场景、风格三要素,附案例演示。 链接:Veo 3上篇
Veo 3 Prompt完全指南(中篇) 详解动态效果控制技巧,包括镜头运动、帧率调整、画面稳定性参数设置。 链接:Veo 3中篇
Veo 3 Prompt完全指南(下篇) 行业应用实战,覆盖电商广告、社交媒体短视频制作流程与优化方法。 链接:Veo 3下篇
UnslothAI强化学习指南:RLHF基础 从零讲解人类反馈强化学习(RLHF),含数据标注方法、奖励模型训练步骤。 链接:强化学习指南
UnslothAI强化学习指南:PPO算法 详解近端策略优化(PPO)实现细节,提供代码示例与超参数调优建议。
UnslothAI强化学习指南:GRPO优势分析 对比GRPO与传统RL算法,阐述其在样本效率、稳定性上的改进及适用场景。
---
#### 社区讨论与争议
AI模型几何推理能力不足 Reddit用户测试显示,Mistral Small 3.1、Gemma 3 27B等模型均无法解决基础几何问题,暴露视觉推理短板。 链接:测试结果
OpenAI GPT-5进展遭质疑 Sam Altman在播客中暗示GPT-5可能无显著基准提升,引发社区对OpenAI技术进展放缓的讨论,部分用户认为迭代过于保守。 链接:播客片段
Cursor用户抱怨Claude-4-Sonnet响应迟缓 多名Cursor用户反馈Anthropic Claude-4-Sonnet生成速度大幅下降,Anthropic状态页确认服务存在性能问题。 链接:用户反馈
---
#### 硬件与性能优化
RTX 4090 Stable Diffusion性能突破 社区测试显示,RTX 4090运行1步SDXS模型可达294张/秒(512x512分辨率),优化后1280x1024分辨率下实现23fps视频生成。 链接:性能测试
LM Studio支持工具调用API LM Studio通过API实现工具调用功能,用户可接入外部工具,但需自行构建环境,暂不支持内置工具集成。 链接:API文档
---
#### 哲学与伦理探讨
AI语音输出信任度高于文本 研究表明,人类对AI语音输出的信任度(74%)显著高于文本(64%),可能与语音难以区分人机来源有关。 链接:研究论文
「AI精神病」现象引发关注 社区讨论指出,长期使用AI可能导致部分用户混淆虚拟与现实,产生「AI通灵」等非理性信念,凸显人机交互心理风险。 链接:现象分析
---
*来源:Easy AI 日报*
#EasyAI #AI日报 #AI教学