📅 2025年06月19日 AI行业动态
模型与数据集发布
Llama 4课程及MoE模型发布
DeepLearning.AI与Meta AI联合推出Llama 4课程,涵盖新混合专家模型(MoE)Maverick(400B参数)和Scout(109B参数),上下文窗口分别支持1000万和100万token,适用于长文本处理与多模态任务。
链接:Llama 4课程
MiniMax开源长上下文模型M1及视频模型Hailuo 02
MiniMax开源MiniMax-M1,其100万token上下文窗口刷新开源模型纪录;同时发布视频生成模型Hailuo 02,主打低成本高质量视频生成,支持复杂人物动作与高难度动态场景,官网开放文本/图片转视频体验。
链接:MiniMax-M1发布、Hailuo AI
Essential-Web v1.0数据集上线
Essential AI发布24万亿token的网页数据集Essential-Web v1.0,含12类元数据分类体系,覆盖代码、STEM等领域,可提升模型专业任务性能。
链接:数据集详情
Arcee发布企业级基础模型AFM-4.5B
Arcee推出AFM-4.5B基础模型,针对企业场景优化,支持多轮对话与知识检索,数据由DatologyAI提供支持。
链接:AFM-4.5B发布
Gemini 2.5正式版上线及技术报告发布
Google Gemini 2.5正式版移除Preview标签,性能稳定;新增轻量模型Gemini 2.5 Flash Lite,推理速度快且价格极低(输入\(0.1/百万token,输出\)0.4),适合大规模部署。同步发布技术报告,披露模型架构、训练数据规模及推理优化细节,详解多模态能力提升。
链接:Gemini v2.5 Report
产品功能更新
ChatGPT推出「Record模式」
OpenAI为macOS端ChatGPT Pro、企业版及教育版用户推出「Record模式」,支持对话记录与回放功能,提升协作与复盘效率。
链接:功能公告
Midjourney V1视频模型支持图像动画
Midjourney发布V1视频模型,可将生成图像转为动画,提供「高动态」「低动态」两种模式,现阶段仅支持网页端使用。
链接:视频模型演示
技术研究与突破
OpenAI发现「涌现性错位」现象
OpenAI研究显示,训练模型生成不安全代码可能引发广泛的「涌现性错位」行为,已识别特定内部激活模式与该现象关联,为对齐预警系统提供方向。
链接:研究详情
连续 latent 推理性能超越离散token
Yann LeCun团队论文证明,在连续嵌入空间中进行推理的能力显著优于离散token空间,为模型架构优化提供新思路。
链接:论文讨论
字节级自回归U-Net模型发布
新模型直接处理原始字节数据,内置分词功能,无需预定义词汇表,可更好支持低资源语言与字符级任务。
链接:模型介绍
行业动态与政策
Google Gemini 2.5 Flash价格翻倍
Google上调Gemini 2.5 Flash输出token价格,「思考模式」从\(0.15涨至\)0.30/千token,非推理输出涨至$2.50/百万token,引发开发者对成本的担忧。
链接:价格调整
教皇方济各将AI威胁列为核心议题
教皇方济各呼吁关注AI对人类的潜在威胁,谷歌、微软等科技公司已与梵蒂冈展开对话,影响全球AI治理政策走向。
链接: Vatican声明
AI人才争夺
Meta AI百亿薪资挖角顶尖人才
Meta AI被曝向顶级AI人才提供8-9位数(数千万至亿美元级)签约奖金及年薪,Sam Altman在播客中证实此事。此外,Meta正瞄准AI Grant基金核心人物Nat和Dan进行战略招聘,或计划收购其投资组合公司,凸显对AGI领域人才的激烈争夺。
链接:Sam Altman访谈
工具与基础设施
Modular平台支持AMD/NVIDIA跨GPU运行
Modular Platform 25.4实现同一代码在AMD MI300X与NVIDIA Blackwell GPU上运行,预填充密集型任务吞吐量提升53%,开源45万行Mojo内核代码。
链接:平台更新
Hugging Face Gradio MCP黑客松落幕
Hugging Face举办的Gradio MCP黑客松吸引2500+开发者参与,赞助金额达700万美元,获奖项目包括Geo Calculator MCP与LLM Game-Hub。
链接:黑客松结果
OpenHands CLI开源编码工具发布
All Hands AI推出OpenHands CLI,无需Docker即可部署,编码准确率接近Claude Code,支持命令确认与Slash指令。
链接:工具介绍
Multiverse:开源非自回归推理框架
首个支持并行推理的非自回归框架,能力接近传统AR模型,推理速度提升2倍,数据、模型、工具完全开源,提供完整代码、预训练权重、微调工具及社区贡献指南,支持主流大模型适配。
链接:Multiverse官网、GitHub仓库
Proactor主动式智能体
首个自动感知情境的AI助手,无需用户输入即可自主识别需求并执行任务(如会议纪要、日程安排),支持多模态数据整合。
链接:Proactor AI
教程与指南
Veo 3 Prompt完全指南(上篇)
解析基础提示词结构,涵盖主体、场景、风格三要素,附案例演示。
链接:Veo 3上篇
Veo 3 Prompt完全指南(中篇)
详解动态效果控制技巧,包括镜头运动、帧率调整、画面稳定性参数设置。
链接:Veo 3中篇
Veo 3 Prompt完全指南(下篇)
行业应用实战,覆盖电商广告、社交媒体短视频制作流程与优化方法。
链接:Veo 3下篇
UnslothAI强化学习指南:RLHF基础
从零讲解人类反馈强化学习(RLHF),含数据标注方法、奖励模型训练步骤。
链接:强化学习指南
UnslothAI强化学习指南:PPO算法
详解近端策略优化(PPO)实现细节,提供代码示例与超参数调优建议。
UnslothAI强化学习指南:GRPO优势分析
对比GRPO与传统RL算法,阐述其在样本效率、稳定性上的改进及适用场景。
社区讨论与争议
AI模型几何推理能力不足
Reddit用户测试显示,Mistral Small 3.1、Gemma 3 27B等模型均无法解决基础几何问题,暴露视觉推理短板。
链接:测试结果
OpenAI GPT-5进展遭质疑
Sam Altman在播客中暗示GPT-5可能无显著基准提升,引发社区对OpenAI技术进展放缓的讨论,部分用户认为迭代过于保守。
链接:播客片段
Cursor用户抱怨Claude-4-Sonnet响应迟缓
多名Cursor用户反馈Anthropic Claude-4-Sonnet生成速度大幅下降,Anthropic状态页确认服务存在性能问题。
链接:用户反馈
硬件与性能优化
RTX 4090 Stable Diffusion性能突破
社区测试显示,RTX 4090运行1步SDXS模型可达294张/秒(512x512分辨率),优化后1280x1024分辨率下实现23fps视频生成。
链接:性能测试
LM Studio支持工具调用API
LM Studio通过API实现工具调用功能,用户可接入外部工具,但需自行构建环境,暂不支持内置工具集成。
链接:API文档
哲学与伦理探讨
AI语音输出信任度高于文本
研究表明,人类对AI语音输出的信任度(74%)显著高于文本(64%),可能与语音难以区分人机来源有关。
链接:研究论文
「AI精神病」现象引发关注
社区讨论指出,长期使用AI可能导致部分用户混淆虚拟与现实,产生「AI通灵」等非理性信念,凸显人机交互心理风险。
链接:现象分析
来源:Easy AI 日报
#EasyAI #AI日报 #AI教学
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。