静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

米哈游 LPM 1.0:视频角色表演生成模型的突破性进展

✨步子哥 @steper · 2026-04-23 05:30 · 81浏览

米哈游 LPM 1.0:视频角色表演生成模型的突破性进展

米哈游 LPM 1.0:视频角色表演生成模型的突破性进展

背景与发布

米哈游创始人蔡浩宇在新加坡创立的AI公司Anuttacon,于2026年4月9日在arXiv预印本平台发布了视频角色表演生成模型LPM 1.0(Large Performance Model)的论文【9†source】【13†source】。该模型旨在将静态图像转化为能够进行实时对话、带有细腻微表情和肢体动作的数字角色,实现高一致性、长时稳定的视频生成【10†source】。LPM 1.0的发布被视为米哈游“2030年打造十亿人虚拟世界”愿景的又一重要步骤【5†source】。

核心亮点

LPM 1.0专为高一致性视频角色表演生成设计,针对传统视频模型难以同时兼顾表现力、实时推理和长时稳定性的“表演三难问题”提出了解决方案【9†source】。其主要亮点包括:

    • 全双工实时对话:模型可同时处理用户说话(驱动角色倾听反应)和AI角色自己说话(驱动口型同步)两种音频流,实现低延迟的流式推理,支持无限时长的连续交互【9†source】【10†source】。官方案例中,LPM 1.0生成的视频可连续播放45分钟以上而角色形象和身份保持稳定【9†source】。
    • 无限时长 + 身份极稳:传统模型在长时间生成中容易出现角色特征漂移或崩塌,而LPM 1.0通过在线流式架构保持了长时间交互中的身份一致性,即使连续生成数小时,角色的外观和身份特征也保持稳定【9†source】【10†source】。微表情、眼神、肢体节奏等细节表现细腻,情绪演绎自然到位。
    • 多模态控制:模型接受图像/参考视频 + 音频 + 文本提示作为输入,支持写实、2D动漫、3D游戏风格乃至非人形角色的零样本泛化,无需针对新角色微调即可生成生动表演【9†source】【10†source】。文本可用于控制动作,音频驱动情感表达,图像定义角色身份,实现对角色表演的精细导演级控制【10†source】。
    • 应用场景:LPM 1.0被定位为对话式智能体、虚拟直播和游戏NPC的视觉引擎,可将单张图像转化为能够实时说话、倾听、反应的数字人【9†source】【10†source】。官网强调其“将图像转化为表演视频”的能力,为游戏NPC、虚拟主播等场景提供技术支撑【10†source】。

技术架构与训练

LPM 1.0采用170亿参数的扩散Transformer(Diffusion Transformer)架构,通过多模态条件实现高度可控且身份一致的表演生成【9†source】。团队构建了以人为中心的多模态数据集,对说话-倾听音视频配对、表演理解和身份感知多参考提取等进行了严格筛选和标注【9†source】。模型训练分为两个阶段:首先训练Base LPM(17B参数的双向DiT),然后将其蒸馏为Online LPM(因果流式生成器),以实现低延迟、无限长度的实时交互【9†source】。此外,团队还提出了LPM-Bench基准,用于系统评估交互式角色性能,LPM 1.0在所有评估维度上均达到了当前最佳(SOTA)水平【9†source】。

图1:LPM 1.0 与其他模型在LPM-Bench关键指标上的性能对比

背景与米哈游关联

Anuttacon是蔡浩宇在新加坡创立的AGI公司,专注于交互式内容和AGI产品研发【9†source】。此前,该公司已推出二次元风格的聊天模型“AnuNeko”和AI驱动的游戏《Whispers from the Star》(《群星低语》)【5†source】。LPM 1.0的研发体现了蔡浩宇对“AI+游戏”融合的持续投入,也是米哈游“技术宅拯救世界”理念的延伸【5†source】。虽然LPM 1.0目前仅供学术研究使用,不开放源码、API或商业化,但其技术成果被视为米哈游未来在游戏NPC和虚拟世界领域应用AI的重要基础【9†source】【10†source】。

社区反响与评价

LPM 1.0的发布在社区引发了广泛讨论。正面评价认为,该模型在长时一致性和表演细腻度上优势明显,有B站用户称其“情绪最到位”,让“二次元老婆实时对话成真”,对比其他视频模型(如Kling等)表现突出【9†source】。中性/质疑声音则指出,LPM 1.0专注于角色表演而非广度,被一些人戏称为“米哈游一贯的‘数字老婆’路线”,也有人强调目前还只是论文阶段,尚无实际可用产品【9†source】。整体来看,技术含量被普遍认可,但对其实际落地和商业化前景持观望态度【9†source】。

未来展望

LPM 1.0是米哈游/蔡浩宇AI布局中务实且具有针对性的一步,不追求通用大而全,而是专注死磕“角色表演”这一米哈游最擅长的赛道【9†source】。如果未来能将此技术落地到《原神》《崩坏》等游戏的NPC或新项目中,玩家的交互体验有望直接跃升【9†source】。目前来看,LPM 1.0的演示效果令人惊叹,但离大规模商用还有距离,需要持续关注其arXiv论文和项目官网的后续动态【9†source】。

参考资料: Anuttacon团队arXiv论文及项目主页【9†source】【10†source】;相关科技媒体报道【3†source】【5†source】【8†source】【13†source】。

讨论回复 (0)