第八章:未来展望与挑战
经过七章的学习,我们系统地掌握了多模态大模型的理论、技术和应用。从基础概念到核心技术,从代表模型到实战案例,从模型训练到评估优化,我们走过了一段充实的学习旅程。
在本章,也就是最后一章,我们将展望未来:总结当前的发展现状,分析面临的主要挑战,预测未来的发展趋势,并提供学习资源和进阶路径。希望这一章能为你指明前进的方向。
8.1 多模态大模型的现状总结
技术发展回顾
多模态大模型的发展经历了几个重要的阶段。
┌─────────────────────────────────────────────────────────────────────────────┐
│ 多模态大模型发展时间线 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 2014-2017 2018-2020 2021-2022 2023-至今 │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │婴幼儿期 │ │童年期 │ │少年期 │ │青年期 │ │
│ │基础探索 │ │奠定基础 │ │能力爆发 │ │实际应用 │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │神经机器│ │Transformer│ │GPT-3 │ │GPT-4V │ │
│ │翻译 │ │BERT │ │DALL-E │ │Gemini │ │
│ │图像描述 │ │CLIP │ │BLIP │ │LLaVA │ │
│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │
│ │
│ 主要特点: 主要特点: 主要特点: 主要特点: │
│ • 初步探索 • 架构创新 • 大规模预训练 • 原生多模态 │
│ • 图文匹配 • 预训练范式 • 能力涌现 • 统一架构 │
│ • 任务单一 • 多模态融合 • 生成能力突破 • 广泛应用 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:用"人的成长"来类比多模态AI的发展:
婴幼儿期(2014-2017年):
- 多模态AI刚刚起步,像婴儿学说话一样蹒跚前行
- 主要关注基础的图文匹配,让机器学会"看图说话"
- 代表工作:神经机器翻译、图像描述生成、VQA(视觉问答)
- 特点:蹒跚学步,有了很多"第一次",但还离不开大人(标注数据)
童年期(2018-2020年):
- 像孩子上学一样,开始系统学习,打下坚实的技术基础
- Transformer架构像"课本"一样成为学习的基础
- 预训练范式确立,像学会了学习方法
- 代表工作:CLIP(学会了图文对比)、BERT(学会了文本理解)、GPT-2(学会了生成)
- 特点:学习基本技能,快速成长,开始有一定的自主能力
少年期(2021-2022年):
- 进入了青春期,能力开始爆发,像少年突然长高变聪明
- 大规模预训练模型涌现,像孩子吃了"成长营养素"
- 多模态融合技术成熟,各种能力开始协调
- 代表工作:GPT-3(涌现出强大能力)、DALL-E(学会了创作)、BLIP(学会理解)
- 特点:能力爆发,充满潜力,开始有自己的想法(生成能力)
青年期(2023年至今):
- 成年了,成熟稳重,开始承担社会责任
- 进入实际应用阶段,真正解决问题
- 多模态大模型统一出现,一个模型能干多种活
- 代表工作:GPT-4V(视觉理解专家)、Gemini(原生多模态)、LLaVA(开源助手)
- 特点:成熟稳重,开始承担重任,真正走向社会(应用)
当前技术水平
当前的多模态大模型已经达到了相当高的水平。让我用一个雷达图来展示当前各维度的能力:
┌─────────────────────────────────────────────────┐
│ 多模态大模型能力雷达图 │
│ (满分5分制) │
├─────────────────────────────────────────────────┤
│ │
图像生成 │ · 知识推理 │
●●●●○ │ · · │
4.2分 │ · · │
│ · · │
│ · · │
│ · │
│ 图像理解 · 语音 │
│ ●●●●● 处理 │
│ 4.8分 ●●●●○ │
│ 4.3分 │
│ · · │
│ · · │
│ · · │
│ 视频理解 · · │
│ ●●●●○ · 语言理解 · │
│ 3.9分 · ●●●●● · │
│ · 4.6分 · │
│ · · │
│ 跨模态推理 · 多模态生成 │
│ ●●●●○ · ●●●●○ │
│ 3.8分 · 4.1分 │
│ · │
│ │
└─────────────────────────────────────────────────┘
注释:图像理解能力详解:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 图像理解能力层次 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 层级 能力 典型任务 当前水平 人类水平 差距 │
│ ───────────────────────────────────────────────────────────────────────── │
│ L1 物体识别 分类/检测 ████████░░ ████████░░ 0% │
│ L2 场景理解 场景分类 ████████░░ ████████░░ 0% │
│ L3 属性理解 颜色/大小 ████████░░ ████████░░ 0% │
│ L4 关系理解 空间关系 ████████░░ ████████░░ 5% │
│ L5 行为理解 动作识别 ████████░░ ████████░░ 10% │
│ L6 意图理解 情感/目的 ████████░░ ████████░░ 20% │
│ L7 常识推理 因果推理 ████████░░ ████████░░ 30% │
│ │
│ █ = 模型水平 ░ = 与人类差距 │
│ │
│ 趋势:低层级任务已接近人类水平,高层级任务仍有差距 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- 物体识别:准确率超过人类水平,在标准数据集上错误率低于1%
- 场景理解:能够准确理解复杂场景,包括室内外、自然城市等各类场景
- 视觉问答:在VQA等基准测试上表现优秀,能回答复杂的图文问题
- 图像推理:能够进行复杂的视觉推理,如找不同、推理因果等
注释:图像生成能力详解:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 图像生成能力发展历程 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 时间轴 │
│ 2020 2021 2022 2023 2024 2025 │
│ │ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ ▼ │
│ ┌───┐ ┌───┐ ┌───┐ ┌───┐ ┌───┐ ┌───┐ │
│ │GAN│ ──▶ │VAE│ ──▶ │Diffusion│ ──▶ │CLIP│ ──▶ │Transformer│ ──▶ ? │
│ └───┘ └───┘ └───┘ └───┘ └───┘ └───┘ │
│ │
│ 能力提升曲线: │
│ │
│ 质量评分 │
│ 5 │ ●●●●● 接近照片级 │
│ │ ●●●●●●○ │
│ 4 │ ●●●●●○○○ │
│ │ ●●●●○○○ │
│ 3 │ ●●●●○○○ │
│ │ ●●●●○○○ │
│ 2 │ ●●●●○○○ │
│ │ ●●●●○○○ │
│ 1 │●●○○○○○ │
│ └─────────────────────────────────────────────────▶ 时间 │
│ 2020 2021 2022 2023 2024 2025 │
│ │
│ 关键突破: │
│ • 2020: GAN达到实用水平 │
│ • 2022: DALL-E 2展示强大生成能力 │
│ • 2023: Midjourney达到商业级质量 │
│ • 2024: 视频生成Sora震惊世界 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- 图像质量:从模糊到清晰,从简单到复杂,达到接近照片级真实感
- 风格控制:从写实到抽象,从油画到卡通,支持各种艺术风格
- 内容可控:通过文字精确控制生成内容,包括构图、色彩、细节等
- 多模态生成:图文结合的创意生成,支持故事配图、海报设计等
注释:语音处理能力详解:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 语音处理能力对比 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 语音处理能力雷达图 │ │
│ │ │ │
│ │ 语音识别 │ │
│ │ ●●●●● │ │
│ │ / \ │ │
│ │ 语音合成 ●──┼──● 情感识别 │ │
│ │ \ / │ │
│ │ ●●●● │ │
│ │ 语音翻译 │ │
│ │ │ │
│ │ 能力评分(满分5分): │ │
│ │ • 语音识别:4.7分(接近人类转录水平) │ │
│ │ • 语音合成:4.5分(高度自然的声音) │ │
│ │ • 语音翻译:4.2分(支持多语言实时翻译) │ │
│ │ • 情感识别:3.8分(能够识别语音中的情感) │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ 典型应用场景: │
│ ┌─────────┬─────────┬─────────┬─────────┐ │
│ │ 智能客服 │ 会议纪要 │ 语音助手 │ 有声读物 │ │
│ ├─────────┼─────────┼─────────┼─────────┤ │
│ │ ASR+TTS │ 转录 │ 交互 │ 合成 │ │
│ │ 实时对话 │ 摘要 │ 控制 │ 阅读 │ │
│ └─────────┴─────────┴─────────┴─────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- 语音识别:Whisper等模型达到接近人类转录水平,支持多种语言和口音
- 语音合成:VALL-E等模型达到高度自然的声音,几乎难以区分真人和AI
- 语音翻译:支持多语言实时翻译,跨语言沟通无障碍
- 情感理解:能够识别语音中的情感和意图,语音助手更懂你
注释:多模态融合能力详解:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 多模态融合能力架构 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 统一表示空间 │ │
│ │ Unified Space │ │
│ └────────┬────────┘ │
│ │ │
│ ┌──────────────────┼──────────────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 视觉 │ │ 文本 │ │ 音频 │ │
│ │ Encoder│◀─────▶│ Adapter│◀─────▶│ Encoder │ │
│ └────┬────┘ └─────────┘ └────┬────┘ │
│ │ │ │
│ ▼ ▲ ▼ │
│ ┌─────────┐ │ ┌─────────┐ │
│ │ Image │ │ │ Audio │ │
│ │ Patch │ │ │ Frame │ │
│ └─────────┘ │ └─────────┘ │
│ │ │
│ ┌──────────────────────┼──────────────────────┐ │
│ │ ▼ │ │
│ │ ┌─────────────────┐ │ │
│ │ │ Cross-Modal │ │ │
│ │ │ Attention │ │ │
│ │ └────────┬────────┘ │ │
│ │ │ │ │
│ │ ┌─────────────┼─────────────┐ │ │
│ │ ▼ ▼ ▼ │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │ 视觉理解│ │跨模态推理│ │多模态生成│ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ │ │
│ │ │ │
│ └──────────────────────────────────────────┘ │
│ │
│ 融合方式: │
│ ① Early Fusion:早期融合,在输入层融合各模态 │
│ ② Late Fusion:晚期融合,在决策层融合各模态 │
│ ③ Cross Fusion:交叉融合,通过注意力机制相互融合 │
│ ④ Hybrid Fusion:混合融合,结合多种融合方式 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- 跨模态理解:能够理解多模态信息之间的语义关系和对应关系
- 多模态生成:能够同时生成多种模态内容,如图文并茂的文章
- 端到端处理:从输入到输出端到端优化,无需中间步骤
代表性成果
近年来,多模态大模型领域涌现了许多里程碑式的成果。
┌─────────────────────────────────────────────────────────────────────────────┐
│ 多模态大模型里程碑矩阵 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 时间 模型 机构 突破 意义 │
│ ───────────────────────────────────────────────────────────────────────── │
│ 2021.01 CLIP OpenAI 图文对比学习 建立图文关联新范式 │
│ 2021.08 DALL-E OpenAI 文本到图像 开启AI绘画时代 │
│ 2022.04 BLIP Salesforce 视觉-语言预训练 统一理解生成 │
│ 2022.11 GPT-3.5 OpenAI 指令遵循 大模型能力突破 │
│ 2023.03 GPT-4V OpenAI 视觉理解 多模态成为标准 │
│ 2023.07 LLaVA MIT 开源多模态 民主化进程加速 │
│ 2023.12 Gemini Google 原生多模态 新一代架构范式 │
│ 2024.02 Sora OpenAI 视频生成 世界模拟器雏形 │
│ 2024.09 GPT-4o OpenAI 原生多模态 实时多模态交互 │
│ │
│ 技术突破类型分布: │
│ ┌──────────────────────────────────────────────────────────────────────┐ │
│ │ 模型架构创新 ████████████████████░░░░░░░░░░░░░░ 45% │ │
│ │ 训练方法创新 ██████████████░░░░░░░░░░░░░░░░░░░ 30% │ │
│ │ 应用场景突破 ████████░░░░░░░░░░░░░░░░░░░░░░░░░ 20% │ │
│ │ 数据/效率突破 ████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 5% │ │
│ └──────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:模型层面的突破:
| 模型 | 机构 | 核心贡献 | 影响 |
|---|---|---|---|
| GPT-4V | OpenAI | 强大的视觉理解能力 | 展示多模态的实际价值 |
| DALL-E 3 | OpenAI | 高质量的文本到图像生成 | 创意设计领域革命 |
| Gemini | 原生多模态架构突破 | 新一代模型范式 | |
| Sora | OpenAI | 视频生成能力突破 | 世界模拟器可能性 |
| LLaVA | MIT | 开源多模态对话模型 | 民主化重要一步 |
注释:技术层面的创新:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 核心技术创新时间线 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 2017 2020 2021 2022 2023 2024 │
│ │ │ │ │ │ │ │
│ │ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ ▼ │
│ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │Trans│ │ CLIP│ │BLIP │ │LoRA │ │Sora │ │GPT-4o│ │
│ │form │ │ │ │ │ │ │ │ │ │ │ │
│ │er │ │ │ │ │ │ │ │ │ │ │ │
│ └─┬───┘ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ └──┬──┘ │
│ │ │ │ │ │ │ │
│ └────────┴─────────┴─────────┴─────────┴─────────┘ │
│ │
│ 技术类型分布: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 架构创新 ████████ 35% ████████ 训练方法 35% │ │
│ │ │ │
│ │ 数据策略 ████ 15% ████ 效率优化 15% │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- CLIP:大规模图文对比学习,建立图文关联新范式
- LoRA:高效参数微调技术,让微调成本大幅降低
- Diffusion:高质量图像生成范式,超越GAN
- Transformer:统一各种任务的基础架构
注释:应用层面的落地:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 多模态AI应用成熟度矩阵 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 应用领域 成熟度 典型产品 市场渗透率 │
│ ───────────────────────────────────────────────────────────────────────── │
│ 对话AI ██████████░░ ChatGPT/Claude 60%+ │
│ AI绘画 ██████████░░ Midjourney 40%+ │
│ AI编程 ████████░░░░ GitHub Copilot 30%+ │
│ 智能客服 ████████░░░░ 各平台客服 50%+ │
│ 内容审核 ████████░░░░ AI审核系统 40%+ │
│ 医疗影像 █████░░░░░░░ 辅助诊断 15%+ │
│ 自动驾驶 ██████░░░░░░ 视觉系统 5%+ │
│ 教育辅导 ████░░░░░░░░ AI辅导工具 10%+ │
│ │
│ █ = 成熟度百分比 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- ChatGPT/Claude:对话AI的普及,改变人机交互方式
- Midjourney/Stable Diffusion:AI绘画的流行,创意设计新工具
- Copilot:AI辅助编程的广泛应用,程序员效率倍增
- 智能客服/助手:各行业的实际应用,降本增效明显
开源生态
多模态AI的开源生态已经非常繁荣。
┌─────────────────────────────────────────────────────────────────────────────┐
│ 多模态AI开源生态图 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 开发者社区 │ │
│ │ Developer │ │
│ └────────┬────────┘ │
│ │ │
│ ┌───────────────────────┼───────────────────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 模型 │ │ 工具 │ │ 数据 │ │
│ │ Models │ │ Tools │ │ Data │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
│ ┌────────┼────────┐ ┌─────────┼─────────┐ ┌───────┼───────┐ │
│ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼ │
│ ┌──┐ ┌──┐ ┌──┐┌──┐ ┌──┐ ┌──┐┌──┐ ┌──┐ ┌──┐ │
│ │LL│ │ST│ │WH││HF│ │LC │ │GI││OA│ │DA│ │RE│ │
│ │aV│ │ D│ │is││TF│ │an│ │ra││PE│ │TA│ │PO│ │
│ │A │ │ │ │pe││ │ │gC│ │di││N │ │ │ │S │ │
│ │ │ │ │ │r ││ │ │h │ │o ││ │ │ │ │ │ │
│ └──┘ └──┘ └──┘└──┘ └──┘ └──┘└──┘ └──┘ └──┘ │
│ LLaVA Stable Whis Hugging LangChain Gradio Open Dataset Repos │
│ Diffusion per Face AI PAI │
│ │
│ 生态统计(2024年): │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 模型下载量: 10亿+ 次/月 │ │
│ │ GitHub Star: 100万+ │ │
│ │ 贡献者数量: 50万+ │ │
│ │ 项目数量: 10万+ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:开源模型:
| 模型 | 特点 | 下载量 | 适用场景 |
|---|---|---|---|
| LLaVA | 开源的多模态对话模型 | 100万+ | 对话、视觉问答 |
| BLIP-2 | 高效的视觉-语言预训练 | 50万+ | 图像理解 |
| Whisper | 开源的语音识别模型 | 200万+ | 语音转文字 |
| Stable Diffusion | 开源的图像生成模型 | 500万+ | AI绘画 |
| Qwen-VL | 阿里开源多模态模型 | 30万+ | 中文多模态 |
注释:开源工具:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 开源工具功能矩阵 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 工具 定位 核心功能 活跃度 学习难度 │
│ ───────────────────────────────────────────────────────────────────────── │
│ Transformers 模型库 模型加载/使用 ★★★★★ ★★☆☆☆ │
│ LangChain 应用框架 链式调用/RAG ★★★★★ ★★★☆☆ │
│ LlamaIndex 数据索引 知识库构建 ★★★★☆ ★★★☆☆ │
│ Gradio Web界面 快速部署 ★★★★★ ★☆☆☆☆ │
│ Streamlit Web界面 数据应用 ★★★★★ ★☆☆☆☆ │
│ PyTorch 深度学习框架 模型训练 ★★★★★ ★★★☆☆ │
│ │
│ 工具使用建议: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 初学者:Gradio → Streamlit → Transformers │ │
│ │ 进阶者:LangChain → LlamaIndex → 自定义链 │ │
│ │ 开发者:PyTorch → 自定义模型 → 部署优化 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- Hugging Face Transformers:统一的模型库,提供数千个预训练模型
- LangChain:大模型应用开发框架,构建复杂AI应用
- LlamaIndex:RAG开发框架,高效利用知识库
- Gradio/Streamlit:快速构建AI应用界面
注释:开源社区:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 学习资源导航图 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────┐ │
│ │ 多模态AI学习地图 │ │
│ └──────────┬──────────┘ │
│ │ │
│ ┌─────────────────────┼─────────────────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 官方文档 │ │ 课程 │ │ 社区 │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
│ ┌────┼────┐ ┌─────┼─────┐ ┌────┼────┐ │
│ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼ │
│ Hugging PyTorch Coursera Stanford Hugging GitHub arXiv 知乎 │
│ Face 官方 edX CS231n Face Discussions │
│ 教程 /CS224n 论坛 │
│ │
│ 推荐学习路径: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Step 1: 入门教程 → 官方Quick Start │ │
│ │ ↓ │ │
│ │ Step 2: 基础课程 → Coursera深度学习专项 │ │
│ │ ↓ │ │
│ │ Step 3: 进阶学习 → 斯坦福视觉/NLP课程 │ │
│ │ ↓ │ │
│ │ Step 4: 实战项目 → 开源项目复现 │ │
│ │ ↓ │ │
│ │ Step 5: 深入研究 → arXiv论文 + 社区讨论 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- Hugging Face社区:最大的机器学习社区,模型、数据集、教程一应俱全
- GitHub开源项目:追踪最新开源实现,参与贡献
- 技术博客和教程:各路大神的经验分享
- 学术论文和预印本:arXiv是获取最新研究成果的最佳来源
本节小结
多模态大模型经历了从萌芽到成熟的快速发展过程。
技术发展回顾:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 技术发展阶段总结图 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 婴幼儿期(2014-2017) ████ 童年期(2018-2020) ██████ 少年期(2021-2022) │
│ ───────────────────────────────────────────────────────────────────────── │
│ • 初步探索 • 架构创新 • 大规模预训练 │
│ • 图文匹配 • 预训练范式 • 能力涌现 │
│ • 任务单一 • 多模态融合 • 生成能力突破 │
│ │
│ 青年期(2023至今) │
│ ─────────────────── │
│ • 原生多模态 │
│ • 统一架构 │
│ • 广泛应用 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- 2014-2017:婴幼儿期,基础探索,任务单一
- 2018-2020:童年期,奠定基础,架构创新
- 2021-2022:少年期,能力爆发,模型涌现
- 2023至今:青年期,实际应用,原生多模态
当前技术水平:
| 能力维度 | 水平评估 | 发展趋势 |
|---|---|---|
| 图像理解 | ★★★★★ | 接近人类水平 |
| 图像生成 | ★★★★☆ | 快速发展中 |
| 语音处理 | ★★★★☆ | 接近人类水平 |
| 多模态融合 | ★★★☆☆ | 持续进步 |
代表性成果:
- GPT-4V、Gemini等强大的多模态模型
- CLIP、LoRA等技术创新
- 广泛的实际应用落地
开源生态:
- 丰富的开源模型和工具(Hugging Face、LangChain等)
- 活跃的社区生态(GitHub、arXiv等)
- 便利的学习和开发资源
思考题:回顾多模态AI的发展历程,你觉得哪个技术突破最重要?为什么?
8.2 当前面临的主要挑战
技术挑战
尽管取得了巨大进展,多模态大模型仍然面临许多技术挑战。
挑战一:计算资源需求巨大
┌─────────────────────────────────────────────────────────────────────────────┐
│ 计算资源需求对比图 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 模型参数规模与计算资源需求: │
│ │
│ 参数规模 │
│ │ │
│ 100B │ ● GPT-4 │
│ │ ● Gemini Ultra │
│ 10B │ ● GPT-3.5 │
│ │ ● Gemini Pro │
│ 1B │ ● LLaVA-13B │
│ │ ● LLaVA-7B │
│ 100M │● Whisper │
│ │ │ │
│ └─────────────────────────────────────────────────────▶ │
│ 1万 100万 1000万 1亿 │
│ 训练成本(美元) │
│ │
│ ████████░░ 成本估算(实际数据): │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 模型 训练成本 所需GPU 训练时间 │ │
│ │ ───────────────────────────────────────────────────────────────── │ │
│ │ GPT-3 $4-5百万 1000+ V100 3-4个月 │ │
│ │ GPT-4 $1亿+ 10000+ A100 3-6个月 │ │
│ │ Gemini Ultra 估计$2亿+ 10000+ TPU 6-12个月 │ │
│ │ LLaVA-13B $10万+ 8-16 A100 1-2周 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- 大模型的训练需要海量计算资源
- 只有少数科技巨头能够负担
- 造成技术垄断和资源不平等
- 学术机构和中小企业难以复现前沿模型
注释:具体表现:
- GPT-4训练成本估计超过1亿美元
- Gemini Ultra需要大量TPU训练
- 学术机构难以复现前沿模型
- 个人开发者几乎无法参与训练
注释:解决方向:
- 高效训练技术(LoRA、量化、剪枝)
- 专用硬件加速(TPU、NPU等)
- 云计算和资源共享(云计算平台)
- 知识蒸馏(知识传递)
挑战二:长尾分布问题
┌─────────────────────────────────────────────────────────────────────────────┐
│ 长尾分布问题示意图 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 数据分布曲线: │
│ │
│ 频率 │
│ │ │
│ │ ████ ████ │
│ │ █████ █████ │
│ │ ██████ ████ ██████ │
│ │ ████████ █████ ████████ │
│ │ ███████████████████████ █████████████ │
│ │ █████████████████████████████████████████████ │
│ └──────────────────────────────────────────────────────────────────▶ │
│ 头部 主体 尾部 │
│ (常见) (普通) (罕见) │
│ │
│ 问题可视化: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 常见场景(头部): │ │
│ │ ✓ 识别猫狗、汽车、交通灯 │ │
│ │ ✓ 理解日常对话 │ │
│ │ ✓ 处理标准图像 │ │
│ │ │ │
│ │ 罕见场景(尾部): │ │
│ │ ✗ 识别珍稀动物(鸭嘴兽、穿山甲) │ │
│ │ ✗ 理解专业术语(医学、法律) │ │
│ │ ✗ 处理非标准图像(水下、显微、红外) │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- 训练数据无法覆盖所有情况
- 罕见情况(长尾)的表现不佳
- 实际应用中容易出错
- 分布外泛化是核心难题
注释:具体表现:
- 罕见物体识别困难(如珍稀动植物)
- 特殊场景理解错误(如极端天气)
- 冷门语言支持不足(如小语种)
- 异常情况处理能力弱
注释:解决方向:
- 数据增强和合成(扩充长尾数据)
- 专门针对长尾的优化(重采样、损失调整)
- 持续学习和适应(在线学习)
- 元学习和小样本学习(快速适应新任务)
挑战三:常识和物理推理
┌─────────────────────────────────────────────────────────────────────────────┐
│ 常识推理能力对比 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 人类 vs AI的常识推理对比: │
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 人类 AI(当前) 差距 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ 物理直觉 ████████████ ████░░░░░░░░░░ 60% │ │
│ │ 因果推理 ████████████ ███░░░░░░░░░░ 70% │ │
│ │ 常识知识 ████████████ █████░░░░░░░░ 50% │ │
│ │ 空间推理 ████████████ ██████░░░░░░░ 40% │ │
│ │ 时间推理 ████████████ █████░░░░░░░░ 50% │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ 失败案例: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 输入:"一个人在水下骑自行车" │ │
│ │ 人类理解:这是不可能的/荒谬的 │ │
│ │ AI可能:正常处理,生成水下骑车的图像 │ │
│ │ │ │
│ │ 输入:"把冰箱门打开然后关掉灯" │ │
│ │ 人类理解:关灯后冰箱门还是开着的 │ │
│ │ AI可能:忽略逻辑关系 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- 模型缺乏对物理世界的理解
- 常识推理能力有限
- 难以进行复杂的因果推理
- 世界模型尚未建立
注释:具体表现:
- 物理不合理的生成结果(如反重力物体)
- 因果关系理解错误(如混淆相关和因果)
- 常识性问题回答错误(如简单的物理问题)
- 长期规划能力不足
注释:解决方向:
- 具身智能和交互学习(通过与环境交互学习)
- 神经符号结合(符号推理+神经网络)
- 世界模型构建(学习世界运行规律)
- 多模态因果学习(学习因果关系)
挑战四:多模态对齐
┌─────────────────────────────────────────────────────────────────────────────┐
│ 多模态对齐挑战 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 对齐粒度对比: │
│ │
│ Level 描述 难度 示例 │
│ ───────────────────────────────────────────────────────────────────────── │
│ 粗粒度 全局语义匹配 ★☆☆☆☆ 图的主题 vs 文字主题 │
│ 中等粒度 区域-词汇对应 ★★★☆☆ 图像区域 vs 文本短语 │
│ 细粒度 像素-字符对应 ★★★★★ 图像像素 vs 文字token │
│ 极细粒度 语义细粒度 ★★★★★★ 细微语义差异识别 │
│ │
│ 对齐失败案例: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 图像:一只猫坐在窗台上,看着窗外的小鸟 │ │
│ │ 文字:猫看着鸟 │ │
│ │ 问题:AI可能无法对应"坐"vs"站"、"窗外"vs"窗外"等细节 │ │
│ │ │ │
│ │ 图像:一个人在打网球 │ │
│ │ 文字:打羽毛球 │ │
│ │ 问题:AI可能混淆网球拍和羽毛球拍的视觉特征 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ 视频理解挑战: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 时间序列: │ │
│ │ 帧1: 开车 → 帧2: 刹车 → 帧3: 撞车 → 帧4: 停车 │ │
│ │ AI理解:可能无法正确理解因果关系和时间顺序 │ │
│ │ │ │
│ │ 时序理解难点: │ │
│ │ • 动作开始/结束点识别 │ │
│ │ • 动作速度/节奏理解 │ │
│ │ • 动作因果关系 │ │
│ │ • 长时间依赖 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- 不同模态之间的对齐不够精确
- 细粒度理解能力有限
- 跨模态推理容易出错
- 时序建模是难点
注释:具体表现:
- 图文细节对应错误(小物体、属性)
- 视频时序理解困难(动作识别、事件检测)
- 音频-文本对齐不准确(语音情感、语调)
- 3D/空间关系理解不足
注释:解决方向:
- 更细粒度的对齐机制(像素级对齐)
- 多模态预训练优化(更好的对齐目标)
- 专门的对齐损失函数(对比学习改进)
- 时序建模增强(Transformer变种)
伦理与安全挑战
除了技术挑战,多模态AI还面临伦理和安全方面的挑战。
挑战五:虚假信息与深度伪造
┌─────────────────────────────────────────────────────────────────────────────┐
│ 虚假信息与深度伪造风险 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 深度伪造技术发展: │
│ │
│ 质量/真实度 │
│ │ │
│ 5.0 │ ● 2024 │
│ │ ● 2023 │
│ 4.0 │ ● 2022 │
│ │ ● 2021 │
│ 3.0 │ ● 2020 │
│ │ ● 2019 │
│ 2.0 │ ● 2018 │
│ │ ● 2017 │
│ 1.0 │● 2016 │
│ └─────────────────────────────────────────────────────▶ 年份 │
│ 2016 2018 2020 2022 2024 │
│ │
│ 风险矩阵: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 技术 风险等级 危害程度 检测难度 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ 换脸视频 高 极高 困难 │ │
│ │ AI生成图像 高 中高 困难 │ │
│ │ AI生成文本 中高 中高 中等 │ │
│ │ AI语音克隆 高 中 中等 │ │
│ │ 虚假新闻 中高 高 困难 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- AI生成的内容可以以假乱真
- 被用于制造虚假信息
- 威胁社会信任和信息安全
- 损害公众知情权
注释:具体表现:
- AI生成的虚假图像/视频(fake news)
- 伪造的名人言论(政治影响)
- 虚假的产品评价(经济欺诈)
- 身份冒充(诈骗)
注释:解决方向:
- 内容溯源和认证技术(C2PA标准)
- 检测AI生成内容的方法(AI vs AI)
- 法规和行业规范(立法监管)
- 公众教育(提高辨别能力)
挑战六:偏见与歧视
┌─────────────────────────────────────────────────────────────────────────────┐
│ 模型偏见来源与影响 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 偏见来源分析: │
│ │
│ 数据偏见 ←─── 训练数据中的历史偏见和社会刻板印象 │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 互联网数据偏见: │ │
│ │ • 英语内容占主导(其他语言边缘化) │ │
│ │ • 西方视角为主(文化偏见) │ │
│ │ • 男性内容更多(性别偏见) │ │
│ │ • 特定年龄段(年龄偏见) │ │
│ │ │ │
│ │ 社会历史偏见: │ │
│ │ • 职业性别刻板印象 │ │
│ │ • 种族/地域偏见 │ │
│ │ • 文化刻板印象 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 模型偏见 ←─── 学习并放大数据中的偏见 │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 输出偏见: │ │
│ │ • 职业推荐中的性别偏见 │ │
│ │ • 图像生成中的刻板印象 │ │
│ │ • 搜索结果的排序偏见 │ │
│ │ • 对话中的歧视性回复 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- 训练数据中的偏见被模型学习
- 导致输出的偏见和歧视
- 对特定群体造成伤害
- 加剧社会不平等
注释:具体表现:
- 性别偏见(职业推荐)
- 种族偏见(人脸识别)
- 文化偏见(内容推荐)
- 年龄偏见(广告投放)
注释:解决方向:
- 偏见检测和评估(公平性指标)
- 去偏见数据收集(多样化数据)
- 公平性约束的训练(对抗去偏)
- 输出过滤和后处理
挑战七:隐私与数据安全
┌─────────────────────────────────────────────────────────────────────────────┐
│ 隐私与数据安全挑战 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 隐私风险类型: │
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 风险1:训练数据记忆和泄露 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ • 模型可能记忆训练数据中的敏感信息 │ │
│ │ • 通过查询可能提取出原始数据 │ │
│ │ • 例子:ChatGPT有时会重复训练数据中的内容 │ │
│ │ │ │
│ │ 风险2:模型逆向攻击 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ • 通过模型输出推断训练数据 │ │
│ │ • Membership Inference Attack │ │
│ │ • Model Extraction Attack │ │
│ │ │ │
│ │ 风险3:隐私推断攻击 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ • 通过模型行为推断个人信息 │ │
│ │ • 攻击用户隐私 │ │
│ │ • 例子:从生成内容推断训练数据来源 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ 应对策略对比: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 技术 隐私保护 实用性 成熟度 开销 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ 差分隐私 高 中等 成熟 高 │ │
│ │ 联邦学习 高 高 发展中 中等 │ │
│ │ 数据脱敏 中 高 成熟 低 │ │
│ │ 合成数据 高 中 发展中 中等 │ │
│ │ 模型水印 中 高 成熟 低 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- 多模态模型需要大量数据训练
- 可能泄露训练数据的隐私
- 面临数据安全风险
- 合规要求日益严格
注释:具体表现:
- 训练数据记忆和泄露
- 模型逆向攻击(stealing)
- 隐私推断攻击
- 数据版权争议
注释:解决方向:
- 差分隐私技术(添加噪声保护)
- 联邦学习(数据不出本地)
- 数据脱敏和合成(隐私保护数据)
- 合规框架(GDPR、CCPA等)
挑战八:自主性与控制
┌─────────────────────────────────────────────────────────────────────────────┐
│ AI自主性与控制问题 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ AI能力增长曲线: │
│ │
│ 能力 │
│ │ │
│ 100│ ● 未来 │
│ │ ● GPT-6 │
│ 80│ ● GPT-5 │
│ │ ● GPT-4 │
│ 60│ ● GPT-3.5 │
│ │ ● GPT-3 │
│ 40│ ● GPT-2 │
│ │ ● GPT-1 │
│ 20│ ● BERT │
│ │● RNN/LSTM │
│ └──────────────────────────────────────────────────────────▶ 年份 │
│ 2015 2018 2020 2022 2024 2026 2028 │
│ │
│ 控制能力对比: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ AI能力 人类控制 差距 风险 │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ 短期(1-2年) 中等 高 小 低 │ │
│ │ 中期(3-5年) 高 中等 中 中 │ │
│ │ 长期(5-10年) 很高 低 大 高 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:问题的本质:
- AI系统越来越强大
- 自主决策能力增强
- 人类控制能力面临挑战
- 对齐问题尚未解决
注释:具体表现:
- AI做出意外决策
- 难以解释AI的决策
- AI目标与人类目标不一致
- 价值对齐问题
注释:解决方向:
- 可解释AI技术(XAI)
- 安全约束和护栏(guardrails)
- 人机协作机制
- 价值对齐研究
社会影响挑战
多模态AI的发展也带来了广泛的社会影响。
挑战九:就业与经济影响
┌─────────────────────────────────────────────────────────────────────────────┐
│ AI对就业市场影响分析 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 行业影响矩阵: │
│ │
│ 行业 影响程度 替代风险 创造机会 净影响 │
│ ───────────────────────────────────────────────────────────────────────── │
│ 内容创作 高 高 高 待定 │
│ 客户服务 高 高 中 减少 │
│ 图像设计 中高 中高 中 转型 │
│ 编程开发 中高 中 中高 增强 │
│ 翻译服务 高 高 低 减少 │
│ 教育辅导 中 中 中 转型 │
│ 医疗诊断 中 低 高 增强 │
│ 科学研究 中 低 高 增强 │
│ │
│ 新兴职业机会: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ • AI训练师(数据标注、模型调优) │ │
│ │ • AI协作师(人机协作设计) │ │
│ │ • AI伦理师(AI伦理合规) │ │
│ │ • AI产品经理(AI产品设计) │ │
│ │ • 提示工程师(Prompt Engineering) │ │
│ │ • AI安全专家(AI安全防护) │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:影响分析:
- 自动化可能替代某些重复性工作
- 创造新的工作机会(AI相关)
- 劳动力市场结构变化
- 技能需求转型
注释:具体表现:
- 创意工作者面临竞争(设计师、作家)
- 客户服务岗位自动化(客服、咨询)
- 新兴AI职业出现(AI训练师、提示工程师)
- 技能要求变化(AI素养)
注释:应对策略:
- 教育和培训升级(AI素养教育)
- 社会保障体系完善(UBI讨论)
- 新职业培养(转型支持)
- 人机协作模式(增强而非替代)
挑战十:数字鸿沟
┌─────────────────────────────────────────────────────────────────────────────┐
│ AI技术普惠与数字鸿沟 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 全球AI发展不均衡: │
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 地区对比: │ │
│ │ ──────────────────────────────────────────────────────────────── │ │
│ │ │ │
│ │ 北美/西欧: │ │
│ │ ✓ 先进研究机构 │ │
│ │ ✓ 充足计算资源 │ │
│ │ ✓ 成熟创业生态 │ │
│ │ ✓ 完善基础设施 │ │
│ │ │ │
│ │ 中国/印度: │ │
│ │ ✓ 庞大应用市场 │ │
│ │ ✓ 政府大力支持 │ │
│ │ ○ 部分领域领先,整体追赶 │ │
│ │ │ │
│ │ 其他地区: │ │
│ │ △ 研究能力有限 │ │
│ │ △ 计算资源不足 │ │
│ │ △ 基础设施缺乏 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ 鸿沟类型: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 技术鸿沟:模型能力差距、基础设施差距 │ │
│ │ 数据鸿沟:数据资源不均、语言覆盖不全 │ │
│ │ 人才鸿沟:AI人才分布不均、教育资源差距 │ │
│ │ 应用鸿沟:数字化程度差异、采用率差异 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
注释:影响分析:
- AI技术发展不均衡
- 可能加剧数字鸿沟
- 技术普惠面临挑战
- 全球治理需求
注释:具体表现:
- 发达地区vs欠发达地区(技术差距)
- 大企业vs小企业(资源差距)
- 年轻人vs老年人(数字素养差距)
- 英语vs其他语言(语言覆盖差距)
注释:应对策略:
- 技术普惠和可及性(开源模型、云计算)
- 数字素养教育(全民AI教育)
- 包容性技术发展(多语言、低门槛)
- 国际合作与援助(技术转让)
本节小结
多模态大模型面临多方面的挑战。
技术挑战:
┌─────────────────────────────────────────────────────────────────────────────┐
│ 技术挑战紧迫性矩阵 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 紧迫性 │
│ │ │
│ 高 │ █ 长尾分布问题 █ 计算资源需求 │
│ │ █ 常识推理 █ 多模态对齐 │
│ │ │
│ 中 │ █ 实时性能 █ 可解释性 │
│ │ █ 效率优化 █ 鲁棒性 │
│ │ │
│ 低 │ █ 用户体验 █ 部署便捷 │
│ │ │
│ └──────────────────────────────────────────────────────────▶ 难度 │
│ 容易 中等 困难 极难 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
- 计算资源需求巨大:前沿模型训练成本高达数亿美元
- 长尾分布问题:罕见情况表现不佳,泛化能力有限
- 常识和物理推理:缺乏对物理世界的深入理解
- 多模态对齐:细粒度跨模态理解仍需改进
伦理与安全挑战:
- 虚假信息与深度伪造:AI生成内容以假乱真风险
- 偏见与歧视:数据偏见导致输出偏见
- 隐私与数据安全:训练数据记忆和泄露风险
- 自主性与控制:AI能力增长带来的对齐挑战
社会影响挑战:
- 就业与经济影响:自动化对劳动力市场的冲击
- 数字鸿沟:技术发展不均衡加剧不平等
思考题:在众多挑战中,你认为哪个最紧迫需要解决?为什么?
8.3 未来发展趋势展望
技术趋势
趋势一:原生多模态架构
┌─────────────────────────────────────────────────────────────────────────────┐
│ 原生多模态 vs 组合式多模态 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 组合式多模态(当前主流) │
│ ──────────────────────────────────────────────────────────────── │
│ │
│ Image ──┐ Text ──┐ Audio ──┐ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │ ViT │ │ LLM │ │ ASR │ │
│ └─────┘ └─────┘