# LLaMA模型
> Meta开发的开源大语言模型
## ArchitectureView - index
- Tokenizer 分词器
- 将输入文本转换为模型可以理解的 token 序列
- 使用高效的编码算法将文本分解为子词单元
- LLaMA-3 采用 128K 词表大小的 tokenizer
- 支持多语言文本处理
- 提高编码效率,减少序列长度
- Embedding 嵌入层
- 将 token ID 映射到高维向量空间
- 每个 token 被映射为一个高维向量
- 包含位置编码信息
- 为后续处理提供语义表示
- 支持上下文理解
- Decoder 解码器
- LLaMA 的核心组件,由多个 Decoder Block 堆叠而成
- 采用 Decoder-Only 架构
- 包含多头自注意力机制
- 使用 masked attention 确保因果性
- 包含前馈神经网络层
- Self-Attention 自注意力
- 计算序列中不同位置间的关联性
- 分别计算 Query、Key、Value 向量
- 使用 softmax 计算注意力权重
- LLaMA-2/3 引入分组查询注意力(GQA)
- 支持长序列建模
- MLP 前馈网络
- 多层感知机,进行非线性特征变换
- 两个全连接层组成
- 使用激活函数增加非线性
- 扩展模型的表达能力
- 包含残差连接
- Output 输出层
- 生成下一个 token 的概率分布
- 线性层映射到词表维度
- 输出每个 token 的概率
- 支持多种解码策略
- 生成最终的文本序列
- 架构可视化组件
- 支持交互式点击查看各个组件的详细信息
- 将输入文本转换为模型可以理解的
- 词表大小的
- 映射到高维向量空间
- 被映射为一个高维向量
- 的核心组件,由多个
- 堆叠而成
- 确保因果性
- 自注意力
- 分别计算
- 计算注意力权重
- 引入分组查询注意力(
- 前馈网络
## DataFlowAnimation - index
- 今天天气很好
- 文本输入
- 用户输入的原始文本
- "今天天气很好"
- 原始文本字符串
- 分词处理
- 将文本分解为 token 序列
- [今天, 天气, 很, 好]
- 转换为高维向量表示
- 自注意力
- 计算词间关联度
- 词向量矩阵
- 加权后的表示
- 前馈网络
- 非线性特征变换
- 注意力输出
- 精炼的特征
- 生成输出
- 预测下一个词
- 最终特征
- 下一个词的概率分布
- 数据流动画组件
- 动态展示数据在
- 模型中的处理流程
- 今天天气很好"
- 将文本分解为
- 数据流处理动画
- 观看数据在
- 模型中的处理过程
- 当前步骤
- 输入数据
- 输出结果
## EvolutionTimeline - index
- 2023年2月
- 首个开源大规模语言模型
- 在1T token语料上预训练
- 迅速成为开源社区热门
- Transformer Decoder-Only架构
- RMSNorm标准化
- SwiGLU激活函数
- Rotary位置编码
- 2023年7月
- 预训练语料扩充到2T tokens
- 上下文长度翻倍到4,096
- 引入分组查询注意力(GQA)
- 分组查询注意力机制(GQA)
- 改进的预训练数据
- 更强的安全性对齐
- 商业友好的开源许可
- 2024年4月
- 支持8K长文本处理
- 采用128K词表大小的tokenizer
- 使用超过15T token训练数据
- 高效的128K词表tokenizer
- 大幅增加的训练数据规模
- 增强的多语言能力
- 更优的指令跟随能力
- LLaMA-1
- LLaMA-2
- LLaMA-3
- 发展历程组件
- 的演进时间线
- 语料上预训练
- 激活函数
- 位置编码
- 预训练语料扩充到
- 上下文长度翻倍到
- 引入分组查询注意力(
- 分组查询注意力机制(
- 长文本处理
- 词表大小的
- 使用超过
- 训练数据
- 发展历程
- 的技术演进
- 详细信息
- 参数规模
- 上下文长度
- 主要亮点
- 核心创新
- 主要特性
## HomePage - index
- 架构可视化
- 交互式探索 LLaMA 的 Decoder-Only 架构
- 数据流动画
- 观看数据在模型中的处理流程
- 发展历程
- 了解从 LLaMA-1 到 LLaMA-3 的演进
- 参数对比
- 直观对比不同版本的模型参数
- 首页组件
- 概念的简介和各个学习模块的入口
- 交互式探索
- 模型学习
- 通过交互式可视化深入理解
- 的大型语言模型
- 的纯解码器架构,专注于文本生成任务
- 大规模预训练
- 在海量文本数据上训练,具备强大的语言理解和生成能力
- 开源优势
- 开源模型促进了整个
- 社区的发展和创新
- 开始你的学习之旅
- 选择一个模块深入了解
- 开始学习
- 发展概览
- 主要版本
- 最大参数量
- 训练数据
## Navigation - index
- 发展历程
- 参数对比
- 导航组件
- 提供各个学习模块的导航链接
- 学习平台
## ParameterComparison - index
- 7B参数
- 8B参数
- 13B参数
- 30B参数
- 65B参数
- 70B参数
- 400B参数
- 训练数据(T tokens)
- 上下文长度
- 参数规模对比
- 不同版本的模型参数数量
- 训练数据演进
- 训练数据规模的增长趋势
- 上下文处理能力的提升
- 模型分布
- 各版本模型数量分布
- LLaMA-1
- LLaMA-2
- LLaMA-3
- 参数对比组件
- 使用图表展示不同
- 版本的参数对比
- 训练数据
- 上下文长度"
- 参数对比分析
- 通过数据可视化了解
- 系列的技术演进
- 参数规模增长
- 参数,到
- 参数,模型规模实现了
- 倍增长,显著提升了模型能力。
- 训练数据激增
- 训练数据从
- 倍,为模型性能提升提供了坚实基础。
- 上下文扩展
- 上下文长度从
- 倍的提升使模型能够处理更长的文档和复杂的对话场景。
---
#EasyAI #AI教学 #教程
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!