MGPUSim与Akita框架

1. MGPUSim与Akita框架概述

随着数据并行工作负载的规模和复杂性日益增长，单GPU平台已难以满足高性能计算（HPC）领域对算力的极致需求。多GPU系统通过聚合多个GPU的计算能力和内存容量，成为当前及未来高性能计算的主流解决方案。然而，多GPU系统的复杂性也带来了微架构设计、互连结构、运行时库和编程模型等一系列挑战。

1.1 MGPUSim：面向AMD GCN3架构的多GPU模拟器

MGPUSim是一个开源的、高度灵活且性能卓越的多GPU模拟器，专门用于模拟基于AMD Graphics Core Next 3 (GCN3)指令集架构的GPU [116] [118]。该模拟器采用Go语言开发，旨在为计算机架构研究人员提供一个能够快速、并行化且准确地进行多GPU系统仿真的平台。

核心特性

• 高灵活性：轻松配置不同多GPU系统架构
• 高性能：支持多线程并行模拟
• 高准确性：与实际GPU硬件高度吻合

性能验证结果

5.5%

平均模拟误差

3.5×

功能仿真加速

2.5×

时序仿真加速

1.2 Akita：下一代计算机架构模拟框架

Akita是一个旨在构建下一代高性能、高灵活性计算机架构模拟器的框架，其设计特别关注开发者的使用体验 [5] [150]。Akita不仅仅是一个单一的模拟器，而是一个用于构建各种计算机架构模拟器的通用引擎。

Akita框架核心组件

基础硬件模型库

• 缓存模型（写直达/写回策略）
• TLB和内存控制器
• NoC（片上网络）组件
• 交换机和互连链路

开发辅助工具

• Daisen：Web可视化工具
• AkitaRTM：实时监视器
• ArchSim：模拟即服务平台

1.3 两者关系：MGPUSim作为Akita框架的实例化应用

MGPUSim与Akita框架之间的关系是实例与平台、应用与引擎的关系。MGPUSim并非一个从零开始独立开发的模拟器，而是基于Akita这一强大的模拟框架构建的，专门用于多GPU系统研究的特定实例 [148]。

特性	MGPUSim	Akita框架
定位	面向AMD GCN3架构的多GPU模拟器	模拟器构建引擎，用于创建各类架构模拟器
核心功能	模拟多GPU系统，支持GCN3 ISA，提供优化策略（Locality API, PASI）	提供事件驱动模拟核心、模块化组件库、开发工具（Daisen, AkitaRTM）
架构依赖	基于Akita框架构建 [5]	独立的底层框架

架构依赖关系

graph TB A["Akita Framework"] --> B["Event-driven Simulation Core"] A --> C["Modular Component Library"] A --> D["Development Tools"] C --> E["Network Models"] C --> F["Cache Models"] C --> G["Memory Controllers"] E --> H["PCIe"] E --> I["NVLink"] M["MGPUSim"] --> J["GCN3 GPU Models"] M --> K["Multi-GPU Interconnect"] M --> L["Optimization Strategies"] B --> M E --> M F --> M G --> M style A fill:#1a237e,color:#fff,stroke:#3949ab,stroke-width:2px style M fill:#3949ab,color:#fff,stroke:#5c6bc0,stroke-width:2px style B fill:#f8fafc,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style C fill:#f8fafc,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style D fill:#f8fafc,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style E fill:#e2e8f0,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style F fill:#e2e8f0,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style G fill:#e2e8f0,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style H fill:#ffffff,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style I fill:#ffffff,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style J fill:#ffffff,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style K fill:#ffffff,color:#1a237e,stroke:#5c6bc0,stroke-width:2px style L fill:#ffffff,color:#1a237e,stroke:#5c6bc0,stroke-width:2px

2. 多GPU互连的架构设计与实现机制

多GPU系统的性能在很大程度上取决于其互连网络的效率。一个设计优良的互连网络能够最大限度地减少GPU之间的通信延迟和带宽瓶颈，从而充分发挥多GPU系统的并行计算潜力。MGPUSim与Akita框架在设计和实现上，充分考虑了多GPU互连的复杂性和多样性，提供了一个通用、灵活且高精度的网络建模解决方案。

2.1 Akita框架的通用网络模型

设计理念

模拟多种互连类型（PCIe、NVLink等），实现通用性和可扩展性 @_syifan_/akita-now-supports-network-modeling-9825fdaed5e8">[66]

事件处理

通过事件分类机制确保模拟正确性，优先处理主要事件

拓扑支持

支持树形、总线、星形、网格等多种网络拓扑结构

核心网络组件

端点（Endpoint）

设备接入网络的接口，负责消息的收发和分片处理。

• 收集设备端口消息
• 分割成flit传输单元
• 重组接收到的flit

交换机（Switch）

网络中的路由和转发节点，负责flit的转发和冲突仲裁。

• 路由算法决定转发路径
• 仲裁算法解决端口冲突
• 支持多种网络特性配置

2.2 MGPUSim的多GPU互连实现

集成Akita网络模型

MGPUSim通过直接调用Akita框架提供的网络模型API，实现了对多GPU互连网络的周期级（cycle-level）模拟。这意味着模拟器能够精确地跟踪和计算每一个数据包在网络中的传输过程。

关键优势

• 精确计算通信延迟
• 真实反映NUMA效应
• 支持复杂网络拓扑

端点实现：消息分片与重组

端点作为GPU与互连网络之间的桥梁，负责处理所有进出GPU的网络流量。它将消息分割成flit进行传输，并在接收端重组完整消息。

交换机实现：路由与仲裁算法

交换机支持可配置的路由算法和仲裁算法，研究人员能够深入分析和比较不同策略对多GPU系统性能的影响。

3. 性能建模与优化策略

在多GPU系统中，性能瓶颈往往源于GPU之间低效的数据传输和通信。为了准确地评估和优化多GPU系统的性能，MGPUSim不仅提供了高精度的性能建模能力，还集成了多种创新的优化策略。

3.1 MGPUSim的性能建模方法

性能瓶颈分析

MGPUSim能够对一个多GPU系统进行全面的性能分析，帮助研究人员识别和理解系统中的主要性能瓶颈。通过周期级的模拟，可以精确统计各种性能指标。

计算时间与内存访问延迟分析

GPU间通信流量和延迟统计

缓存命中率与NUMA效应识别

准确性验证

为了确保性能建模的准确性和可靠性，MGPUSim经过了严格的验证，包括微基准测试验证和全基准测试验证 [149]。

5.5%

平均模拟误差

通过严格验证获得

3.2 优化策略：Locality API

设计目标

Locality API的核心设计目标是赋予程序员对数据和计算布局的精确控制能力，从而主动地优化数据局部性，减少跨GPU的数据传输开销 [116] [118]。

实现机制

通过提供一组API扩展，允许程序员明确地指定数据应该放置在哪个GPU的内存中，以及计算任务应该在哪个GPU上执行 [123]。

性能提升

1.6×

4-GPU系统几何平均值

3.3 优化策略：PASI（可编程加速共享内存）

设计目标

PASI旨在通过硬件自动调整数据在多GPU系统中的放置，来动态地优化数据局部性，对程序员完全透明，无需修改应用程序代码 [116] [118]。

智能页面迁移

根据访问模式动态迁移页面

页面分割机制

避免假共享问题

ESI一致性协议

保证数据一致性

2.6×

4-GPU系统几何平均值

显著优于Locality API

PASI实现机制

页面迁移控制器 (PMC)

处理L2缓存读写请求，判断远程数据获取需求

仅缓存内存架构

数据可在多个GPU上同时缓存，节省内存空间

三种实现方式

仅迁移、迁移+ESI、迁移+ESI+页面分割

4. 应用场景与评估方法

MGPUSim与Akita框架凭借其高灵活性、高性能和高准确性的特点，在计算机体系结构研究领域具有广泛的应用前景。它们不仅为研究人员提供了强大的工具来探索和评估下一代多GPU系统设计，还为优化现有应用程序在多GPU平台上的性能提供了有效的手段。

4.1 典型应用场景

架构设计与评估

研究人员可以利用MGPUSim高度灵活的配置能力，轻松构建和模拟各种不同的多GPU系统架构 [148]。

• 探索不同GPU互连拓扑
• 评估互连技术性能影响
• 研究缓存一致性协议

程序性能分析

通过MGPUSim内置的可视化分析工具Daisen，深入洞察应用程序在多GPU系统上的执行细节 [159]。

• 生成详细执行轨迹
• 定位性能瓶颈
• 优化数据划分策略

新型互连技术

为研究新型互连技术提供理想平台，评估其在多GPU系统中的性能表现。

• 硅光子互连研究
• Chiplet互连方案
• 能效和性能权衡分析

4.2 评估方法与验证结果

评估指标

性能

应用程序执行时间，直接评估模拟器准确性

带宽

GPU间峰值带宽、实际带宽及利用率

延迟

网络延迟、内存访问延迟等传输耗时

验证方法：与实际硬件对比

微基准测试验证

使用专门设计的微基准测试程序，独立测试L1/L2缓存、DRAM、ALU等关键组件性能 [149]。

验证结果：模拟曲线与真实硬件执行曲线几乎完全重合

全基准测试验证

使用AMD APP SDK和Hetero-Mark等标准基准测试套件的代表性应用程序 [149]。

测试平台：2个AMD R9 Nano GPU组成的多GPU系统

验证结果：模拟误差控制在5.5%以内

平均模拟误差 5.5%

极低的误差率充分证明了MGPUSim的准确性和可信度

性能表现

• 能够准确捕捉多GPU系统中的复杂交互行为
• 包括计算、通信和内存访问等方面
• 满足绝大多数计算机体系结构研究需求

注：在特定基准测试（如FIR和SC）中，误差峰值可能达到20%，主要由于未公开的GPU硬件细节难以完全复现 [149]。

MGPUSim与Akita框架

目录

MGPUSim与Akita框架 多GPU互连架构深度解析

核心特性

性能提升

1.1 MGPUSim：面向AMD GCN3架构的多GPU模拟器

核心特性

性能验证结果

1.2 Akita：下一代计算机架构模拟框架

Akita框架核心组件

基础硬件模型库

开发辅助工具

1.3 两者关系：MGPUSim作为Akita框架的实例化应用

架构依赖关系

2.1 Akita框架的通用网络模型

设计理念

事件处理

拓扑支持

核心网络组件

端点（Endpoint）

交换机（Switch）

2.2 MGPUSim的多GPU互连实现

集成Akita网络模型

关键优势

端点实现：消息分片与重组

交换机实现：路由与仲裁算法

3.1 MGPUSim的性能建模方法

性能瓶颈分析

准确性验证

3.2 优化策略：Locality API

设计目标

实现机制

性能提升

3.3 优化策略：PASI（可编程加速共享内存）

设计目标

PASI实现机制

页面迁移控制器 (PMC)

仅缓存内存架构

三种实现方式

4.1 典型应用场景

架构设计与评估

程序性能分析

新型互连技术

4.2 评估方法与验证结果

评估指标

性能

带宽

延迟

验证方法：与实际硬件对比

微基准测试验证

全基准测试验证

验证结果：模拟误差控制在5.5%以内

性能表现

研究前景与发展方向

当前成就

未来发展

讨论回复

MGPUSim与Akita框架
多GPU互连架构深度解析