现代 GPU 编程有一个矛盾:硬件越来越复杂——Tensor Core、异步拷贝、集群级同步——但给程序员暴露的抽象层要么太高(隐藏所有细节,编译器替你决定一切),要么太低(你手动管理每个线程的寄存器,崩溃边缘试探)。Triton 选择了中间路线:用块级编程模型让程序员写 tile 运算,编译器负责线程级的编排。但当你要利用 Tensor Core 的异步管道、或协调多个 warp 之间的数据流动时,Triton 的抽象就不够用了。
Guan、Yu 和团队(和 ChipMATE 同一批人)提出的 TLX——Triton Low-level Language Extensions——没有改变 Triton 的上层编程模型。它在 Triton 的基础上加了一层 warp 组级别的显式编排接口。他们管这个叫 MIMW:Multi-Instruction, Multi-Warp。不是让每个线程一条指令,而是让每个 warp 组执行独立的指令流,同时在 warp 组之间保留显式的协调机制。
几个具体的扩展接口:多 warp 执行接口让一个块里的多个 warp 各司其职而不是同步执行——一个 warp 搬数据,一个 warp 做计算,一个 warp 处理边界。本地内存编排接口让程序员控制 shared memory 的跨 warp 共享模式,而不是全交给编译器分配。异步操作接口暴露硬件层面的异步拷贝管道(async copy)和屏障。集群感知控制让多 GPU 集群中同一个计算节点的 warp 之间知道彼此的存在。
这些 kernel 已经部署到了大规模训练和推理生产系统。硬要说性能的话——和手工优化的库相比有竞争力,开发工作量大幅降低。
不清楚的地方:论文说"有竞争力"但没有给出具体的性能对比数字。新接口的学习曲线如何?Triton 的卖点是简单,TLX 增加了显式编排,会不会让 Triton 变得和 CUDA 一样复杂?
参考文献
-
Guan, Y., Yu, H., Chen, P., et al. (2026). TLX: Hardware-Native, Evolvable MIMW GPU Compiler for Large-scale Production Environments. arXiv:2605.10905 [cs.AR].
-
Tillet, P., Kung, H. T., & Cox, D. (2019). Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations. PLDI.
-
NVIDIA. (2025). CUDA Programming Guide: Asynchronous Data Movement and Tensor Core Operations.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。