发布日期:2024-09-09 00:26 点击次数:151
新智元报说念极品熟女
剪辑:乔杨 Frey
【新智元导读】用的GPU,但不错无须CUDA?PyTorch官宣,借助OpenAI开荒的Triton言语编写内核来加速LLM推理,不错已矣和CUDA肖似甚而更佳的性能。
试问,有些许机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰?
又有些许开荒者曾因为时时精明的警报「CUDA版块必须与安设的PyTorch匹配!!!」而企图炸键盘?
不管是TensorFlow还是Pytorch,GPU和CUDA搭配的主意早已真切骨髓。
若是我说,就在昨天,有款为LLM「量身定作念」的CUDA-free推理上新了!你激不答允?
原文地址:https://pytorch.org/blog/cuda-free-inference-for-llms/?hss_channel=tw-776585502606721024
那么,让咱们紧跟Pytorch的官方时期博客,一探究竟!望望它是怎么将「解放」变为实际!
GPU的好搭子CUDA
CUDA(Compute Unified Device Architecture)到底是何方神物?为何被视为GPU的好搭子,LLMs的「利器」?
它是由英伟达开荒的用于并行计算平台和应用法式的编程API,闪开荒者能通过GPU开展高性能计算,包括:
1. 多个能并行处理任务的中枢,已矣多线程
2. 多种高效措置GPU内存的方法,如全局内存、分享内存和常量内存
3. 创建并措置多条并行线程,提高数据处理斥逐
4. 编译器、调试器和性能分析器具构成的器具链,,匡助开荒者优化代码
简而言之,CUDA使GPU加速LLM检修变为实际,大幅裁汰了检修时刻。
100%的Triton内核
Pytorch最近发表了一篇时期博客,他们以两个模子——Llama3-8B和IBM的Granite-8B Code为例,100%使用Triton内核已矣了FP16推理。
Granite-8B Code是由IBM开荒的一种仅限解码器的代码模子,专为代码生成任务设想。
仓库地址:https://huggingface.co/ibm-granite/granite-8b-code-base-4k
值得注意的是,PyTorch指出他们已矣了F16推理,也即是使用半精度浮点计算。
FP32单精度浮点数
F16半精度浮点数
联系于FP32,使用FP16不错将位数减少一半,因而减少了所需内存,允许使用更大的模子或更大的批大小,且数据传输速率更快。
与F32比较,英伟达GPU提供的FP16将算术笼统量提高了8倍,大幅加速了数学受限层的检修速率。
此外,PyTorch团队还防护强调,计算全部是依赖OpenAI的Triton言语引申的。
Triton是一种用于编写高效自界说深度学习基元的言语和编译器。
Triton的开荒者努力于成立一个开源环境,以比CUDA更高效地编写代码,同期也祈望它比现存的特定规模言语(domain-specific language)更具活泼性。
论文:https://www.eecs.harvard.edu/~htk/publication/2019-mapl-tillet-kung-cox.pdf
仓库:https://github.com/triton-lang/triton
团队发现,在英伟达H100上使用Triton内核检修模子,性能可达CUDA内核的76%~78%,在A100上也能达到62%~82%。
既然比较CUDA有一定的性能亏本,那为什么要全部使用Triton言语?
PyTorch团队称,Triton已矣了LLM在GPU上的「可移植性」,能越过多个不同个品牌的硬件,如英伟达、AMD、英特尔等。
此外,它还在Python中为GPU编程提供了更高的「详细层」,使开荒者有契机编写自界说的具备更高性能的内核。
最终,通过在H100和A100上使用Llama3-8B和Granite-8B的Triton和CUDA变体,并进行推理阶段的基准测试,PyTorch团队阐明了,Triton内核能已矣CUDA-Free的计算,且生成token的笼统量有显贵普及。
内核架构
以Llama3为例,经典的Transformer块由一般由以下部分构成:
其中波及的中枢操作包括:
- RMS归一化
- 矩阵乘法:交融QKV矩阵
- 旋转位置编码(RoPE)
- Flash Attention
- 矩阵乘法:投影为为输出矩阵
- RMS归一化
- 矩阵乘法:交融门控+进取投影
- 激活函数SiLU
- 逐元素(element-wise)矩阵乘法
- 矩阵乘法:向下投影
这些操作中都需要一个或多个GPU内核进行计算,天然不同的Transformer模子的引申细节可能有所不同,但中枢操作是肖似的。
举例,与Llama 3不同,IBM的Granite 8B Code模子在MLP层中使用了bias,此类改变如实需要对内核的修改。
将这些Transformer块堆叠在通盘,再皆集编码层,就构成了一个经典的Transformer模子。
模子推理
这些架构代码都会包含在model.py文献中,在PyTorch的eager引申口头下,C会启动CUDA内核引申这些代码。
为了让Llama3-8B和Granite-8B模子100%用Triton言语已矣端到端推理,咱们需要手写Triton内核(kernel),或诈欺torch.compile模块自动生成。
关于较小的操作,比如 RMS归一化、RoPE、SiLU函数和element-wise矩阵乘法,torch.compile不错自动生成Triton内核。
使用Nsight等器具即可对这些内核进行不雅察,如下图所示,自动生成的内核披露为QKV乘法和flash attention之前的深绿色方块:
使用torch.compile追踪 Llama3-8B,披露CUDA内核
通过Nsight的追踪信息不错不雅察到,在Llama3-8B中,占端到端蔓延80%的两个主要操作是矩阵乘法和注意力内核,何况它们依旧由CUDA内核操作。
为了进一步普及性能,咱们启出手写Triton内核来替换上述两个操作。
手写Triton内核
矩阵乘法
关于线性层中的矩阵乘法,编写一个自界说的 FP16 Triton GEMM (General Matrix-Matrix Multiply)内核,引申通用的矩阵-矩阵乘法,其中诈欺了SplitK进行责任认识。
为了已矣最好性能,还使用了穷举搜索来颐养SplitK GEMM内核。
因为每个线性层的权重矩阵都有不同的体式,若是要赢得最好性能,就需要针对每种矩阵体式颐养Triton内核。
Granite-8B和Llama3-8B的线性层权重矩阵规格如下:
颐养每个线性层后,比较未颐养的Triton内核,不错已矣1.2倍的端到端加速。
Flash Attention
Triton的flash attention内核有一系列不同着实立和已矣,包括:
- AMD Flash
- OpenAI Flash
- Dao AI Lab Flash
- XFormers Flash
- PyTorch FlexAttention
最初,取舍eager口头,之后用torch.compile的法式方法进行编译,并对文本生成质地进行评估;
上表追想了第2~5个内核「开箱即用」时的发达。
这些斥逐标明,若是指标是构建一个端到端的坐褥级内核,那么领有一个能跑基准测试的内核还远远不够。
后续测试中使用AMD flash attention内核,因为它不错通过torch.compile进行编译,且在eager和compile口头下都有明晰的输出。
为了倨傲torch.compile与AMD flash attention内核的兼容性,咱们需要自界说torch运算符,主要包括以下两步:
1. 将函数包装到PyTorch自界说运算符中
2. 在运算符中添加一个FakeTensor Kernel,给定flash输入张量的体式(q、k 和 v),它不错提供一种计算flash内核输出体式的方法
将模子中的运算换为Triton的自界说内核后,就能告捷地进行编译和运行,Nsight追踪信息如下图所示:
对比图5不错发现,图6即是100%使用Triton内核的前向计算。
基准测试
基准测试中使用Granite-8B和Llama3-8B模子,在英伟达H100和A100上进行单GPU运行,并界说了两种不同着实立:
Triton内核确立使用:
1. Triton SplitK GEMM
2. AMD Triton Flash Attention
CUDA 内核确立使用:
1. cuBLAS GEMM
2. cuDNN Flash Attention - 缩放点积注意力 (SDPA)
在典型的推理设立下,eager和torch编译口头的笼统量和token间蔓延如下:
批大小=2,输入序列长度=512,输出序列长度=25
Triton模子在H100上的性能最高可达CUDA模子的78%,在A100上的性能最高可达82%。两者间性能的差距可动力于矩阵乘法和flash attention的内核蔓延,下一节将详备臆想。
微基准测试
解码蔓延时刻对比,输入是浪漫辅导,批大小=1,辅导长度=44
将端到端推理中的各部分进行单独对比,咱们注意到以下两点:
1. Triton的matmul内核比CUDA慢1.2~1.4倍
2. AMD的Triton Flash Attention内核比CUDA SDPA慢1.6倍
这些斥逐标明,需要进一步普及GEMM和Flash Attention等关节原语的内核性能。
比如最近提倡的FlashAttention-3、FlexAttention等责任提供了更好的方法来诈欺底层硬件,有但愿在此基础上为Triton进一步加速。
将 FlexAttention与SDPA和AMD 的 Triton Flash内核进行比较,微基准测试斥逐披露,Flex有望被用于陡立文更长、解码规模更大的问题场景。
英伟达H100 SXM5 80GB上的FlexAttention内核基准测试
过去预测
接下来,咱们祈望进一步优化矩阵乘法(matmuls),以更充分地诈欺硬件。
比如使用不同的责任认识方法(肖似StreamK的抓久内核时期),以加速基于Triton的方法。
咱们还祈望陆续探索FlexAttention和FlashAttention-3,进一步削弱Triton和CUDA间的差距。
以上的实验只针对FP16精度,但早前的连络标明,与cuBLAS FP8 GEMM比较,FP8 Triton GEMM内核发达更好。因此接下来的责任还会筹商端到端FP8 LLM推理。
参考费力:
https://pytorch.org/blog/cuda-free-inference-for-llms/?utm_content=306418723&utm_medium=social&utm_source=twitter&hss_channel=tw-776585502606721024
上一篇:小母狗 文爱 HR范围奇妙的“1-2-7”感奋,你了解若干?
下一篇:极品熟女 6日3只个股股价创历史新高 散播在机械建树、交通输送行业