使用PyTorch 2.0 加速Hugging Face和TIMM库的模型

使用PyTorch 2.0 加速Hugging Face和TIMM库的模型_全球观天下

来源：时间：2022-12-27 07:05:01

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

(资料图片仅供参考)

PyTorch 2.0引入了**torch.compile()**来加速模型，这篇文章我们将介绍如何使用**torch.compile()**来加速Hugging Face和TIMM库的模型。

torch.compile() 使得尝试不同的编译器后端变得容易，从而使用单行装饰器 torch.compile() 使 PyTorch 代码更快。它可以直接在 nn.Module 上工作，作为 torch.jit.script() 的直接替代品，但不需要您进行任何源代码更改。我们希望这一行代码更改能够为您已经运行的绝大多数模型提供 30%-2 倍的训练时间加速。

opt_module=torch.compile(module)

torch.compile 支持任意 PyTorch 代码、控制流、变异，并带有对动态形状的实验性支持。我们对这一发展感到非常兴奋，我们将其称为 PyTorch 2.0。

这个版本对我们来说不同的是，我们已经对一些最流行的开源 PyTorch 模型进行了基准测试，并获得了 30% 到 2 倍的大幅加速（见https://github.com/pytorch/torchdynamo/issues/681）。

这里没有技巧，我们已经 pip 安装了流行的库，比如https://github.com/huggingface/transformers, https://github.com/huggingface/accelerate 和 https://github.com/rwightman/pytorch-image-models等流行的库，然后对它们运行 torch.compile() 就可以了。

很难同时获得性能和便利性，但这就是核心团队发现 PyTorch 2.0 如此令人兴奋的原因。Hugging Face 团队也很兴奋，用他们的话说：

TIMM 的主要维护者 Ross Wightman：“PT 2.0 开箱即用，适用于推理和训练工作负载的大多数 timm 模型，无需更改代码。”

Sylvain Gugger 是 transformers 和 accelerate 的主要维护者：“只需添加一行代码，PyTorch 2.0 就可以在训练 Transformers 模型时提供 1.5 到 2.x 的加速。这是引入混合精度训练以来最激动人心的事情！”

本教程将向您展示如何使用这些加速，这样您就可以像我们一样对 PyTorch 2.0 感到兴奋。

安装教程

对于 GPU（新一代 GPU 的性能会大大提高）：

pip3installnumpy--pretorch--force-reinstall--extra-index-urlhttps://download.pytorch.org/whl/nightly/cu117

对于CPU：

pip3install--pretorch--extra-index-urlhttps://download.pytorch.org/whl/nightly/cpu

当安装好后，你可以通过以下方式来进行验证：

gitclonehttps://github.com/pytorch/pytorchcdtools/dynamopythonverify_dynamo.py

另外一种安装方式是采用docker，我们还在 PyTorch nightly 二进制文件中提供了所有必需的依赖项，您可以使用它们下载：

dockerpullghcr.io/pytorch/pytorch-nightly

对于临时实验，只需确保您的容器可以访问所有 GPU：

dockerrun--gpusall-itghcr.io/pytorch/pytorch-nightly:latest/bin/bash

使用教程

让我们从一个简单的例子开始，一步步把事情复杂化。请注意，您的 GPU 越新，您可能会看到更显着的加速。

importtorchdeffn(x,y):a=torch.sin(x).cuda()b=torch.sin(y).cuda()returna+bnew_fn=torch.compile(fn,backend="inductor")input_tensor=torch.randn(10000).to(device="cuda:0")a=new_fn()

这个例子实际上不会运行得更快，但它具有教育意义。

以 torch.cos() 和 torch.sin() 为特色的示例，它们是逐点操作的示例，因为它们在向量上逐个元素地进行操作。你可能真正想要使用的一个更著名的逐点运算是类似 torch.relu() 的东西。eager模式下的逐点操作不是最优的，因为每个操作都需要从内存中读取一个张量，进行一些更改，然后写回这些更改。

PyTorch 2.0 为您所做的最重要的优化是融合。

回到我们的示例，我们可以将 2 次读取和 2 次写入变成 1 次读取和 1 次写入，这对于较新的 GPU 来说尤其重要，因为瓶颈是内存带宽（您可以多快地向 GPU 发送数据）而不是计算（您的速度有多快） GPU 可以处理浮点运算）。

PyTorch 2.0 为您做的第二个最重要的优化是 CUDA graphs。CUDA graphs有助于消除从 python 程序启动单个内核的开销。

torch.compile() 支持许多不同的后端，但我们特别兴奋的一个是生成 Triton 内核（https://github.com/openai/triton，用 Python 编写的，但性能优于绝大多数手写的 CUDA 内核）的 Inductor。假设我们上面的示例名为 trig.py，我们实际上可以通过运行来检查代码生成的 triton 内核：

TORCHINDUCTOR_TRACE=1pythontrig.py

@pointwise(size_hints=[16384],filename=__file__,meta={"signature":{0:"*fp32",1:"*fp32",2:"i32"},"device":0,"constants":{},"configs":[instance_descriptor(divisible_by_16=(0,1,2),equal_to_1=())]})@triton.jitdefkernel(in_ptr0,out_ptr0,xnumel,XBLOCK:tl.constexpr):xnumel=10000xoffset=tl.program_id(0)*XBLOCKxindex=xoffset+tl.reshape(tl.arange(0,XBLOCK),[XBLOCK])xmask=xindex
你可以验证融合这两个 sins 确实发生了，因为这两个 sin 操作发生在一个单一的 Triton 内核中，并且临时变量保存在寄存器中，可以非常快速地访问。
下一步，让我们尝试一个真实的模型，比如来自 PyTorch hub 的 resnet50。
importtorchmodel=torch.hub.load("pytorch/vision:v0.10.0","resnet18",pretrained=True)opt_model=torch.compile(model,backend="inductor")model(torch.randn(1,3,64,64))
如果您实际运行，您可能会惊讶于第一次运行很慢，那是因为正在编译模型。后续运行会更快，因此在开始对模型进行基准测试之前预热模型是常见的做法。
您可能已经注意到我们如何在此处使用“inductor”显式传递编译器的名称，但它不是唯一可用的后端，您可以在 torch._dynamo.list_backends() 中运行以查看可用后端的完整列表。为了好玩，您应该尝试 aot_cudagraphs 或 nvfuser。
现在让我们做一些更有趣的事情，我们的社区经常使用来自 transformers （https://github.com/huggingface/transformers） 或 TIMM （https://github.com/rwightman/pytorch-image-models）的预训练模型和我们的设计之一PyTorch 2.0 的目标是任何新的编译器堆栈都需要开箱即用，可以与人们实际运行的绝大多数模型一起工作。因此，我们将直接从 Hugging Face hub 下载预训练模型并对其进行优化。
importtorchfromtransformersimportBertTokenizer,BertModel#Copypastedfromherehttps://huggingface.co/bert-base-uncasedtokenizer=BertTokenizer.from_pretrained("bert-base-uncased")model=BertModel.from_pretrained("bert-base-uncased").to(device="cuda:0")model=torch.compile(model)#Thisistheonlylineofcodethatwechangedtext="Replacemebyanytextyou"dlike."encoded_input=tokenizer(text,return_tensors="pt").to(device="cuda:0")output=model(**encoded_input)
如果您从模型和 encoded_input 中删除 to(device="cuda:0") ，那么 PyTorch 2.0 将生成 C++ 内核，这些内核将针对在您的 CPU 上运行进行优化。你可以检查 Triton 或 C++ 内核的 BERT，它们显然比我们上面的三角函数示例更复杂，但如果你了解 PyTorch，你也可以类似地浏览它并理解。
相同的代码也可以https://github.com/huggingface/accelerate 和 DDP 一起使用。
同样让我们尝试一个 TIMM 示例：
importtimmimporttorchmodel=timm.create_model("resnext101_32x8d",pretrained=True,num_classes=2)opt_model=torch.compile(model,backend="inductor")opt_model(torch.randn(64,3,7,7))
我们使用 PyTorch 的目标是构建一个广度优先的编译器，该编译器将加速人们在开源中运行的绝大多数实际模型。Hugging Face Hub 最终成为我们非常有价值的基准测试工具，确保我们所做的任何优化实际上都有助于加速人们想要运行的模型。
本文翻译自https://pytorch.org/blog/Accelerating-Hugging-Face-and-TIMM-models/
              关键词：

新闻推荐

使用PyTorch 2.0 加速Hugging Face和TIMM库的模型_全球观天下

点蓝色字关注“机器学习算法工程师”设为星标，干货直达！PyTorch2 0引入了**torch compile()**来加速模型，这篇文章我们将介绍如何使用

来源：时间：2022-12-27 07:05:01
张若昀：人生低谷时，更想念疏离多年的妈妈

点击关注，每天都有名人故事感动您！张若昀最近，著名演员张若昀就1 4亿财务纠纷，向浙江省海盐县法院，正式起诉父亲张健及浙江南北湖梦都影业

来源：时间：2022-12-26 18:10:55
异动快报：宝明科技（002992）12月26日13点11分触及涨停板-全球信息

12月26日盘中消息，13点11分宝明科技（002992）触及涨停板。目前价格56 61，上涨10 01%。其所属行业光学光电子目前上涨。领涨股为宝明科技。该

来源：时间：2022-12-26 13:07:34
观速讯丨谢芳丈夫、原中国歌剧舞剧院歌剧团团长张目病逝，享年92岁

12月26日，据北京晚报报道：著名演员谢芳的丈夫、原中国歌剧舞剧院歌剧团团长、国家一级演员、书法家张目于12月25日在北京病逝，享年92岁。【

来源：时间：2022-12-26 07:27:06
全球看点：臻有钱网贷逾期多长时间不还会上征信吗

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构，而有些借贷机构则是会在几天后上报给征信机构，因为有些借贷机构可

来源：时间：2022-12-25 14:57:40
突传死讯！香港知名女星父亲因病离世，12岁女儿患基因病不会说话环球播报

本文编辑剧透社：issac突传死讯！据港媒最新报道，香港知名女星钟丽淇的父亲因病离世。钟丽淇在社交媒体上贴出父亲的照片，并且发布贴文进行了

来源：时间：2022-12-24 16:18:17
聚焦市场拓展，东方雨虹坚定赋能零售合作伙伴

为精准研判市场走势，进一步提振中原及东北三省拓展市场的信心，12月19日至22日，东方雨虹董事长李卫国率队赴郑州、濮阳、哈尔滨、长春、锦州

来源：时间：2022-12-23 23:00:39
全球观热点：杭华股份: 杭华油墨股份有限公司董事、监事、高级管理人员和核心技术人员所持公司股份及其变动管理制度（2022年12月）

杭华油墨股份有限公司董事、监事、高级管理人员和核心技术人员

来源：时间：2022-12-23 15:48:32
环球即时看！蒜蓉虾尾啤酒炖多久会熟小虾尾用啤酒炖多长时间

1、10-15分钟左右即可。2、虾尾洗净并去掉虾黄，加盐腌制2个小时左右，洗净后倒入料酒腌制十分钟左右，去除腥味。热锅凉油放入配料和虾尾，翻

来源：时间：2022-12-23 10:13:30
广西大学天文与空间科学技术团队取得深空探索重大观测成果

12月22日，广西大学召开新闻发布会，介绍其天文与空间科学技术团队

来源：时间：2022-12-23 00:05:49
同兴达(002845.SZ)：泰欣德合伙减持数过半已减持1.3%股份

格隆汇12月22日丨同兴达(002845)(002845 SZ)公布，截至2022年12月21日，公司股东泰欣德合伙本次减持计划的减持数量已过半，其已通过大宗交

来源：时间：2022-12-22 15:49:46
涨停雷达：葡萄酒个股异动莫高股份触及涨停

（原标题：涨停雷达：葡萄酒个股异动莫高股份触及涨停）今日走势：莫高股份（600543）今日触及涨停板，该股近一年涨停3次。异动原因揭秘：1、

来源：时间：2022-12-22 10:20:54
真机跟渲染图差距很大！米粉抢到小米13烈焰红：还好没被PPT迷惑真机YYDS_快消息

今日消息，一位米粉晒出了他抢到的小米13烈焰红配色，这是小米13系列的限定色，售价4999元。他说，幸好没有被PPT所迷惑，真机颜色好看，YYDS。

来源：时间：2022-12-21 20:57:10
江苏华辰（603097）12月21日主力资金净卖出357.51万元

截至2022年12月21日收盘，江苏华辰(603097)报收于17 48元，下跌3 59%，换手率4 15%，成交量1 66万手，成交额2930 31万元。

来源：时间：2022-12-21 14:57:18
商络电子：公司与机构投资者保持密切的沟通交流，近期已通过近20场反路演活动加深机构投资者对公司的了解天天观天下

商络电子(300975)12月21日在投资者关系平台上答复了投资者关心的问题。投资者：公司自上市以来，机构投资者基本没来调研过，公司是否邀请相关

来源：时间：2022-12-21 08:47:48
今日播报!球星24岁时进球数对比：内马尔257球居首梅西、C罗分列四五

1

来源：时间：2022-12-20 20:10:24
【全球报资讯】同方全球人寿荣获和讯网第二十届财经风云榜“年度值得关注财富传承保险产品”奖项

2022年12月20日，由和讯网主办的“第二十届中国财经风云榜之保险行业评选”结果重磅揭晓，本次评选以“固本强基行稳致远”为主题。“中国财经

来源：时间：2022-12-20 12:52:04
一句话点评11月中高级车：汉与Model 3冠军之争，即将见分晓-全球实时

一句话点评11月中高级车：汉与Model3冠军之争，即将见分晓

来源：时间：2022-12-20 07:05:53
世界速讯：台湾险企为新冠险认赔1500亿，为啥要众安保险理赔就这么难？

台湾险企为新冠险认赔1500亿，为啥要众安保险理赔就这么难？

来源：时间：2022-12-19 18:20:58
3小时！开发ChatGPT微信小程序-快播

导读|上周OpenAI发布了对话语言模型ChatGPT，相关讨论引爆全网。你是否也迫不及待体验一番？本文特邀作者腾讯云开发者社区作者戴传友从开发环

来源：时间：2022-12-19 13:43:53

物联网

建材

2021年度北京香山论坛专家视频会闭幕

第十三届中国舞蹈“荷花奖”民族民间舞评奖活动开幕

家居