面试中容易露馅的问题：大模型的训练和推理吃多少显存？

**Author:** 作者武辰

课代表： 01:07 推理阶段的显存之权重 04:26 推理阶段的显存之kvcache 06:43 训练阶段的显存之静态显存 08:52 训练阶段的显存之动态显存 11:43 强化学习的显存 13:24 LoRA的显存 15:19 MoE模型的显存

--- Transcript --- 哈喽大家好,今天我想分享一个在大模型面试过程中特别容易测出水分的问题就是大模型的显存估算问题那很多人在简历中写着自己熟悉大模型的训练和微调呀自己曾经训练过微调过大模型呀然后我顺着问他你这个权量微调一个气壁的模型你用了多少张卡呀显存带用大概是多少呀很多人就回答得自知乌了比如说我碰到过一个同学啊他说他只用了一张A100卡就全让微调了一个气壁的模型而且没有用任何的优化措施那我听到这个回答马上就知道他的项目肯定是包装的嘛项目是伪造的 OK那今天这个视频呢我就带大家来首司一遍来推理一遍大模型的显存估算的问题我主要会从两个方面来讲显存一个是推理阶段的显存一个是训练阶段的显存然后讲完之后呢还会讲三个特殊情况分别是强化学习 ROLA和MOE的情况 OK 然后我们先来讲推理阶段吧推理阶段是最简单的了推理阶段他包括他的显存包括两个方面的内容一个是权重一个是KVCash 权重的话我先花一分钟来讲一下记得基础知识在计算机里面最基本的单位叫做字节没错就是字节跳动的那个字节这是基本单位然后物理存储的最小单位叫做位一个字节呢它等于8位然后两个字节呢就是16位了嘛四个字节呢就是32位在以往的没有大模型的时代比如说在2022年以前我们训练模型推理模型一般来说都是用32位去做推理的然后在大模型时代呢一般来说是用16位的辅典数去做推理或训练这里有两种格式一种是FP16 第二种格式是BF16 他们都是16位的辅典数占用两个字节当然也有更加高阶的比如说量化量化版本 4比特量化那它是多少位啊 4比特量化就4位了那4位的话就是占用了0.5的字节我们一般来说还是以16位为主我今天所有讲的内容还是以16位为主它是占两个字节的好然后我再说一下计算机单位的换算好就1000个字节呢它对应的是1K的 1KB 然后1000个KB对应的是1兆这里就是1000嘛这里就是100万 1兆是100万然后1000兆它对应的是在计算机中它是对应的一计嘛它是10亿注意好这比其实严格来说应该是1024 它不是1000是1024 我只是一直检划了一下那对于我们这是对于内存和显存的一种计算方式那对于参数量也是一样的那对于参数量的话这里就不是按G来表示而是按B来表示按B来表示比如说我们说的7B的模型它对应的就是70亿的参数量了对吧然后又比如说一兆的模型就是对应的100万的参数量好的那我们回到权重这个话题来看比如说有个7B的模型它是不是有70亿个参数呀对吧其实一个参数那每个参数占用两个字节的话那就是140亿个字节那我换算一下 141个字节是不是对应的是14G的显存是吧 10亿对着1G 140亿就在对应着14G的显存了所以它这里大致有一个乘以二的关系一个7B的模型它会占有14G的显存好然后接下来的是KVcash KVcash我在之前的视频中专门的讲过我这里只是做一个简单的回顾在KVcash中我先拿一个token来举例它一个token会占有多少的显存呢我们计算这个公式二乘以L乘以H 然后再乘以二这里的二指的就是K和V 包括两个部分好 KVcash嘛一个K一个V嘛所以它是乘以二的然后这个L是layers的意思比如说我们还是以7B的模型为例一般来说7B的模型呢它可能是一个30奥尘吧一般来说是这样的当然也不一定然后这个H呢就是Head and Size的 Head and Size 一般来说7B的模型可能是4096的维度庆祿维度然后最后这个奥呢就是我刚刚说到的一般来说我们用FP16 或者BF16去存储的话它是占两个字节的所以这里就代表两个字节的意思那我算了一下二乘以30奥乘以4096乘以二它相当于0.5兆的内存这个很小对不对我现在随便一个安装包都几百兆了几个G的安装包了 0.5兆的内存不是很小吗没错很小但是它只是针对一个token来算的如果说我们对一般的任务它有4096个token 乘以4096个token的话那这里就直接变成两G了是不是两G大不大很大的如果说我的Batch Size为二的话我不是Batch Size为一 Batch Size为二的话那么这里就变成四G了是吧所以对于一个KV开始的话我们一个简单任务可能就会占用到两到四G的显存那么总结一下对于一个7B模型的推力的话它占用的显存是 14G大概加上一个4G 大概是18G的样子那么一个4090的卡是24G的显存是24G的显存是完全可以塞得下一个7B模型去做一个推力的这是推力阶段它比较好计算因为它就只有两块内容一个是权重一个是KVcash 那我们接下来到最重要的是训练阶段也是你大模型面试中最能露现的阶段训练阶段的显存我分为两个部分一个是静态显存一个是动态权质显存我还是以7B模型为例首先它的权重我刚刚推理的时候计算过它是占用14G对吧刚刚我已经推理过了然后一个权重会对于一个T度 T度是啥 T度就是我们要训练模型我们要去进行T度更新一个权重对于一个T度所以T度的显存也是40G的然后对于优化器的话我们一般来说还是用Adder优化器比较多这个优化器真的很烦人它包括三个东西第一个东西是权重你回问了我这里不是算了一个权重吗怎么这里还有吗对就是烦人的地方在这里 Adder优化器它会对权重做一个备份然后它会有一个一接动量和二接动量一接动量和二接动量然后更要命的是什么呢在这里它不是以FP16 它不是以16位来存储来计算的它是以32位来计算的 32位所以说这个权重它就不是14G的它是28G 这个也是28G 所以你看这个优化器简直就是显存炸弹对不对那么整个静态权重你看加起来磁氏加14加28加28加少28等于112 也就是说你看一般一个7B的模型它静态显存就占有112G了那一个A100的显卡它的显存最多是80G嘛你跟我说80G的东西怎么能占得下112G的显存呀可显然是扯淡嘛然后你回注意看这里有个16倍的关系嘛 7乘以16高的112 这是一个经验公式基本上一个静态显存就相当于模型差数量乘以个16倍好当然现在还会有一些乱七八糟的优化比如说这里可能未必是28G 可能会把它优化到14G以内当然这是一些比较前沿的学术问题了 OK 然后动态显存就是激活值就我们我们去训练模型我们肯定要把这个数据给喂个模型对不对那在神经网络中这是第一层然后这是第二层每一层每一层的激活值也要被写下来被记录下来了因为我们在T度反向传播的时候我们去算导数算T数是要用到每一层的激活值的这是基本的危机分的内容那既然要用到激活值所以激活值也必须写入到显存中区如果对于一个4096长度的 4096个Token长度的输入它占用的激活值大概是40G左右这个我就不推倒了有点复杂你就大概记一下它的一个直观的量级刚说的一个4096的输入它对KVCash可能是4个G 这里的激活值就会更多了对于一个7B的模型它对应要40G的显存那我们就可以做一个加法了金台显存要112G 中台显存是40G 加起来就等于156G了 156G了我一占A100是80G 两占A100是160G 我说的不好听一点 sorry 这是152G 说的不好听一点我两占A100的显卡都不一定能够权量微调一个A 权量微调一个7B的模型对吧你还跟我说一占显卡就能微调那显然是扯淡的当然也不是说没有办法有一些优化方法比如说T度检查点什么意思呢就是说我刚说到我们每一层都要去存储它的激活值对吧这是第一层这是第二层每一层都要去存储那有一种优化方法就是我不需要去存储每一层了比如说第二层这是第二层的激活值我不需要去存它我只需要等我需要用的时候我现在去推我把第一层的结果然后乘以参数矩阵就得到了第二层的激活值我现在去推的那么这个就可以节省显存但是它又有一个问题我现场去推的我现场去计算是不是需要时间所以T度检查点它是典型的一个以时间换空间的方法如果说你明天有一个很紧急的任务你必须明天就要训练好一个模型的话那么就不建议你去用T度检查点因为它会显著降低你的训练时间好的那我现在讲完了一个7B模型的训练阶段和推理阶段所用到的显存那么这现在已经足够覆盖到你大多数的疑问了然后接下来我来讲三个比较特殊的情况首先是强化学习强化学习呢我以最复杂的PPO为例吧 PPO它包括四个模型 Acto模型 Critic模型然后Reference模型和Revolve模型 Acto模型就是我们要训练要优化那个模型比如说7B为例它首先会占据到112G的显存对不对然后在PPO中Critic模型它和Acto模型是一模一样的它也要去进行训练所以它也会占用一个112G的显存所以说它直接在这里就变成翻倍了直接在这里就变成了224G的显存了光是看这两个东西它的显存就已经够恐怖了然后Reference模型和Revolve模型它不需要训练它只需要10世纪的显存然后此时还有一个彩蛋就是在PPO的过程中 KVcache也是一个显存炸弹你可能会问了 KVcache不是在推理物身中才有的吗怎么在这里就有了呢因为PPO它的数据是现场根据Acto模型推理一遍的结果来进行聚散的所以它必须要跑一遍推理这个时候KVcache也是显存炸弹如果说你在面试的过程中我说清楚明白这一点你说PPO的显存中不仅Creative模型它占用了一倍的显存甚至KVcache也占用了很多显存那面试官就会觉得你确实对强化学习有比较深的了解所以强化学习它完完全全就是一个显存炸弹一般人一般的实验室要用强化学习的话它是非常好显卡的也是非常好电的我们来到第四个内容就是Lola Lola就是说以往我们去训练模型的话比如说7B模型嘛全部所有7B的参数都要去微调都要去改动那就太大了对不对我们刚刚计算有152G的显存代价太大了那么Lola的意思就是说我不需要去把7B所有的参数都进行更新我只需要去更新部分参数那这个部分到底有多部分呢一般来说它是占据万分之六万分之六到千分之一的量级千分之一的量级比如说一个7B的模型嘛 7B的模型它是7000兆嘛 7000兆除1000的话就是7兆也就是说在Lola中一般来说只有7兆的参数量是会动态更新的那就好得美得很了对不对呃你看吧全中还是不变哈全中是主全中10G得加入但是我这个地方的我不需要10G了我只需要7兆了 7兆的参数量对应的应该就是呃 14兆了吧不需要14G 只需要14兆了同样的在这里我也不需要这么多了只需要几十兆了那么Lola的参数量训练参数量就是相当可帮的这是Lola的训练阶段那推理阶段其实还是一样的因为Lola他虽然说是只微调部分参数但是他推理的时候还是会对整个7B的模型进行推理所以说呃你说我训练了一个我用A1 一张A100 我可以通过Lola的方式一张A100 就能够去微调一个7B的模型这个是完完全全可行的好的然后最后呢我们来到了MOE的模型它是专家模型你看吧比如说我现在有一个签问的32B 然后A3B的模型这啥意思啊就是说这个模型的总参数量是32B 但是每次只会去对于每个Token 只会去激活3B的激活值这里就有个大坑了一个超大的坑你不能说它显存占用直接从32B砍到3B了为什么因为说你某个Token 可能是走这3B的专家通路但是其他Token 可能会走其他通路呀也就是说所有32B的参数都得待命状态只不过对于某些特定的Token 我只计算了3B的参数这是MOE的优势 MOE的优势就是说我原本有32B的参数要计算现在我只计算了3B 我计算量是十分之一但是我这32B的东西还是得老老实实在我的显存里面待命的所以说MOE模型它不会说把32B的显存砍到3B 不存在这样的情况然后在MOE的训练过程中其实它会更加好显存的因为MOE有一个隐形的坑号比如说 MOE有8个专家 1,2,3,4,5,7,8个专家然后它会偷懒比如说第一个专家很厉害那么所有的Token 就会不自觉的落入到第一个专家剩下234,567,8个专家就无人问津了没有人去访问他了这个时候会引入一些额外的惩罚或者说一些额外的骂死去引导Token 说你不要说你偏谈第一个专家你要娱乐金抓对不对额外的机制它也会占入一些显存的所以说 MOE的情况它不仅没有降低显存它在训练过程中是会更加多一点显存的而且它的推理阶段是不会把像是2B的显存砍掉的它的推理阶段还是一样的显存那今天这个视频我就大概讲了我们在大模型的显存锅上一些最基础的内容你了解这些内容那么去面对一些面试的话会更加有任由于当然我不建议你去造假也不建议你看这个视频你就去说你就去面试去伪造说自己训练了什么模型我建议你还是去动手比如说你在你有一个实际业务你要去微调一个模型或者说你去推理一个模型那这个时候你第一步先去加载模型你先加载模型你不要去跑也不要去推理也不要去训练你就去看一下当前的显存占有多少个G 然后这个时候你再去推理推理过程中你再看一下它的显存是怎么变化的然后第三步你去实际跑一遍训练跑一遍微调这个时候你再看一遍它的显存是怎么变化的然后甚至你在推理和训练的时候你可以去把这个Badge Size 去进行改变你看Badge Size 设为2和设为1 它的显存账量到底是多少纸上得来终决决真词是要攻击我强烈建议你们去动手只有在动手中你才知道原来我跑这个模型我在什么显卡上是cover住的是足够可以让我去跑一个多少币的显存多少币的模型 OK 以上就是我今天想要分享的所有内容谢谢大家