LLM推理优化与部署实战

LLM推理优化与部署实战,课程,学习,专业,支持,人工智能,脚本,性能优化,第1张

帮助技术开发人员和人工智能工程师快速掌握大模型推理的基本逻辑、性能优化和工程部署策略,也填补了他们的技能空白。通过量化(INT4),减少延迟和成本已成为商业过程中的一个关键问题、系统加速等方法可显著降低成本,提高硬件利用率在85%以上。

 

LLM 谁适合推理实战课程?无论是人工智能工程师、后端/DevOps 工程师或硬件/云服务工程师可以在本课程中找到他们需要的解决方案。此外,本课程还专门针对计算机/人工智能专业的学生和职场转行者,帮助他们快速掌握大模型推理的核心技能。

 

完成本课程后,学生可以解决一系列性能、成本和工程痛点:
减少首词延迟:通过Flashattention和预填充优化技术显著减少延迟。
提高解码效率:采用GQA或PagedAtention等机制,有效提高模型的每个单词解码速度。
降低成本:利用AWQ/GPTQ量化方法,大模型显存需求大幅降低60%-80%。
通过持续批处理和算子融合技术提高GPU的使用效率,提高硬件利用率。

 

本课程分为五个模块,全面涵盖了从基础到部署的全链接知识:
1. 推理基础:包括预填充、解码阶段原理和KVCache机制。
2. 性能指标及评价:介绍TTFT/ITL等关键性能指标及其实际应用。
3. 模型压缩优化:涵盖AWQ/GPTQ量化方法和剪枝技术。
4. 运行时加速:重点讲解MQA、Flashatention算子融合等内容。
5. 部署实战总结:在不同场景下提供部署策略指导。

 

本课程的特点是结合理论和实践,不仅教授如何操作,而且深入解释其背后的原因。此外,每个链接都配备了实际的案例演示,并提供了详细的实验数据支持来解释显著的效果。本课程还将根据不同的业务需求推荐合适的技术堆栈匹配方案,避免常见的工程陷阱。

 

课后,学生可以在多种场景中应用所学知识:
优化现有LLM服务:通过AWQ将模型显存从16GB压缩到4GB。
硬件和框架选择指南:根据实际需要选择合适的GPU型号和推理框架(如VLLM或TRT)-LLM)。
构建高效检索增强生成系统:结合量化技术和PagedAttention,提高长上下文处理的效率。

高级学习场景:
1-1 介绍课程内容.mp4
1-2 LLM推理基础-预填和解码阶段.mp4
1-3 LLM推理基础-推理阶段与KVCache的关系.mp4
1-4 LLM推理基础-生成KVCache过程推演.mp4
1-5 LLM推理基础-为什么需要优化KVCache?.mp4
1-6 LLM推理基础-如何估计模型占用内存?.mp4
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4
1-8 LLM推理基础-列出LLM存储介质,如何处理参数.mp4
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4
1-10 LLM推理基础-章节总结.mp4
1-11 LLM性能指标-内容介绍.mp4
1-12 LLM性能指标-推理评估指标全景图.mp4
1-13 LLM性能指标-首词生成时间.mp4
1-14 LLM性能指标-每个单词的生成时间.mp4
1-15 LLM性能指标-端到端请求时间.mp4
1-16 LLM性能指标-系统吞吐量TPS.mp4
1-17 LLM性能指标-SLO业务指标.mp4
1-18 LLM性能指标-评估过程和工具.mp4
1-19 LLM性能指标-章节总结.mp4
1-20 模型压缩-内容介绍.mp4
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏-蒸馏.mp4
1-22 模型压缩-模型量化-参数存储空间的组成.mp4
1-23 AWQ和GPTQ模型压缩-模型量化前后使用的方法.mp4
1-24 PPL模型压缩-AWQ实验结果.mp4
1-25 模型压缩-AWQ量化过程-.mp4
1-26 模型压缩-GPTQ量化过程,IO策略优化.mp4
1-27 模型压缩-GPTQ量化工具.mp4
1-28 模型压缩-剪枝分类及工艺详细说明.mp4
1-29 模型压缩-模型蒸馏分类和应用场景.mp4
1-30 模型压缩-章节总结.mp4
1-31 操作加速方案-内容介绍.mp4
1-32 运行时加速方案-多注意力机制的原理和缺点.mp4
1-33 操作时加速方案-多头注意力计算过程及分析.mp4
1-34 加速方案-MQA和GQA机制,性能比较.mp4
1-35 加速方案-GPU操作与数据传输分析.mp4
1-36 加速方案-Flashattention切块和算子.mp4
1-37 运行时加速方案-Pagedatention原理分析.mp4
1-38 运行时加速方案-持续批处理原理分析.mp4
1-39 运行时加速方案-核心推理框架选型.mp4
1-40 运行加速方案-章节总结.mp4
1-41 推理部署实战指导和总结.mp4
01-vLLM推理实战.docx
2-1 VLLM产品介绍.mp4
2-2 VLLM分布式推理.mp4
2-3 安装和配置显卡驱动.mp4
2-4 vLLM模型的安装和部署Docker.mp4
2-5 亲自测试VLLM部署的大模型.mp4
2-6 vllm分布式部署思路.mp4
2-7 系统构建网络配置和框架安装.mp4
2-8 推理集群配置Head和Worker节点.mp4
2-9 VLLM分布式部署经过亲自测试.mp4
02-量化实战-高级.docx
3-1 量化实战-量化目的和结果介绍.mp4
3-2 量化实战-思路与实战步骤讲解.mp4
3-3 量化实战-了解硬件架构量化工具.mp4
3-4 量化实战-安装WSL和Conda.mp4
3-5 Tensort模型优化器的安装和配置.mp4
3-6 NVFP4量化格式.mp4
3-7 模型量化脚本分析和校准数据集.mp4
3-8 模型量化和结果检查.mp4
3-9 个人测试量化后,模型检查返回结果.mp4
3-10 介绍EvalScope和Perf命令.mp4
3-11 EvalScope评测量化模型.mp4
3-12 介绍LLMCompresor量化工具.mp4
3-13 安装LLMCompressoress.mp4
3-14 使用LLMCompresor进行GPTQ-AWQ-NV.mp4
3-15 比较两种量化工具的四种量化结果.mp4
3-16 量化实战-课程总结.mp4
课件《LLM推理优化与部署实战》.pptx

附件
LLM推理优化与部署实战
百度云盘资源
百度云盘分享下载
下载文件
附件购买
售价:19.8 RMB
荣誉会员免费下载
开通会员
开通荣誉会员或更高级的会员可免费下载该文件

登录注册购买 免登录购买

1.仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。我们非常重视版权问题,如有侵权请点击版权投诉。敬请谅解!

2.如遇下载链接失效、解压密码错误等问题请点击 提交工单

3.在下载源码前,请务必要仔细阅读并接受 购前/下载协议 购买即视为您同意该协议!


蓝星智库 » LLM推理优化与部署实战

蓝星智库全球最全资源库期待您的加入

开通会员 联系客服