大模型推理原理、挑战与部署优化解析 - 53AI-AI知识库|大模型知识库|大模型训练|智能体开发

技术分享

分享技术干货实操，共研创新路径与进阶方法

我要投稿

大模型推理原理、挑战与部署优化解析

发布机构：

其它

发布时间：

2025.09.08 09:08:22

浏览次数：

513

下载次数：

500

在线预览

下载报告

报告简介

大模型推理原理与部署优化庞士冠｜华为云PaaS架构与设计团队，大模型部署优化工程师庞士冠华为云PaaS架构与设计团队，大模型部署优化工程师 22年硕士毕业加入华为云PaaS服务产品部，23年初开始从事大模型高效推理和部署优化相关工作，参与公司内多项大模型推理优化项目，基于昇腾全栈，参与设计开发华为云XTA推理平台，该平台承载了华为AI辅助内部研发项目、华为云CodeArts Snap研发助手等推理业务，有效支撑了百万级日活。 01 02 03 大模型推理原理与挑战大模型推理框架介绍大模型推理优化技术&实践 04 总结与展望大模型推理原理与挑战大模型推理原理与挑战看行业：大模型推理需求呈指数级增长 •R1类长思考模型的出现 •豆包、Kimi等交互型生成式应用涌现 •Cline、Manus等Agent类产品增多大模型推理原理与挑战 LLM推理过程通常分为预填充（Prefill）和解码（Decode）两个阶段。 Prefill阶段：将用户请求的prompt传入大模型，进行计算，中间结果写入KV Cache并推理出第1 个token。随着Prompt Sequence Length长度线性增长，对首Token时延（TTFT）指标有要求的业务通常采用单batch方式执行LLM推理，该阶段属于计算密集型操作。 Decode阶段：将请求的前1个Token传入大模型，从显存读取前文产生的KV Cache再进行计算。采用KV Cache技术后，单Token计算量低，而主要瓶颈在于搬运参数量，故通常需要采用多batch 方式提升利用率，该阶段属于访存密集型操作。当前主流大模型架构均以Transformer Based为主，并采用自回归生成（auto-aggressive generative）模式。即每个Token生成需要经过 LLM模型的

报告预览