微信扫码
添加专属顾问
我要投稿
专为混合专家模型设计的通信库DeepEP,优化数据传输,提升分布式训练效率。 核心内容: 1. 支持全交换GPU核心,实现高吞吐低延迟通信 2. 动态资源调控,根据任务需求调整SM数量 3. 支持低精度运算,加速大规模分布式训练
DeepEP 是一个专为混合专家(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐、低延迟的全交换(all-to-all)GPU核心(kernels),即MoE的调度(dispatch)与合并(combine)操作,并支持FP8等低精度运算。
为适配DeepSeek-V3论文中提出的组限门控(group-limited gating)算法,提供了一组针对非对称域带宽转发优化的核心,例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性,适用于训练和推理预填充(prefilling)任务,同时支持流多处理器(Streaming Multiprocessors, SM)数量调控。
针对延迟敏感的推理解码场景,DeepEP包含一组基于纯RDMA的低延迟核心,以最小化通信延迟。此外,该库还引入了基于钩子(hook)的通信-计算重叠方法,此方法无需占用任何SM资源。
DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题,通过优化数据传输和资源调度,实现“降本增效”。
高效的全对全通信(All-to-All):支持节点内(NVLink)和节点间(RDMA)的高带宽通信,优化数据在不同专家子网络间的快速交换。
动态资源调控:基于群组限制门控算法(group-limited gating),动态分配GPU计算单元(SM)数量,任务多时增加资源,任务少时降低功耗,减少资源浪费。支持低精度运算:原生支持FP8格式,减少内存占用并加速计算,适用于大规模分布式训练
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-27
Dify工具插件开发和智能体开发全流程实战
2025-05-27
一个让工作效率翻倍的AI神器,Cherry Studio你值得拥有!
2025-05-27
Docext:无需 OCR,本地部署的文档提取神器,企业数据处理新选择
2025-05-26
太猛了,字节把GPT-4o级图像模型开源了!
2025-05-26
Qwen3硬核解析:从36万亿Token到“思考预算”
2025-05-26
蚂蚁集团开源antv的MCP服务:AI智能体与数据可视化的桥梁如何搭建?
2025-05-26
MinerU:高精度纸媒文档解析与数据提取一站式解决方案
2025-05-26
顶级开发者默默换掉了基础大模型
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-12-26
2024-08-13
2025-05-26
2025-05-25
2025-05-23
2025-05-17
2025-05-17
2025-05-17
2025-05-16
2025-05-14