墨鱼AI导航,国内专业的AI工具导航网站!
Ctrl + D 收藏本站
当前位置:首页 » AI行业资讯

DeepSeek团队发布新论文,解读DeepSeek-V3关键创新实现降本增效

Moyuxx 2025-05-16 5
2025 年 5 月 14 日,DeepSeek 团队发布新论文《Insights into DeepSeek – V3: Scaling Challenges and Reflections on Hardware for AI Architectures》。论文以 DeepSeek – V3 为代表,深入解读了 DeepSeek 在硬件架构和模型设计方面的关键创新,为实现具有成本效益的大规模训练和推理提供了思路。以下是 DeepSeek – V3 关键创新的具体介绍:
  • 优化内存效率
    • 采用 FP8 混合精度训练:FP8 是一种低精度的数据格式,使用 8 位来表示浮点数,相比 FP16 和 FP32,能够进一步减少内存占用和计算量。在混合精度训练中,模型的权重和激活值可以使用 FP8 进行计算,而关键的梯度计算和优化步骤则使用更高的精度(如 FP32)来保证训练的稳定性。这样在不损失模型性能的前提下,充分发挥了硬件的计算能力,加速了训练过程。与使用 BF16 进行权重的模型相比,FP8 将内存消耗显著降低了一半,有效缓解了 AI 内存墙挑战。
    • 使用 MLA 减少 KV 缓存:对于大模型推理,用户请求通常涉及多轮对话,KV 缓存通过缓存先前处理的 token 的键和值向量来解决这一挑战,无需为后续 token 重新计算,但会引入内存受限的瓶颈。为此,研究人员采用 MLA,它使用投影矩阵将所有注意力头的 KV 表示压缩成一个更小的潜在向量,让该矩阵与模型联合训练。在推理过程中,只需要缓存潜在向量,与存储所有注意力头的 KV 缓存相比减少了内存消耗。
  • 降低训练成本:DeepSeek 开发了 DeepSeekMoE,MoE 模型允许参数总数急剧增加,同时保持计算要求适中。例如,DeepSeek – V3 扩展到 671B 参数,同时能将每个 token 的激活量保持在仅 37B。相比之下,Qwen2.5 – 72B 和 LLaMa3.1 – 405B 等稠密模型要求所有参数在训练期间都处于活动状态。因此,MoE 模型在计算资源消耗量少一个数量级的情况下,实现了与密集模型相当甚至更优的性能,减少了训练的计算要求,降低了训练成本。同时,由于每个请求只激活了一个参数子集,内存和计算需求大大减少,使得配备 AI 芯片的 PC 能够实现每秒近 20 个 token(TPS),甚至达到该速度的两倍,也适用于硬件资源有限的本地部署和个人用户。
  • 提高推理速度
    • 重叠计算和通信:为了最大限度地提高吞吐量,DeepSeek – V3 利用双微批处理重叠,将通信延迟与计算重叠。将 MLA 和 MoE 的计算解耦为两个不同阶段,当一个微批处理执行 MLA 或 MoE 计算的一部分时,另一个微批处理同时执行相应的调度通信;在第二个微批处理的计算阶段,第一个微批处理经历组合通信步骤。此外,在生产中,采用预填充 – 解码分离架构,将大批量预填充和延迟敏感的解码请求分配给不同的专家并行组。
    • 高带宽纵向扩展网络:MoE 模型实现高推理速度取决于跨计算设备高效部署专家参数,而专家并行需要将 token 路由到适当的设备,这涉及跨网络的多对多通信,因此,MoE 推理速度的上限由互连带宽决定。高带宽纵向扩展网络在加速大规模模型推理方面有巨大潜力,如使用像 GB200 NVL72(72 个 GPU 上的 900GB/s 单向带宽)这样的高带宽互连,能显著减少总推理时间。
    • 多 token 预测(MTP)框架:DeepSeek – V3 引入了多 token 预测框架,该框架同时增强了模型性能并提高了推理速度。
此外,在网络拓扑方面,DeepSeek – V3 采用了多平面胖树网络拓扑。每个节点配备 8 个 GPU 和 8 个 IB NIC,每对 GPU – NIC 分配到一个独立的网络平面,每个节点还通过 400Gbps 以太网 RoCE NIC 连接到一个单独的存储网络平面,用于访问分布式文件系统 3FS。这种拓扑结构可支持多达 16,384 个 GPU,相比三层胖树网络,显著降低了网络成本,提高了网络整体稳定性,防止了性能连锁下降,特别适合对延迟敏感的应用。

相关推荐

评论 ( 0 )

回顶部