AMD数据中心GPU 助力 DeepSeek-V3,携手 SGLang共创革命性AI
近期,由深度求索(DeepSeek)发布的最新生成式AI大模型DeepSeek-V3火爆海内外科技圈。AMD数据中心GPU 也第一时间实现了对 DeepSeek-V3 模型的支持,且集成了 SGLang 优化以提供最佳性能。DeepSeek-V3 是一个强大的开源混合专家MoE(Mixture-of-Experts)模型,共有6710 亿个参数,也是目前开源社区最受欢迎的多模态模型之一,其创新模型架构打破了高效低成本训练的记录,令业界称赞。DeepSeek-V3不仅 沿用了V2中的多头潜在注意力机制(Multi-head Latent Attention, MLA)及 DeepSeek MoE 架构, 还开创了一种无辅助损失的负载平衡策略,并设定了多
2025-02-10 10:10:26