国产GPU新突破,单卡FP8算力突破1000T!

科技IT 2026-02-15 were65768
  • 首页 > 芯闻 > 国产GPU新突破,单卡FP8算力突破1000T!

国产GPU新突破,单卡FP8算力突破1000T!

关键词:GPUFP8摩尔线程

时间:2026-2-13 11:22:01      来源:互联网

近日,摩尔线程首度公开了其旗舰产品S5000的详细参数:基于“平湖”架构,单卡FP8算力突破1000T,集成80GB显存,1.6TB/s带宽,FP8到FP64全精度覆盖,训练精度紧咬H100,差距不到1%!

马年农历春节前夕,国产智算卡再度迎来好消息!单卡FP8算力终于冲上1000TFLOPS了。

虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU智算卡MTT S5000,但是具体的架构、参数和性能一直并未对外公布。

近日,摩尔线程首度公开了其旗舰产品S5000的详细参数:基于“平湖”架构,单卡FP8算力突破1000T,集成80GB显存,1.6TB/s带宽,FP8到FP64全精度覆盖,训练精度紧咬H100,差距不到1%!

这不仅是国产GPU首次在单卡吞吐量上摸到国际顶尖门槛,更是为万亿参数大模型提供了真正可用的自主算力底座。

一、 核心参数对标:1000TFLOPS与全精度覆盖

MTT S5000在设计之初便定位于“训推一体”的全功能基座,其硬件参数展现了极强的竞争优势:

●算力峰值: S5000单卡AI算力(FP8)最高可达 1000TFLOPS(即1 PFLOPS)。这一数据标志着国产GPU在单卡吞吐量上已可与国际主流一较高下。

●计算精度: 该卡实现了从 FP8、BF16、FP16到FP32、FP64 的全精度计算支持。业内实测显示,S5000在产品计算精度上已超越英伟达H100,并在高精度计算能力上直追其最新的Blackwell架构。

●存储规格: 配置 80GB显存,显存带宽达 1.6TB/s。这一指标确保了在处理超大规模参数模型(如DeepSeek-V3)时,数据读取不会成为瓶颈。

●互联带宽: 卡间互联带宽达到 784GB/s,支持万卡规模的高效协同,极大提升了分布式训练的效率。

二、 架构优势:第四代MUSA与原生FP8引擎

S5000参数表现卓越的背后,是摩尔线程自主研发的 第四代MUSA架构“平湖”。

作为国内首批原生支持 FP8精度 的训练GPU,S5000内置了硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16,FP8能将数据位宽减半,使显存带宽压力降低50%,理论计算吞吐量直接翻倍。实测证明,在DeepSeek、Qwen等前沿模型架构下,S5000的FP8引擎可提升 30%以上的训练性能。

此外,S5000搭载了独创的 ACE(异步计算引擎)技术。该技术能将复杂的通信任务从计算核心中卸载,实现计算与通信的零冲突并行。实测显示,从64卡扩展至1024卡,系统始终保持90%以上的线性扩展效率,确保了算力参数能充分转化为实战性能。

三、 性能实测:高精度训练对标H100

在典型任务实测中,S5000的参数优势转化成为显著的效率:

●对比H20:在互联网厂商的端到端任务测试中,S5000的综合性能表现约为英伟达H20的 2.5倍。

●对比H100: 智源研究院基于S5000千卡集群训练具身大脑模型RoboBrain 2.5,其训练损失值(loss)与H100集群的差异仅为 0.62%,关键指标误差在千分之几,实现了对顶尖算力的高度对齐。

值得一提的是,S5000在推理场景同样表现优异。比如在2025年12月,摩尔线程联合硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试。

实测S5000单卡Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s,刷新了国产GPU的推理纪录。

四、 生态落地:智谱GLM-5的Day-0适配验证

参数的强大最终体现在对顶尖模型的支撑能力上。近日,在智谱正式发布大模型 GLM-5 的当天,摩尔线程宣布MTT S5000已圆满完成对该模型的 Day-0全流程适配与验证。

依托MUSA全栈软件平台对SGLang、PyTorch、vLLM等主流框架的原生适配,S5000不仅能实现CUDA生态代码的“零成本”迁移,更凭借其80GB显存和1.6TB/s带宽的参数底蕴,为GLM-5等万亿参数模型的快速迭代提供了坚实的国产算力支撑。

值得注意的是,虽然S5000是2024年就已推出的产品,但其选择在2026年初首次公开详细性能参数,这一时机颇耐人寻味——是否正是摩尔线程为新一代“花港”架构的S6000系列预热的前奏?作为2025年12月发布的全功能GPU新架构,“花港”不仅支持FP4到FP64的全精度计算,更实现了计算密度提升50%、能效比跃升10倍的突破。基于新架构,专攻AI训推的“华山”与高性能渲染的“庐山”芯片是否已蓄势待发?S5000的不俗表现,加上“花港”架构所展现的技术纵深,已为国产算力的持续进化打开更多想象空间。

上一篇:【史上第二!Anthropic完成300亿美元融资,投后估值3800亿美元!2025年营收已突破140亿美元!】

下一篇:【三星显示推出新高端技术品牌 面板寿命延长至两倍】

猜你喜欢

  • 芯闻
  • 芯品
  • 方案
  • 文章
  • 国产GPU新突破,单卡FP8算力突破1000T!
  • Day-0支持!摩尔线程MTT S5000率先适配智谱GLM-5
  • 国产GPU开发门槛降低:摩尔线程开源 TileLang-MUSA 工具,代码量减少 90%
  • 首家适配 壁仞科技壁砺 166M极速支持MOSS-TTS Family
  • 香橙派公布 OrangePi 6 Plus 开发板:12 核 Arm CPU,双 M.2 SSD 双 5GbE
  • Credo发布专为低功耗、高带宽与超低时延的AI网络打造的Bluebird 1.6T光DSP芯片
  • SIGGRAPH 2025 : 小巧机身,强大 AI:NVIDIA Blackwell 架构为紧凑型工作站提供 AI 加速
  • 泰瑞达推出适用于高带宽内存(HBM)芯片的新一代内存测试平台Magnum 7H
  • 360环视实时性评估:GPU加速性能与AI拓展潜力-基于米尔RK3576
  • [原创]Renesas DA14706超高集成度的蓝牙 5.2单芯片解决方案
  • [原创]NXP i.MX RT500双核ARM MCU嵌入应用开发方案
  • [原创] Maxim MAX77812 20A用户配置四相降压电源解决方案
  • 摩尔线程:从架构突破到生态共建,助推国产GPU高质量发展
  • 国产GPU 2026展望:资本赋能下的技术突围与市场深耕
  • 沐曦、壁仞领衔上市潮,国产GPU“适配革命”悄然推进
  • 云端 GPU 高歌猛进,消费级 GPU 如何跟上步伐?
来源:中电网
The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

Copyright © 2099 搜索科技

苏ICP备2023036119号-10 |——:

|—— TXT地图 | 网站地图 |