国产GPU新突破,单卡FP8算力突破1000T!
- 首页 > 芯闻 > 国产GPU新突破,单卡FP8算力突破1000T!
国产GPU新突破,单卡FP8算力突破1000T!
关键词:GPUFP8摩尔线程
时间:2026-2-13 11:22:01 来源:互联网
“
近日,摩尔线程首度公开了其旗舰产品S5000的详细参数:基于“平湖”架构,单卡FP8算力突破1000T,集成80GB显存,1.6TB/s带宽,FP8到FP64全精度覆盖,训练精度紧咬H100,差距不到1%!
”
马年农历春节前夕,国产智算卡再度迎来好消息!单卡FP8算力终于冲上1000TFLOPS了。
虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU智算卡MTT S5000,但是具体的架构、参数和性能一直并未对外公布。
近日,摩尔线程首度公开了其旗舰产品S5000的详细参数:基于“平湖”架构,单卡FP8算力突破1000T,集成80GB显存,1.6TB/s带宽,FP8到FP64全精度覆盖,训练精度紧咬H100,差距不到1%!

这不仅是国产GPU首次在单卡吞吐量上摸到国际顶尖门槛,更是为万亿参数大模型提供了真正可用的自主算力底座。
一、 核心参数对标:1000TFLOPS与全精度覆盖
MTT S5000在设计之初便定位于“训推一体”的全功能基座,其硬件参数展现了极强的竞争优势:
●算力峰值: S5000单卡AI算力(FP8)最高可达 1000TFLOPS(即1 PFLOPS)。这一数据标志着国产GPU在单卡吞吐量上已可与国际主流一较高下。
●计算精度: 该卡实现了从 FP8、BF16、FP16到FP32、FP64 的全精度计算支持。业内实测显示,S5000在产品计算精度上已超越英伟达H100,并在高精度计算能力上直追其最新的Blackwell架构。
●存储规格: 配置 80GB显存,显存带宽达 1.6TB/s。这一指标确保了在处理超大规模参数模型(如DeepSeek-V3)时,数据读取不会成为瓶颈。
●互联带宽: 卡间互联带宽达到 784GB/s,支持万卡规模的高效协同,极大提升了分布式训练的效率。
二、 架构优势:第四代MUSA与原生FP8引擎
S5000参数表现卓越的背后,是摩尔线程自主研发的 第四代MUSA架构“平湖”。
作为国内首批原生支持 FP8精度 的训练GPU,S5000内置了硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16,FP8能将数据位宽减半,使显存带宽压力降低50%,理论计算吞吐量直接翻倍。实测证明,在DeepSeek、Qwen等前沿模型架构下,S5000的FP8引擎可提升 30%以上的训练性能。

此外,S5000搭载了独创的 ACE(异步计算引擎)技术。该技术能将复杂的通信任务从计算核心中卸载,实现计算与通信的零冲突并行。实测显示,从64卡扩展至1024卡,系统始终保持90%以上的线性扩展效率,确保了算力参数能充分转化为实战性能。

三、 性能实测:高精度训练对标H100
在典型任务实测中,S5000的参数优势转化成为显著的效率:
●对比H20:在互联网厂商的端到端任务测试中,S5000的综合性能表现约为英伟达H20的 2.5倍。

●对比H100: 智源研究院基于S5000千卡集群训练具身大脑模型RoboBrain 2.5,其训练损失值(loss)与H100集群的差异仅为 0.62%,关键指标误差在千分之几,实现了对顶尖算力的高度对齐。
值得一提的是,S5000在推理场景同样表现优异。比如在2025年12月,摩尔线程联合硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试。

实测S5000单卡Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s,刷新了国产GPU的推理纪录。
四、 生态落地:智谱GLM-5的Day-0适配验证
参数的强大最终体现在对顶尖模型的支撑能力上。近日,在智谱正式发布大模型 GLM-5 的当天,摩尔线程宣布MTT S5000已圆满完成对该模型的 Day-0全流程适配与验证。
依托MUSA全栈软件平台对SGLang、PyTorch、vLLM等主流框架的原生适配,S5000不仅能实现CUDA生态代码的“零成本”迁移,更凭借其80GB显存和1.6TB/s带宽的参数底蕴,为GLM-5等万亿参数模型的快速迭代提供了坚实的国产算力支撑。
值得注意的是,虽然S5000是2024年就已推出的产品,但其选择在2026年初首次公开详细性能参数,这一时机颇耐人寻味——是否正是摩尔线程为新一代“花港”架构的S6000系列预热的前奏?作为2025年12月发布的全功能GPU新架构,“花港”不仅支持FP4到FP64的全精度计算,更实现了计算密度提升50%、能效比跃升10倍的突破。基于新架构,专攻AI训推的“华山”与高性能渲染的“庐山”芯片是否已蓄势待发?S5000的不俗表现,加上“花港”架构所展现的技术纵深,已为国产算力的持续进化打开更多想象空间。
上一篇:【史上第二!Anthropic完成300亿美元融资,投后估值3800亿美元!2025年营收已突破140亿美元!】
下一篇:【三星显示推出新高端技术品牌 面板寿命延长至两倍】
猜你喜欢
- 芯闻
- 芯品
- 方案
- 文章
- • 国产GPU新突破,单卡FP8算力突破1000T!
- • Day-0支持!摩尔线程MTT S5000率先适配智谱GLM-5
- • 国产GPU开发门槛降低:摩尔线程开源 TileLang-MUSA 工具,代码量减少 90%
- • 首家适配 壁仞科技壁砺 166M极速支持MOSS-TTS Family
- • 香橙派公布 OrangePi 6 Plus 开发板:12 核 Arm CPU,双 M.2 SSD 双 5GbE
- • Credo发布专为低功耗、高带宽与超低时延的AI网络打造的Bluebird 1.6T光DSP芯片
- • SIGGRAPH 2025 : 小巧机身,强大 AI:NVIDIA Blackwell 架构为紧凑型工作站提供 AI 加速
- • 泰瑞达推出适用于高带宽内存(HBM)芯片的新一代内存测试平台Magnum 7H
- • 360环视实时性评估:GPU加速性能与AI拓展潜力-基于米尔RK3576
- • [原创]Renesas DA14706超高集成度的蓝牙 5.2单芯片解决方案
- • [原创]NXP i.MX RT500双核ARM MCU嵌入应用开发方案
- • [原创] Maxim MAX77812 20A用户配置四相降压电源解决方案
- • 摩尔线程:从架构突破到生态共建,助推国产GPU高质量发展
- • 国产GPU 2026展望:资本赋能下的技术突围与市场深耕
- • 沐曦、壁仞领衔上市潮,国产GPU“适配革命”悄然推进
- • 云端 GPU 高歌猛进,消费级 GPU 如何跟上步伐?
相关阅读
- ZESTRON携手蔚来NIO Sniper联合举办汽车电子零部件电气绝缘可靠性研讨会
- 哪吒汽车被申请破产!
- OpenAI发布GPT-4o后,谷歌发布Gemini 1.5 Flash大模型
- Omdia:中国大陆 2025Q2 云基础设施服务市场同比增长 21%,达 124 亿美元
- 移远通信联合德壹发布全球首款搭载端侧大模型的AI具身理疗机器人
- 比特网早报:IBM第一季度营收高于预期,台积电宣布下一代A14制程技术将于2028年投产
- 比特网早报:阿里巴巴2025财年营收9963.47亿元,宇树科技申请多枚机器人牌照商标
- 富昌电子荣获 TE Connectivity授予的亚太区客户数量增长奖
- 帮助用户识别AI生成内容,OpenAI将为DALL-E 3所生成的图像加入水印
- 国内首个生物制造领域鸿蒙操作系统“生鸿”发布,生物岛实验室、华为云等打造