国产GPU新突破,单卡FP8算力突破1000T!
- 首页 > 芯闻 > 国产GPU新突破,单卡FP8算力突破1000T!
国产GPU新突破,单卡FP8算力突破1000T!
关键词:GPUFP8摩尔线程
时间:2026-2-13 11:22:01 来源:互联网
“
近日,摩尔线程首度公开了其旗舰产品S5000的详细参数:基于“平湖”架构,单卡FP8算力突破1000T,集成80GB显存,1.6TB/s带宽,FP8到FP64全精度覆盖,训练精度紧咬H100,差距不到1%!
”
马年农历春节前夕,国产智算卡再度迎来好消息!单卡FP8算力终于冲上1000TFLOPS了。
虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU智算卡MTT S5000,但是具体的架构、参数和性能一直并未对外公布。
近日,摩尔线程首度公开了其旗舰产品S5000的详细参数:基于“平湖”架构,单卡FP8算力突破1000T,集成80GB显存,1.6TB/s带宽,FP8到FP64全精度覆盖,训练精度紧咬H100,差距不到1%!

这不仅是国产GPU首次在单卡吞吐量上摸到国际顶尖门槛,更是为万亿参数大模型提供了真正可用的自主算力底座。
一、 核心参数对标:1000TFLOPS与全精度覆盖
MTT S5000在设计之初便定位于“训推一体”的全功能基座,其硬件参数展现了极强的竞争优势:
●算力峰值: S5000单卡AI算力(FP8)最高可达 1000TFLOPS(即1 PFLOPS)。这一数据标志着国产GPU在单卡吞吐量上已可与国际主流一较高下。
●计算精度: 该卡实现了从 FP8、BF16、FP16到FP32、FP64 的全精度计算支持。业内实测显示,S5000在产品计算精度上已超越英伟达H100,并在高精度计算能力上直追其最新的Blackwell架构。
●存储规格: 配置 80GB显存,显存带宽达 1.6TB/s。这一指标确保了在处理超大规模参数模型(如DeepSeek-V3)时,数据读取不会成为瓶颈。
●互联带宽: 卡间互联带宽达到 784GB/s,支持万卡规模的高效协同,极大提升了分布式训练的效率。
二、 架构优势:第四代MUSA与原生FP8引擎
S5000参数表现卓越的背后,是摩尔线程自主研发的 第四代MUSA架构“平湖”。
作为国内首批原生支持 FP8精度 的训练GPU,S5000内置了硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16,FP8能将数据位宽减半,使显存带宽压力降低50%,理论计算吞吐量直接翻倍。实测证明,在DeepSeek、Qwen等前沿模型架构下,S5000的FP8引擎可提升 30%以上的训练性能。

此外,S5000搭载了独创的 ACE(异步计算引擎)技术。该技术能将复杂的通信任务从计算核心中卸载,实现计算与通信的零冲突并行。实测显示,从64卡扩展至1024卡,系统始终保持90%以上的线性扩展效率,确保了算力参数能充分转化为实战性能。

三、 性能实测:高精度训练对标H100
在典型任务实测中,S5000的参数优势转化成为显著的效率:
●对比H20:在互联网厂商的端到端任务测试中,S5000的综合性能表现约为英伟达H20的 2.5倍。

●对比H100: 智源研究院基于S5000千卡集群训练具身大脑模型RoboBrain 2.5,其训练损失值(loss)与H100集群的差异仅为 0.62%,关键指标误差在千分之几,实现了对顶尖算力的高度对齐。
值得一提的是,S5000在推理场景同样表现优异。比如在2025年12月,摩尔线程联合硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试。

实测S5000单卡Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s,刷新了国产GPU的推理纪录。
四、 生态落地:智谱GLM-5的Day-0适配验证
参数的强大最终体现在对顶尖模型的支撑能力上。近日,在智谱正式发布大模型 GLM-5 的当天,摩尔线程宣布MTT S5000已圆满完成对该模型的 Day-0全流程适配与验证。
依托MUSA全栈软件平台对SGLang、PyTorch、vLLM等主流框架的原生适配,S5000不仅能实现CUDA生态代码的“零成本”迁移,更凭借其80GB显存和1.6TB/s带宽的参数底蕴,为GLM-5等万亿参数模型的快速迭代提供了坚实的国产算力支撑。
值得注意的是,虽然S5000是2024年就已推出的产品,但其选择在2026年初首次公开详细性能参数,这一时机颇耐人寻味——是否正是摩尔线程为新一代“花港”架构的S6000系列预热的前奏?作为2025年12月发布的全功能GPU新架构,“花港”不仅支持FP4到FP64的全精度计算,更实现了计算密度提升50%、能效比跃升10倍的突破。基于新架构,专攻AI训推的“华山”与高性能渲染的“庐山”芯片是否已蓄势待发?S5000的不俗表现,加上“花港”架构所展现的技术纵深,已为国产算力的持续进化打开更多想象空间。
上一篇:【史上第二!Anthropic完成300亿美元融资,投后估值3800亿美元!2025年营收已突破140亿美元!】
下一篇:【三星显示推出新高端技术品牌 面板寿命延长至两倍】
猜你喜欢
- 芯闻
- 芯品
- 方案
- 文章
- • 国产GPU新突破,单卡FP8算力突破1000T!
- • Day-0支持!摩尔线程MTT S5000率先适配智谱GLM-5
- • 国产GPU开发门槛降低:摩尔线程开源 TileLang-MUSA 工具,代码量减少 90%
- • 首家适配 壁仞科技壁砺 166M极速支持MOSS-TTS Family
- • 香橙派公布 OrangePi 6 Plus 开发板:12 核 Arm CPU,双 M.2 SSD 双 5GbE
- • Credo发布专为低功耗、高带宽与超低时延的AI网络打造的Bluebird 1.6T光DSP芯片
- • SIGGRAPH 2025 : 小巧机身,强大 AI:NVIDIA Blackwell 架构为紧凑型工作站提供 AI 加速
- • 泰瑞达推出适用于高带宽内存(HBM)芯片的新一代内存测试平台Magnum 7H
- • 360环视实时性评估:GPU加速性能与AI拓展潜力-基于米尔RK3576
- • [原创]Renesas DA14706超高集成度的蓝牙 5.2单芯片解决方案
- • [原创]NXP i.MX RT500双核ARM MCU嵌入应用开发方案
- • [原创] Maxim MAX77812 20A用户配置四相降压电源解决方案
- • 摩尔线程:从架构突破到生态共建,助推国产GPU高质量发展
- • 国产GPU 2026展望:资本赋能下的技术突围与市场深耕
- • 沐曦、壁仞领衔上市潮,国产GPU“适配革命”悄然推进
- • 云端 GPU 高歌猛进,消费级 GPU 如何跟上步伐?
相关阅读
- 三星洽谈引入OpenAI、Perplexity等更多AI服务
- 比特网早报:中国科学院工业人工智能研究所成立,腾讯混元3D上线国际站
- 全国首个!集装箱式锂电池储能系统海上安全运输指南发布
- 比特网早报:腾讯免费安装OpenClaw引排队盛况,千问AI眼镜正式开售
- 杰发科技AC7870携手IAR开发工具链,助推汽车电子全栈全域智能化落地
- 瑞孚迪小动物活体成像系统实现本土化量产,规模化交付能力全面落地
- 从"算法商城"到"视觉语言大模型第一股":极视角的AI商业化突围之路
- BICS与Cognigy联手开发AI Agent,为服务中国客户提供支持
- 比特早报:苹果总市值达3.6万亿美元,台积电规划建立FOPLP小量试产线
- 联发科最强芯!天玑9500首曝:2+6设计 CPU将突破4GHz