主页 > 科技IT

国产GPU新突破，单卡FP8算力突破1000T！

科技IT 2026-02-15 were65768

首页 > 芯闻 > 国产GPU新突破，单卡FP8算力突破1000T！

国产GPU新突破，单卡FP8算力突破1000T！

关键词：GPUFP8摩尔线程

时间：2026-2-13 11:22:01 来源：互联网

“ 近日，摩尔线程首度公开了其旗舰产品S5000的详细参数：基于“平湖”架构，单卡FP8算力突破1000T，集成80GB显存，1.6TB/s带宽，FP8到FP64全精度覆盖，训练精度紧咬H100，差距不到1%！
”

马年农历春节前夕，国产智算卡再度迎来好消息！单卡FP8算力终于冲上1000TFLOPS了。

虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU智算卡MTT S5000，但是具体的架构、参数和性能一直并未对外公布。

近日，摩尔线程首度公开了其旗舰产品S5000的详细参数：基于“平湖”架构，单卡FP8算力突破1000T，集成80GB显存，1.6TB/s带宽，FP8到FP64全精度覆盖，训练精度紧咬H100，差距不到1%！

这不仅是国产GPU首次在单卡吞吐量上摸到国际顶尖门槛，更是为万亿参数大模型提供了真正可用的自主算力底座。

一、核心参数对标：1000TFLOPS与全精度覆盖

MTT S5000在设计之初便定位于“训推一体”的全功能基座，其硬件参数展现了极强的竞争优势：

●算力峰值： S5000单卡AI算力（FP8）最高可达 1000TFLOPS（即1 PFLOPS）。这一数据标志着国产GPU在单卡吞吐量上已可与国际主流一较高下。

●计算精度：该卡实现了从 FP8、BF16、FP16到FP32、FP64 的全精度计算支持。业内实测显示，S5000在产品计算精度上已超越英伟达H100，并在高精度计算能力上直追其最新的Blackwell架构。

●存储规格：配置 80GB显存，显存带宽达 1.6TB/s。这一指标确保了在处理超大规模参数模型（如DeepSeek-V3）时，数据读取不会成为瓶颈。

●互联带宽：卡间互联带宽达到 784GB/s，支持万卡规模的高效协同，极大提升了分布式训练的效率。

二、架构优势：第四代MUSA与原生FP8引擎

S5000参数表现卓越的背后，是摩尔线程自主研发的第四代MUSA架构“平湖”。

作为国内首批原生支持 FP8精度的训练GPU，S5000内置了硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16，FP8能将数据位宽减半，使显存带宽压力降低50%，理论计算吞吐量直接翻倍。实测证明，在DeepSeek、Qwen等前沿模型架构下，S5000的FP8引擎可提升 30%以上的训练性能。

此外，S5000搭载了独创的 ACE（异步计算引擎）技术。该技术能将复杂的通信任务从计算核心中卸载，实现计算与通信的零冲突并行。实测显示，从64卡扩展至1024卡，系统始终保持90%以上的线性扩展效率，确保了算力参数能充分转化为实战性能。

三、性能实测：高精度训练对标H100

在典型任务实测中，S5000的参数优势转化成为显著的效率：

●对比H20：在互联网厂商的端到端任务测试中，S5000的综合性能表现约为英伟达H20的 2.5倍。

●对比H100：智源研究院基于S5000千卡集群训练具身大脑模型RoboBrain 2.5，其训练损失值（loss）与H100集群的差异仅为 0.62%，关键指标误差在千分之几，实现了对顶尖算力的高度对齐。

值得一提的是，S5000在推理场景同样表现优异。比如在2025年12月，摩尔线程联合硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试。

实测S5000单卡Prefill吞吐超过4000 tokens/s，Decode吞吐超过1000 tokens/s，刷新了国产GPU的推理纪录。

四、生态落地：智谱GLM-5的Day-0适配验证

参数的强大最终体现在对顶尖模型的支撑能力上。近日，在智谱正式发布大模型 GLM-5 的当天，摩尔线程宣布MTT S5000已圆满完成对该模型的 Day-0全流程适配与验证。

依托MUSA全栈软件平台对SGLang、PyTorch、vLLM等主流框架的原生适配，S5000不仅能实现CUDA生态代码的“零成本”迁移，更凭借其80GB显存和1.6TB/s带宽的参数底蕴，为GLM-5等万亿参数模型的快速迭代提供了坚实的国产算力支撑。

值得注意的是，虽然S5000是2024年就已推出的产品，但其选择在2026年初首次公开详细性能参数，这一时机颇耐人寻味——是否正是摩尔线程为新一代“花港”架构的S6000系列预热的前奏？作为2025年12月发布的全功能GPU新架构，“花港”不仅支持FP4到FP64的全精度计算，更实现了计算密度提升50%、能效比跃升10倍的突破。基于新架构，专攻AI训推的“华山”与高性能渲染的“庐山”芯片是否已蓄势待发？S5000的不俗表现，加上“花港”架构所展现的技术纵深，已为国产算力的持续进化打开更多想象空间。

上一篇：【史上第二！Anthropic完成300亿美元融资，投后估值3800亿美元！2025年营收已突破140亿美元！】

下一篇：【三星显示推出新高端技术品牌面板寿命延长至两倍】

猜你喜欢

芯闻
芯品
方案
文章

• 国产GPU新突破，单卡FP8算力突破1000T！
• Day－0支持！摩尔线程MTT S5000率先适配智谱GLM－5
• 国产GPU开发门槛降低：摩尔线程开源 TileLang－MUSA 工具，代码量减少 90%
• 首家适配壁仞科技壁砺 166M极速支持MOSS－TTS Family

• 香橙派公布 OrangePi 6 Plus 开发板：12 核 Arm CPU，双 M.2 SSD 双 5GbE
• Credo发布专为低功耗、高带宽与超低时延的AI网络打造的Bluebird 1.6T光DSP芯片
• SIGGRAPH 2025 ：小巧机身，强大 AI：NVIDIA Blackwell 架构为紧凑型工作站提供 AI 加速
• 泰瑞达推出适用于高带宽内存（HBM）芯片的新一代内存测试平台Magnum 7H

• 360环视实时性评估：GPU加速性能与AI拓展潜力-基于米尔RK3576
• [原创]Renesas DA14706超高集成度的蓝牙 5.2单芯片解决方案
• [原创]NXP i.MX RT500双核ARM MCU嵌入应用开发方案
• [原创] Maxim MAX77812 20A用户配置四相降压电源解决方案

• 摩尔线程：从架构突破到生态共建，助推国产GPU高质量发展
• 国产GPU 2026展望：资本赋能下的技术突围与市场深耕
• 沐曦、壁仞领衔上市潮，国产GPU“适配革命”悄然推进
• 云端 GPU 高歌猛进，消费级 GPU 如何跟上步伐？

来源:中电网

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

上一篇：史上第二！Anthropic完成300亿美元融资，投后估值3800亿美元！2025年营收已突破140亿美元！

下一篇：三星显示推出新高端技术品牌面板寿命延长至两倍

国产GPU新突破，单卡FP8算力突破1000T！

国产GPU新突破，单卡FP8算力突破1000T！

分类导航

最新文章

本栏文章

随机文章

友情链接

国产GPU新突破，单卡FP8算力突破1000T！

国产GPU新突破，单卡FP8算力突破1000T！

相关阅读

分类导航

最新文章

本栏文章

随机文章

友情链接