主页 > 科技IT

突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

科技IT 2026-04-11 irfjbf51212

首页 > 芯闻 > 突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

关键词：智能化产品

时间：2026-4-10 17:23:19 来源：互联网

“ 突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX-LiveAct
”

聚焦长时稳定与实时推理，Soul CEO张璐团队开源SoulX-LiveAct模型

近日，Soul App CEO张璐团队宣布，其AI研究团队Soul AI Lab正式发布开源模型SoulX-LiveAct。作为面向实时数字人生成的重要技术成果，该模型围绕“长时稳定”与“实时流式”两大核心目标，对现有生成范式进行了系统性优化。在数字人直播、视频播客以及实时互动场景不断扩展的背景下，SoulX-LiveAct为实时生成技术的工程化落地提供了新的实现路径。

随着人工智能在内容生成领域的应用加速，数字人技术逐渐从实验性演示走向实际应用场景。然而，在长时间运行的情况下，传统生成模型往往难以保持一致表现。当视频生成时长延伸至分钟甚至小时级，模型容易出现身份漂移、细节退化、画面闪烁等问题，同时推理成本也会随时间增加而上升。

针对上述挑战，SoulX-LiveAct在整体架构上采用自回归扩散（AR Diffusion）范式，并引入Neighbor Forcing与ConvKV Memory两项关键机制，构建面向长时序生成的稳定体系。在具体实现上，模型以chunk为基本生成单元，通过逐段生成与上下文衔接，实现连续的视频输出。在每个chunk内部，扩散模型负责细节建模，而在chunk之间，通过条件信息传递实现动作与身份的一致延续，从而形成完整的流式推理闭环。

在核心机制方面，Neighbor Forcing通过在同一扩散步内传播相邻帧的latent信息，使模型在统一的噪声语义空间中进行预测，有效降低训练与推理过程中因分布不一致带来的不稳定因素。与此同时，ConvKV Memory对历史信息进行结构性压缩，将传统线性增长的缓存转化为“短期精确+长期压缩”的组合形式：近期信息保留高精度以保证局部细节，远期信息通过轻量卷积进行压缩，从而在控制内存占用的同时保留关键上下文信息。此外，模型还通过RoPE Reset对位置编码进行对齐，进一步减少长序列生成中的位置漂移问题。

在推理效率方面，SoulX-LiveAct强调“稳定延迟”与“恒定显存”。通过ConvKV Memory机制，历史信息不再随时间线性增长，使显存占用保持在固定范围内。这一设计使得模型在长时间运行过程中，计算与通信成本保持稳定，不会随着视频长度增加而显著上升。在实际性能表现上，系统在512×512分辨率下，可在2×H100/H200硬件条件下实现20 FPS的流式推理，同时端到端延迟约为0.94秒，计算成本为27.2 TFLOPs/frame，体现出较为均衡的实时性与资源利用效率。

在多项评测基准中，SoulX-LiveAct也展示了其综合性能优势。在HDTF数据集上，模型取得9.40的Sync-C与6.76的Sync-D，在分布相似性指标上达到10.05 FID与69.43 FVD，并在VBench中获得97.6的Temporal Quality与63.0的Image Quality，VBench-2.0的Human Fidelity达到99.9。在EMTD数据集上，模型同样保持领先表现，取得8.61 Sync-C与7.29 Sync-D，并在VBench中实现97.3的Temporal Quality与65.7的Image Quality，Human Fidelity达到98.9。这些结果表明，该模型在口型同步、动作一致性以及整体画面稳定性方面具备较强能力。

基于上述性能表现，SoulX-LiveAct能够支持多种需要长期在线运行的应用场景，包括数字人直播、AI教育、智慧服务终端以及知识内容生产等。在开放世界互动场景中，数字角色需要在长时间交互过程中持续保持一致表达能力。SoulX-LiveAct在全身动作数据集上的表现以及其实时流式推理能力，使其具备支持此类复杂场景的基础条件。

SoulX-LiveAct的发布，也延续了Soul AI团队在实时数字人方向的技术布局。此前，团队已开源SoulX-FlashTalk与SoulX-FlashHead两个模型，分别在超低延迟与轻量化部署方面进行了探索。此外，团队还在语音与交互领域推出了SoulX-Podcast、SoulX-Singer以及SoulX-Duplug等模型与模块，逐步构建围绕“实时交互”的多模态技术体系。

通过持续开放模型与技术方案，Soul CEO张璐团队不仅推动了自身AI能力的迭代，也为开发者社区提供了可复用的技术基础，促进更多应用场景的探索与落地。

上一篇：【家用咖啡机推荐｜2026 最值得买的一台，全家都爱美的全自动X30】

下一篇：【总投资约5亿元，湖北空天信息产业基地揭牌】

猜你喜欢

芯闻
芯品
方案
文章

• 突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct
• 重塑行业价值,定义产品力新范式——“好房子·好服务”典型案例征集正式启动
• 京东工业亮相中国电子信息博览会，AI大模型与供应链共建模式助力电子产业降本增效
• 做人形机器人，不是拼人头：马斯克与王兴兴正在改写规则

• Vishay双路Wilkinson功率分配器/合成器在高频连接应用中提高效率并节省空间
• 铭瑄 MS－WorkStation W890－80L 工作站主板亮相
• 技嘉 Z890 AORUS TACHYON DUO X ICE 主板上线：8 层 PCB，10400MT/s 内存超频
• 圣邦微电子推出SGM795：全集成、可编程USB Type－C端口控制器，赋能高效电源传输

• 当6 TOPS不再是极限：米尔RK3576 + Hailo-8，让高帧率摄像头真正“实时”
• 12V升32V大功率2x110W双声道D类音频功放+升压芯片组合解决方案
• ROS2 SLAM Toolbox 建图和导航指南——米尔RK3576开发板
• 爆火的OpenClaw! 告别云端,米尔RK3576开发板本地部署

• 怎样设计一个以MSP430单片机为核心的称重式液位仪
• 基于MSP430单片机的称重式液位仪的设计
• 智能照明，是选择低功耗蓝牙 (BLE) 还是蓝牙 Mesh
• 米尔RK3576 + ROS2 进阶：NPU加速MixFormerV2目标跟随与机械臂抓取实战

来源:中电网

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

上一篇：家用咖啡机推荐｜2026 最值得买的一台，全家都爱美的全自动X30

下一篇：从芯片到系统：MPS的BMS技术矩阵如何破解储能痛点？

突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

分类导航

最新文章

本栏文章

随机文章

友情链接

突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

突破实时生成瓶颈，Soul CEO张璐团队发布开源模型SoulX－LiveAct

相关阅读

分类导航

最新文章

本栏文章

随机文章

友情链接