突破实时生成瓶颈,Soul CEO张璐团队发布开源模型SoulX-LiveAct

科技IT 2026-04-11 irfjbf51212
  • 首页 > 芯闻 > 突破实时生成瓶颈,Soul CEO张璐团队发布开源模型SoulX-LiveAct

突破实时生成瓶颈,Soul CEO张璐团队发布开源模型SoulX-LiveAct

关键词:智能化产品

时间:2026-4-10 17:23:19      来源:互联网

突破实时生成瓶颈,Soul CEO张璐团队发布开源模型SoulX-LiveAct

 

聚焦长时稳定与实时推理,Soul CEO张璐团队开源SoulX-LiveAct模型

近日,Soul App CEO张璐团队宣布,其AI研究团队Soul AI Lab正式发布开源模型SoulX-LiveAct。作为面向实时数字人生成的重要技术成果,该模型围绕“长时稳定”与“实时流式”两大核心目标,对现有生成范式进行了系统性优化。在数字人直播、视频播客以及实时互动场景不断扩展的背景下,SoulX-LiveAct为实时生成技术的工程化落地提供了新的实现路径。

随着人工智能在内容生成领域的应用加速,数字人技术逐渐从实验性演示走向实际应用场景。然而,在长时间运行的情况下,传统生成模型往往难以保持一致表现。当视频生成时长延伸至分钟甚至小时级,模型容易出现身份漂移、细节退化、画面闪烁等问题,同时推理成本也会随时间增加而上升。

针对上述挑战,SoulX-LiveAct在整体架构上采用自回归扩散(AR Diffusion)范式,并引入Neighbor Forcing与ConvKV Memory两项关键机制,构建面向长时序生成的稳定体系。在具体实现上,模型以chunk为基本生成单元,通过逐段生成与上下文衔接,实现连续的视频输出。在每个chunk内部,扩散模型负责细节建模,而在chunk之间,通过条件信息传递实现动作与身份的一致延续,从而形成完整的流式推理闭环。

在核心机制方面,Neighbor Forcing通过在同一扩散步内传播相邻帧的latent信息,使模型在统一的噪声语义空间中进行预测,有效降低训练与推理过程中因分布不一致带来的不稳定因素。与此同时,ConvKV Memory对历史信息进行结构性压缩,将传统线性增长的缓存转化为“短期精确+长期压缩”的组合形式:近期信息保留高精度以保证局部细节,远期信息通过轻量卷积进行压缩,从而在控制内存占用的同时保留关键上下文信息。此外,模型还通过RoPE Reset对位置编码进行对齐,进一步减少长序列生成中的位置漂移问题。

在推理效率方面,SoulX-LiveAct强调“稳定延迟”与“恒定显存”。通过ConvKV Memory机制,历史信息不再随时间线性增长,使显存占用保持在固定范围内。这一设计使得模型在长时间运行过程中,计算与通信成本保持稳定,不会随着视频长度增加而显著上升。在实际性能表现上,系统在512×512分辨率下,可在2×H100/H200硬件条件下实现20 FPS的流式推理,同时端到端延迟约为0.94秒,计算成本为27.2 TFLOPs/frame,体现出较为均衡的实时性与资源利用效率。

在多项评测基准中,SoulX-LiveAct也展示了其综合性能优势。在HDTF数据集上,模型取得9.40的Sync-C与6.76的Sync-D,在分布相似性指标上达到10.05 FID与69.43 FVD,并在VBench中获得97.6的Temporal Quality与63.0的Image Quality,VBench-2.0的Human Fidelity达到99.9。在EMTD数据集上,模型同样保持领先表现,取得8.61 Sync-C与7.29 Sync-D,并在VBench中实现97.3的Temporal Quality与65.7的Image Quality,Human Fidelity达到98.9。这些结果表明,该模型在口型同步、动作一致性以及整体画面稳定性方面具备较强能力。

基于上述性能表现,SoulX-LiveAct能够支持多种需要长期在线运行的应用场景,包括数字人直播、AI教育、智慧服务终端以及知识内容生产等。在开放世界互动场景中,数字角色需要在长时间交互过程中持续保持一致表达能力。SoulX-LiveAct在全身动作数据集上的表现以及其实时流式推理能力,使其具备支持此类复杂场景的基础条件。

SoulX-LiveAct的发布,也延续了Soul AI团队在实时数字人方向的技术布局。此前,团队已开源SoulX-FlashTalk与SoulX-FlashHead两个模型,分别在超低延迟与轻量化部署方面进行了探索。此外,团队还在语音与交互领域推出了SoulX-Podcast、SoulX-Singer以及SoulX-Duplug等模型与模块,逐步构建围绕“实时交互”的多模态技术体系。

通过持续开放模型与技术方案,Soul CEO张璐团队不仅推动了自身AI能力的迭代,也为开发者社区提供了可复用的技术基础,促进更多应用场景的探索与落地。

上一篇:【​家用咖啡机推荐|2026 最值得买的一台,全家都爱美的全自动X30】

下一篇:【总投资约5亿元,湖北空天信息产业基地揭牌】

猜你喜欢

  • 芯闻
  • 芯品
  • 方案
  • 文章
  • 突破实时生成瓶颈,Soul CEO张璐团队发布开源模型SoulX-LiveAct
  • 重塑行业价值,定义产品力新范式——“好房子·好服务”典型案例征集正式启动
  • 京东工业亮相中国电子信息博览会,AI大模型与供应链共建模式助力电子产业降本增效
  • 做人形机器人,不是拼人头:马斯克与王兴兴正在改写规则
  • Vishay双路Wilkinson功率分配器/合成器在高频连接应用中提高效率并节省空间
  • 铭瑄 MS-WorkStation W890-80L 工作站主板亮相
  • 技嘉 Z890 AORUS TACHYON DUO X ICE 主板上线:8 层 PCB,10400MT/s 内存超频
  • 圣邦微电子推出SGM795:全集成、可编程USB Type-C端口控制器,赋能高效电源传输
  • 当6 TOPS不再是极限:米尔RK3576 + Hailo-8,让高帧率摄像头真正“实时”
  • 12V升32V大功率2x110W双声道D类音频功放+升压芯片组合解决方案
  • ROS2 SLAM Toolbox 建图和导航指南——米尔RK3576开发板
  • 爆火的OpenClaw! 告别云端,米尔RK3576开发板本地部署
  • 怎样设计一个以MSP430单片机为核心的称重式液位仪
  • 基于MSP430单片机的称重式液位仪的设计
  • 智能照明,是选择低功耗蓝牙 (BLE) 还是蓝牙 Mesh
  • 米尔RK3576 + ROS2 进阶:NPU加速MixFormerV2目标跟随与机械臂抓取实战
来源:中电网
The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

Copyright © 2099 搜索科技

苏ICP备2023036119号-10 |——:

|—— TXT地图 | 网站地图 |