开源Soul X-LiveAct，Soul张璐团队让数字人“长时稳定+实时可用”

Soul张璐团队近日正式推出开源模型SoulX-LiveAct,为实时数字人生成领域带来了突破性进展。该方案创新性地引入NeighborForcing(同扩散步对齐的自回归条件传播)与ConvKVMemory(KV记忆压缩)两大核心技术,成功推动ARdiffusion技术从基础的“能流式”生成,迈向“可真正长时稳定地实时流式”的全新阶段。

LiveAct推理时序+Memory结构示意图

SoulX-LiveAct亮点介绍

SoulX-LiveAct具备恒定显存、实时吞吐、长时一致三大亮点。首先,过去的ARdiffusion往往依赖KVcache记忆历史信息,但缓存会随视频长度线性增长——视频一长,不是爆显存,就是不得不丢历史,稳定性随之崩掉。SoulX-LiveAct从“条件传播方式”和“历史记忆管理”两个层面解决了这一瓶颈,创新机制使系统既能“带得动”长时历史,又不会因缓存膨胀而拖慢推理,从而在机制上具备小时级甚至更长时长的持续生成能力。其次,在512×512分辨率下,SoulX-LiveAct仅需2张H100/H200即可达到20FPS的实时流式推理能力,端到端延迟约0.94s。同时,单帧计算成本降低到27.2TFLOPs/frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案。最后,长视频最容易“翻车”的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而SoulX-LiveAct能在更长时间窗口内保持身份一致性与关键细节持续稳定。

SoulX-LiveAct原理解析

针对小时级实时数字人动画的流式生成需求,SoulX-LiveAct以ARDiffusion(自回归扩散)作为基础主干框架,同时搭建两大核心机制,重点解决长时段动画生成的画面一致性问题与显存占用过高的难题,分别为NeighborForcing与ConvKVMemory。在主干运行逻辑上,ARDiffusion以帧块chunk为单位完成自回归生成工作,单个chunk依托扩散模型打磨画面细节,不同chunk之间则凭借条件上下文承接人物运动轨迹与身份特征信息,完整实现流式推理闭环。其中NeighborForcing(邻近强制)机制打破了传统自回归链的传播逻辑,摒弃不同扩散步的状态传播方式,统一以相同扩散步ttt下的相邻帧隐变量作为预测条件,让上下文与当前预测内容处于同一噪声语义空间,有效消除训练和推理过程中的分布偏差。而ConvKVMemory(卷积式KV记忆)机制革新了历史注意力KV记忆的存储模式,一改以往线性增长缓存的形式,采用短期精准留存、长期压缩存储的组合策略,近期KV数据以高精度窗口保留,保障局部画面细节稳定统一,远期KV数据通过轻量1D卷积按固定比例滚动压缩,以λ=5的压缩示例为例,将海量历史信息固化为固定长度数据,实现恒定显存推理。同时,方案搭配RoPEReset(位置对齐)技术,适配ConvKVMemory的压缩与滑动窗口逻辑,修正长序列位置漂移问题,进一步提升长时数字人动画的生成稳定性。

凭借在全身数据集EMTD上领先的同步与质量指标,以及出色的实时流式推理能力,SoulX-LiveAct为数字空间里长时间在线、具备情绪动作表达的角色交互提供了理想方案。未来,该模型将加速在“长期在线”数字人直播间、AI教育、智慧柜员、知识付费、播客录制以及开放世界互动等多个领域落地,为各行各业带来更加稳定且生动的实时交互体验。

文章关键词：实时,SoulX-LiveAct,推理责编：兰明群

5034

慢新闻

辟谣：新疆塔什库尔干县发生4.0级地震，这些谣言勿信！

映象舆情