Soul张璐团队近日正式推出开源模型SoulX-LiveAct,为实时数字人生成领域带来了突破性进展。该方案创新性地引入NeighborForcing(同扩散步对齐的自回归条件传播)与ConvKVMemory(KV记忆压缩)两大核心技术,成功推动ARdiffusion技术从基础的“能流式”生成,迈向“可真正长时稳定地实时流式”的全新阶段。

LiveAct推理时序+Memory结构示意图
SoulX-LiveAct亮点介绍
SoulX-LiveAct具备恒定显存、实时吞吐、长时一致三大亮点。首先,过去的ARdiffusion往往依赖KVcache记忆历史信息,但缓存会随视频长度线性增长——视频一长,不是爆显存,就是不得不丢历史,稳定性随之崩掉。SoulX-LiveAct从“条件传播方式”和“历史记忆管理”两个层面解决了这一瓶颈,创新机制使系统既能“带得动”长时历史,又不会因缓存膨胀而拖慢推理,从而在机制上具备小时级甚至更长时长的持续生成能力。其次,在512×512分辨率下,SoulX-LiveAct仅需2张H100/H200即可达到20FPS的实时流式推理能力,端到端延迟约0.94s。同时,单帧计算成本降低到27.2TFLOPs/frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案。最后,长视频最容易“翻车”的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而SoulX-LiveAct能在更长时间窗口内保持身份一致性与关键细节持续稳定。
SoulX-LiveAct原理解析
针对小时级实时数字人动画的流式生成需求,SoulX-LiveAct以ARDiffusion(自回归扩散)作为基础主干框架,同时搭建两大核心机制,重点解决长时段动画生成的画面一致性问题与显存占用过高的难题,分别为NeighborForcing与ConvKVMemory。在主干运行逻辑上,ARDiffusion以帧块chunk为单位完成自回归生成工作,单个chunk依托扩散模型打磨画面细节,不同chunk之间则凭借条件上下文承接人物运动轨迹与身份特征信息,完整实现流式推理闭环。其中NeighborForcing(邻近强制)机制打破了传统自回归链的传播逻辑,摒弃不同扩散步的状态传播方式,统一以相同扩散步ttt下的相邻帧隐变量作为预测条件,让上下文与当前预测内容处于同一噪声语义空间,有效消除训练和推理过程中的分布偏差。而ConvKVMemory(卷积式KV记忆)机制革新了历史注意力KV记忆的存储模式,一改以往线性增长缓存的形式,采用短期精准留存、长期压缩存储的组合策略,近期KV数据以高精度窗口保留,保障局部画面细节稳定统一,远期KV数据通过轻量1D卷积按固定比例滚动压缩,以λ=5的压缩示例为例,将海量历史信息固化为固定长度数据,实现恒定显存推理。同时,方案搭配RoPEReset(位置对齐)技术,适配ConvKVMemory的压缩与滑动窗口逻辑,修正长序列位置漂移问题,进一步提升长时数字人动画的生成稳定性。

凭借在全身数据集EMTD上领先的同步与质量指标,以及出色的实时流式推理能力,SoulX-LiveAct为数字空间里长时间在线、具备情绪动作表达的角色交互提供了理想方案。未来,该模型将加速在“长期在线”数字人直播间、AI教育、智慧柜员、知识付费、播客录制以及开放世界互动等多个领域落地,为各行各业带来更加稳定且生动的实时交互体验。
大象新闻
大象新闻 ·河南交通广播记者宋冰霜 叶子 5月25日,记者从河南省高速公路路警联合指挥中心了解到,截至6时55分, 1.连霍高速三门峡段K786北半幅东向西方向发生一起单方事故,现场实施临时交通管制,路政、交警、消防正在现场紧急处理中。
近期,Soul App AI团队(Soul AI Lab)正式开源实时数字人生成模型SoulX-FlashTalk,这款14B参数模型实现0.87s亚秒级超低延时、32fps高帧率输出,还能稳定生成超长视频,为行业提供可商用的实时生成式数字
大象新闻·河南交通广播记者 宋冰霜 5月21日,记者从河南省高速公路路警联合指挥中心了解到,截至7时, 1.因雾,禁止所有车辆上站的路段有: 商南高速:小岳寺站-嵖岈山站; 安罗高速:东洪站-铜钟站; 兰南高速:鄢陵北站。 2.京港澳高速
实时更新|因降雨,河南部分高速路段有管制
Soul App AI团队近期正式开源旗下实时数字人生成模型SoulXFlashTalk,作为行业内首个能够实现0.87秒亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B参数数字人模型,它凭借全维度性能升级,重新定义了实时在
在AI技术与社交场景深度融合的趋势下,实时交互成为提升用户体验的核心。Soul始终坚持技术创新与开源共享,继此前开源语音合成模型SoulXPodcast后,再度推出重磅成果——开源实时数字人生成模型SoulXFlashTalk,以14B
传统数字人生成模型普遍面临生成慢、延迟高、画质差、长视频不稳定等难题,为解决这些痛点,SoulAppAI团队正式开源实时数字人生成模型SoulXFlashTalk。该模型基于创新两阶段训练策略与全栈推理加速架构,在14B参数量级别下实现0.
近日,SoulAppAI团队(SoulAILab)正式发布开源模型SoulX-LiveAct,这一创新性的实时数字人生成方案通过NeighborForcing(同扩散步对齐的自回归条件传播)与ConvKVMemory(KV记忆压缩)两大核心