Soul开源SoulXFlashTalk：14B模型实现0.87s亚秒级实时数字人交互

Soul App AI团队近期正式开源旗下实时数字人生成模型SoulXFlashTalk，作为行业内首个能够实现0.87秒亚秒级超低延时、32fps高帧率，并支持超长视频稳定生成的14B参数数字人模型，它凭借全维度性能升级，重新定义了实时在线交互的标准，也让大参数量实时生成式数字人真正迈入可商用落地阶段。在持续构建AI能力的过程中，Soul始终以技术创新为核心，致力于为用户打造更沉浸、更多元的交互体验，此次开源不仅在模型速度、生成效果、响应延迟与画面保真度上实现突破，更为全行业提供了可直接落地应用的业务解决方案。

SoulXFlashTalk的核心竞争力集中在四大关键指标，全方位升级实时互动体验。在延时表现上，模型依托全栈加速引擎的极致优化，将首帧视频输出延迟降至0.87秒，首次让14B级大模型数字人具备即时反应能力，彻底消除传统大模型生成时的滞后感，可完美适配视频通话即时对答、直播间弹幕秒级互动、智能客服实时响应等全场景需求，实现自然流畅的深度对话。在帧率表现上，即便搭载140亿参数的超大DiT模型，其推理吞吐量仍高达32fps，远超直播所需的25fps实时标准，确保画面全程丝滑顺畅，也用实际效果证明大参数模型经深度加速优化后，依然能保持极佳运行效率。

针对数字人视频生成中常见的面部不一致、画质大幅下降等痛点，SoulXFlashTalk搭载独家自纠正双向蒸馏技术，引入多步回溯自纠正机制，主动模拟长序列生成的误差传播并实时修正，相当于为AI配备实时校准器，可高效恢复受损画面特征。同时模型完整保留双向注意力机制，使每一帧生成都能同时参考过去与隐含的未来上下文，从根本上压制身份漂移，保障超长直播中人物口型、面部细节与背景环境始终保持一致，不出现模糊、变形等问题。此外，模型还突破传统数字人仅能实现面部对口型的局限，支持音频驱动的全身动作生成，呈现自然真实的肢体动态，依托14B DiT强大建模能力，有效消除手部畸形与运动模糊，精准还原清晰锐利的手部细节，在大幅提升动态表现力的同时，维持99.22的身份一致性，实现动作灵活与画面稳定的平衡。

训练流程示意图

为平衡生成质量与推理速度，SoulXFlashTalk采用两阶段训练策略，第一阶段为延迟感知时空适配，结合动态长宽比分桶策略微调，让模型适配低分辨率与更短帧序列;第二阶段为自纠正双向蒸馏，利用DMD框架压缩采样步数并移除无分类器引导实现加速，配合多步回溯自纠正机制与随机截断策略，完成高效且显存友好的优化。在推理加速层面，模型针对8H800节点设计全栈加速引擎，通过混合序列并行、FlashAttention3算子优化、3DVAE并行化与全流程图融合，实现亚秒级延迟输出。在TalkBenchShort与TalkBenchLong数据集测试中，模型在视觉保真度、口型同步精度等指标刷新行业记录，长视频生成仍稳定保持32fps吞吐量。

依托优异性能，SoulXFlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、互动NPC、智能客服等场景，有效解决传统数字人直播长时间运行后的同步漂移、画质衰减问题，大幅降低运营成本。此次开源是SoulAI布局的重要一步，继SoulXPodcast之后，Soul将继续聚焦交互能力提升，以开源生态携手全球开发者，推动AI+社交领域技术持续进步。

（免责声明：本文为本网站出于传播商业信息之目的进行转载发布，不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺，亦不构成任何购买、投资等建议，据此操作者风险自担。如本信息内容涉及侵权，请及时与本网联系jinbw2024@126.com）

文章关键词：模型,生成,实时责编：兰明群

5034

慢新闻

辟谣：新疆塔什库尔干县发生4.0级地震，这些谣言勿信！

映象舆情