Soul App AI团队近期正式开源旗下实时数字人生成模型SoulXFlashTalk,作为行业内首个能够实现0.87秒亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B参数数字人模型,它凭借全维度性能升级,重新定义了实时在线交互的标准,也让大参数量实时生成式数字人真正迈入可商用落地阶段。在持续构建AI能力的过程中,Soul始终以技术创新为核心,致力于为用户打造更沉浸、更多元的交互体验,此次开源不仅在模型速度、生成效果、响应延迟与画面保真度上实现突破,更为全行业提供了可直接落地应用的业务解决方案。

SoulXFlashTalk的核心竞争力集中在四大关键指标,全方位升级实时互动体验。在延时表现上,模型依托全栈加速引擎的极致优化,将首帧视频输出延迟降至0.87秒,首次让14B级大模型数字人具备即时反应能力,彻底消除传统大模型生成时的滞后感,可完美适配视频通话即时对答、直播间弹幕秒级互动、智能客服实时响应等全场景需求,实现自然流畅的深度对话。在帧率表现上,即便搭载140亿参数的超大DiT模型,其推理吞吐量仍高达32fps,远超直播所需的25fps实时标准,确保画面全程丝滑顺畅,也用实际效果证明大参数模型经深度加速优化后,依然能保持极佳运行效率。
针对数字人视频生成中常见的面部不一致、画质大幅下降等痛点,SoulXFlashTalk搭载独家自纠正双向蒸馏技术,引入多步回溯自纠正机制,主动模拟长序列生成的误差传播并实时修正,相当于为AI配备实时校准器,可高效恢复受损画面特征。同时模型完整保留双向注意力机制,使每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,保障超长直播中人物口型、面部细节与背景环境始终保持一致,不出现模糊、变形等问题。此外,模型还突破传统数字人仅能实现面部对口型的局限,支持音频驱动的全身动作生成,呈现自然真实的肢体动态,依托14B DiT强大建模能力,有效消除手部畸形与运动模糊,精准还原清晰锐利的手部细节,在大幅提升动态表现力的同时,维持99.22的身份一致性,实现动作灵活与画面稳定的平衡。

训练流程示意图
为平衡生成质量与推理速度,SoulXFlashTalk采用两阶段训练策略,第一阶段为延迟感知时空适配,结合动态长宽比分桶策略微调,让模型适配低分辨率与更短帧序列;第二阶段为自纠正双向蒸馏,利用DMD框架压缩采样步数并移除无分类器引导实现加速,配合多步回溯自纠正机制与随机截断策略,完成高效且显存友好的优化。在推理加速层面,模型针对8H800节点设计全栈加速引擎,通过混合序列并行、FlashAttention3算子优化、3DVAE并行化与全流程图融合,实现亚秒级延迟输出。在TalkBenchShort与TalkBenchLong数据集测试中,模型在视觉保真度、口型同步精度等指标刷新行业记录,长视频生成仍稳定保持32fps吞吐量。
依托优异性能,SoulXFlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、互动NPC、智能客服等场景,有效解决传统数字人直播长时间运行后的同步漂移、画质衰减问题,大幅降低运营成本。此次开源是SoulAI布局的重要一步,继SoulXPodcast之后,Soul将继续聚焦交互能力提升,以开源生态携手全球开发者,推动AI+社交领域技术持续进步。
(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。如本信息内容涉及侵权,请及时与本网联系jinbw2024@126.com)
在实时数字人技术快速普及的当下,长视频画面崩坏、身份漂移、仅能实现口型对齐等问题,一直是制约行业发展的关键瓶颈。Soul App AI团队近期开源的SoulXFlashTalk模型,凭借独家技术方案与全链路优化,在14B大参数量基础上,成功
日本批量生成AI视频抹黑中国
豆包收费了!大模型将告别免费时代?有何考量?
新华社北京5月11日电 当前,人们日益担忧人工智能(AI)将影响就业市场。美国近期一项研究显示,多个人工智能模型在预测哪些职业容易被人工智能取代时,给出的答案并不一致。 据美国《华尔街日报》10日报道,美国经济学者对一项职业所包含的任务中哪
大模型的产业价值,正在从“会聊天”走向“真干活”。公众熟悉的是聊天框里的AI,但在能源、金融、工业、电力等关键行业,真正被需要的不是一个通用问答工具,而是能够理解行业规则、连接业务系统、嵌入工作流程,并在安全边界内持续形成业务结果的AI。随
大模型的产业价值,正在从“会聊天”走向“真干活”。公众熟悉的是聊天框里的AI,但在能源、金融、工业、电力等关键行业,真正被需要的不是一个通用问答工具,而是能够理解行业规则、连接业务系统、嵌入工作流程,并在安全边界内持续形成业务结果的AI。随
近日,豆包App Store页面出现付费版本服务声明,称为更好地服务专业用户,豆包将在免费版的基础上推出包含更多增值服务的付费版本。目前尚未在豆包产品中看到相关付费选项和功能,方案细节还在测试阶段。据豆包官方回应,付费功能将主要专注复杂任务
人机协同作品日益普遍,争议随之而来 用AI生成内容,著作权算谁的? AI文案、AI图片、AI视频……当前,生成式人工智能技术加速迭代和普及,人机协同作品也日益广泛地进入生活之中。当AI根据用户指令,生成一段文字、一幅画作或一条视频,谁享有这
随着具身智能行业从硬件迭代进入核心大脑升级的新阶段,世界模型的技术路线选择成为行业讨论的核心焦点。国内具身智能创业公司晨昏线科技(TermiTech)月内连融两轮后,于2026年4月28日正式发布目标因果世界模型GCWM1,开辟了“物理