新闻中心 > 基层声音  > 正文

​Soul开源SoulXFlashTalk:14B模型实现0.87s亚秒级实时数字人交互

2026-05-18 10:47:34   来源:映象网

5034

Soul App AI团队近期正式开源旗下实时数字人生成模型SoulXFlashTalk,作为行业内首个能够实现0.87秒亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B参数数字人模型,它凭借全维度性能升级,重新定义了实时在线交互的标准,也让大参数量实时生成式数字人真正迈入可商用落地阶段。在持续构建AI能力的过程中,Soul始终以技术创新为核心,致力于为用户打造更沉浸、更多元的交互体验,此次开源不仅在模型速度、生成效果、响应延迟与画面保真度上实现突破,更为全行业提供了可直接落地应用的业务解决方案。

SoulXFlashTalk的核心竞争力集中在四大关键指标,全方位升级实时互动体验。在延时表现上,模型依托全栈加速引擎的极致优化,将首帧视频输出延迟降至0.87秒,首次让14B级大模型数字人具备即时反应能力,彻底消除传统大模型生成时的滞后感,可完美适配视频通话即时对答、直播间弹幕秒级互动、智能客服实时响应等全场景需求,实现自然流畅的深度对话。在帧率表现上,即便搭载140亿参数的超大DiT模型,其推理吞吐量仍高达32fps,远超直播所需的25fps实时标准,确保画面全程丝滑顺畅,也用实际效果证明大参数模型经深度加速优化后,依然能保持极佳运行效率。

针对数字人视频生成中常见的面部不一致、画质大幅下降等痛点,SoulXFlashTalk搭载独家自纠正双向蒸馏技术,引入多步回溯自纠正机制,主动模拟长序列生成的误差传播并实时修正,相当于为AI配备实时校准器,可高效恢复受损画面特征。同时模型完整保留双向注意力机制,使每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,保障超长直播中人物口型、面部细节与背景环境始终保持一致,不出现模糊、变形等问题。此外,模型还突破传统数字人仅能实现面部对口型的局限,支持音频驱动的全身动作生成,呈现自然真实的肢体动态,依托14B DiT强大建模能力,有效消除手部畸形与运动模糊,精准还原清晰锐利的手部细节,在大幅提升动态表现力的同时,维持99.22的身份一致性,实现动作灵活与画面稳定的平衡。

训练流程示意图

为平衡生成质量与推理速度,SoulXFlashTalk采用两阶段训练策略,第一阶段为延迟感知时空适配,结合动态长宽比分桶策略微调,让模型适配低分辨率与更短帧序列;第二阶段为自纠正双向蒸馏,利用DMD框架压缩采样步数并移除无分类器引导实现加速,配合多步回溯自纠正机制与随机截断策略,完成高效且显存友好的优化。在推理加速层面,模型针对8H800节点设计全栈加速引擎,通过混合序列并行、FlashAttention3算子优化、3DVAE并行化与全流程图融合,实现亚秒级延迟输出。在TalkBenchShort与TalkBenchLong数据集测试中,模型在视觉保真度、口型同步精度等指标刷新行业记录,长视频生成仍稳定保持32fps吞吐量。

依托优异性能,SoulXFlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、互动NPC、智能客服等场景,有效解决传统数字人直播长时间运行后的同步漂移、画质衰减问题,大幅降低运营成本。此次开源是SoulAI布局的重要一步,继SoulXPodcast之后,Soul将继续聚焦交互能力提升,以开源生态携手全球开发者,推动AI+社交领域技术持续进步。

 

(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。如本信息内容涉及侵权,请及时与本网联系jinbw2024@126.com)

文章关键词:模型,生成,实时 责编:兰明群
5034

相关阅读 换一换

  • 豆包推出付费版!大模型免费时代结束了吗?

    近日,豆包App Store页面出现付费版本服务声明,称为更好地服务专业用户,豆包将在免费版的基础上推出包含更多增值服务的付费版本。目前尚未在豆包产品中看到相关付费选项和功能,方案细节还在测试阶段。据豆包官方回应,付费功能将主要专注复杂任务

  • 真相来了:“湖北惊现人造毒大米”系AI生成

  • 用AI生成内容,著作权算谁的?

    人机协同作品日益普遍,争议随之而来 用AI生成内容,著作权算谁的? AI文案、AI图片、AI视频……当前,生成式人工智能技术加速迭代和普及,人机协同作品也日益广泛地进入生活之中。当AI根据用户指令,生成一段文字、一幅画作或一条视频,谁享有这

  • 开辟具身智能新路线 晨昏线GCWM1定义世界模型物理本质

      随着具身智能行业从硬件迭代进入核心大脑升级的新阶段,世界模型的技术路线选择成为行业讨论的核心焦点。国内具身智能创业公司晨昏线科技(TermiTech)月内连融两轮后,于2026年4月28日正式发布目标因果世界模型GCWM1,开辟了“物理

慢新闻

辟谣:新疆塔什库尔干县发生4.0级地震,这些谣言勿信! 辟谣:新疆塔什库尔干县发生4.0级地震,这些谣言勿信!

新闻推荐

网站简介 | 版权声明 | 广告服务 | 联系方式 | 网站地图

Copyright © 2012 hnr.cn Corporation,All Rights Reserved

映象网络 版权所有