新闻中心 > 基层声音  > 正文

​Soul攻克长视频生成难题,SoulXFlashTalk保障数字人持久稳定

2026-05-14 11:07:50   来源:映象网

5034

在实时数字人技术快速普及的当下,长视频画面崩坏、身份漂移、仅能实现口型对齐等问题,一直是制约行业发展的关键瓶颈。Soul App AI团队近期开源的SoulXFlashTalk模型,凭借独家技术方案与全链路优化,在14B大参数量基础上,成功实现超长视频稳定生成与全身动态交互,彻底打破传统数字人的功能限制,为实时交互场景带来更真实、更持久、更自然的体验。作为行业内兼具亚秒级延时、高帧率与长时稳定的标杆模型,SoulXFlashTalk的出现,让大模型数字人真正具备全天候商用运行能力。

SoulXFlashTalk针对长视频生成痛点进行深度优化,有效解决传统模型面部不一致、画质衰减、口型错位等问题。模型搭载自纠正双向蒸馏技术,通过多步回溯自纠正机制,主动模拟长序列生成过程中的误差传播,并进行实时修正,如同为AI配置高精度校准器,高效恢复受损画面特征。同时,模型完整保留双向注意力机制,摒弃传统单向依赖结构,使每一帧生成均可同时参考过去与未来上下文,从根源压制身份漂移与背景错乱。在5分钟以上长视频测试中,模型依旧保持画面清晰、人物稳定、口型同步精准,完全满足电商直播、视频通话、内容展播等长时间运行场景需求。

除长时稳定能力外,SoulXFlashTalk实现了从局部面部生成到全身动态交互的跨越。传统数字人大多仅能完成口型对齐,采用局部重绘方案,肢体表现僵硬单一。而该模型支持音频驱动的全身动作生成,可根据输入音频自然驱动躯干、四肢运动,呈现接近真人的肢体动态。依托14B DiT强大的建模能力,模型还能精准还原手部细节,消除手部畸形、运动模糊等常见问题,让手指动作清晰、纹理锐利。在提升动态表现力的同时,模型维持高达99.22的身份一致性,实现灵动动作与稳定画面的完美平衡,全面提升数字人真实感与亲和力。

为支撑上述核心能力,SoulXFlashTalk采用两阶段训练策略与全栈推理加速引擎。第一阶段通过延迟感知时空适配,让模型适配低分辨率与短帧序列;第二阶段以自纠正双向蒸馏实现速度与质量平衡,配合DMD框架压缩采样步数,提升推理效率。在硬件层面,模型针对8H800节点优化,通过混合序列并行、FlashAttention3算子优化、3D VAE并行化等技术,将首帧延时降至0.87秒,推理帧率稳定在32fps,远超行业25fps实时标准,在保证流畅运行的同时,为长视频与全身动作生成提供算力支撑。

训练流程示意图

在TalkBenchShort与TalkBenchLong数据集测试中,SoulXFlashTalk在视觉保真度、口型同步精度、运动流畅度、背景一致性等指标全面领先同类模型,充分验证技术方案的先进性。依托稳定性能与丰富功能,该模型可广泛应用于电商全天候直播、AI教育讲师、互动娱乐NPC、智能客服等场景,有效降低运营成本,提升交互质量。作为Soul开源生态的重要组成部分,SoulXFlashTalk延续了团队开放共享理念,未来Soul将持续优化实时交互技术,不断提升数字人表现能力,以技术创新推动AI+社交行业向更真实、更沉浸的方向发展。

文章关键词:模型,SoulXFlashTalk,生成 责编:兰明群
5034

相关阅读 换一换

  • 用AI生成内容,著作权算谁的?

    人机协同作品日益普遍,争议随之而来 用AI生成内容,著作权算谁的? AI文案、AI图片、AI视频……当前,生成式人工智能技术加速迭代和普及,人机协同作品也日益广泛地进入生活之中。当AI根据用户指令,生成一段文字、一幅画作或一条视频,谁享有这

  • 开辟具身智能新路线 晨昏线GCWM1定义世界模型物理本质

      随着具身智能行业从硬件迭代进入核心大脑升级的新阶段,世界模型的技术路线选择成为行业讨论的核心焦点。国内具身智能创业公司晨昏线科技(TermiTech)月内连融两轮后,于2026年4月28日正式发布目标因果世界模型GCWM1,开辟了“物理

  • 豆包要新增付费模式了?付费版本官宣,订阅价格披露

    豆包要新增付费模式了? 5月4日,澎湃新闻记者获悉,豆包AppStore页面出现付费版本服务声明。声明称,为更好地服务专业用户,豆包将在免费版的基础上,推出包含更多增值服务的付费版本。 同时,该页面还披露了三档订阅价格:标准版连续包月每月6

  • 速速自查!出去玩时,你的个人信息很可能就是这样泄露的→

    五一假期,在享受旅途的同时,保护个人信息安全同样重要。这里整理了一份实用的保护个人信息小妙招,助您安心出游。

慢新闻

辟谣:新疆塔什库尔干县发生4.0级地震,这些谣言勿信! 辟谣:新疆塔什库尔干县发生4.0级地震,这些谣言勿信!

新闻推荐

网站简介 | 版权声明 | 广告服务 | 联系方式 | 网站地图

Copyright © 2012 hnr.cn Corporation,All Rights Reserved

映象网络 版权所有