人工智能与音乐创作的融合正进入深水区,歌唱语音合成技术作为这一融合的关键支点,迎来重要突破。Soul App AI团队(Soul AI Lab)日前联合吉利汽车研究院人工智能中心、天津大学及西北工业大学,正式对外开源SoulX-Singer歌声合成模型。该模型基于Flow Matching先进架构,依托42000小时以上训练数据,实现了普通话、英语、粤语的工业级零样本歌声合成,为AI音乐创作提供了高稳定、强可控的技术新选择。

歌声合成(SVS)技术的本质是将乐谱与歌词转化为自然人声演唱,其对音准、节奏、表现力的要求远高于普通语音合成。行业长期面临开源模型稳定性不足、控制精度欠缺、泛化能力有限等瓶颈,导致技术难以走出实验室。SoulX-Singer针对这些痛点进行系统性优化,通过架构创新与数据积累,首次在开源领域实现了真正可用的零样本歌声合成能力。
技术层面,SoulX-Singer采用当前生成式AI前沿的Flow Matching建模范式,将歌声生成定义为音频补全任务。这一选择显著提升了训练稳定性与生成质量。更为关键的是,模型创新引入音符级对齐机制,针对歌词、旋律、发声三者的复杂耦合关系,建立从文本到MIDI音符再到声学特征的精细映射。每个音符的起止时刻、音高数值、持续时长均可被独立建模与精确控制,既保证乐谱执行的准确性,又赋予创作者灵活调整的音乐编辑空间。
数据能力是零样本合成的核心支撑。SoulX-Singer的训练数据规模突破42000小时,覆盖多语言、多音色、多风格的广泛歌声样本。这一体量使模型习得丰富的声学表征与演唱规律,面对全新歌手音色时无需额外训练即可生成自然流畅的演唱效果,彻底改变了传统SVS模型"见一人训一次"的低效模式。实测表明,模型在复杂音乐条件下仍保持高度稳定,为商业化部署奠定了坚实基础。

应用层面,SoulX-Singer设计了Music Score与Melody双轨控制方案。Music Score模式直接解析MIDI乐谱,提供音符级的时长与节奏精密控制,满足专业音乐制作对准确性的严苛要求;Melody模式则以参考音频为引导,学习并复刻特定演唱风格与情感表达,支持翻唱改编与风格迁移。两种模式相互配合,打通了从原创到改编的创作全链条。
语言覆盖是SoulX-Singer的显著特色。模型原生支持普通话、英语、粤语三种语言的歌声合成,且在各语种间保持一致的合成品质。这一设计精准回应了华语音乐市场的多元化需求,也为跨语言音乐内容生产、多语种虚拟偶像运营等新兴场景提供了即插即用的技术方案。
评测数据印证了SoulX-Singer的技术优势。在融合GTSinger、M4Singer、Opencpop等主流数据集的GMO-SVS评测体系,以及专为严格零样本场景构建的SoulX-Singer-Eval测试集上,模型在语义清晰度、音色还原度、音高准确性、整体自然度等关键指标全面领先现有开源方案。主观听感测试同样获得高度评价,证明了技术先进性与用户体验的统一。
SoulX-Singer的开源是Soul AI Lab技术开放战略的重要一环。此前该团队开源的SoulX-Podcast与SoulX-FlashTalk已在播客合成、数字人生成领域产生积极影响。此次歌声合成模型的加入,完善了从语音到歌声、从音频到视频的多模态生成能力版图,彰显了Soul推动AI技术普惠的行业担当。
当前,SoulX-Singer的技术报告、源代码、预训练模型已通过学术与开源平台全面开放。研发团队将持续优化模型性能,拓展语言支持与风格适配,并积极探索与音乐平台、内容创作者、智能硬件厂商的生态合作,推动歌声合成技术在虚拟偶像、车载娱乐、在线教育、社交互动等场景的规模化落地。
SoulX-Singer的发布,标志着开源歌声合成技术迈入工业可用新阶段。它不仅为专业音乐人提供了高效的创作辅助工具,更为广大音乐爱好者打开了参与创作的大门,让人工智能真正成为音乐艺术普及与创新的赋能者。这一产学研联合攻关的成果,将为AI音乐产业的未来发展注入强劲动力。
致力于能源效率、脱碳、热管理以及关键任务性能技术的全球性企业江森自控助力甘肃省打造了首个污水源热泵集中供热标杆项目——兰州市城关区雁儿湾污水源热泵站,该项目一期在2025-2026供暖季正式投入运行。依托江森自控高效的热泵解决方案,项目
3月11日下午,国防部新闻局副局长、国防部新闻发言人蒋斌大校就近期涉军问题发布消息。 有记者问,据报道,美国防部要求美科创公司允许军方不受限制地使用人工智能技术。在针对委内瑞拉、伊朗的军事行动中,美军都大量使用人工智能工具,引发对战争伦理与
今年,政府工作报告提出,要培育发展6G等未来产业。6G能为我们的生活带来哪些改变? 6G,即第六代移动通信技术。从1G的语音、2G的短信、3G的移动互联网、4G的直播短视频,到5G的智慧工厂高效运转、自动驾驶汽车上路……通信技术正在“走出手
红星新闻
两千年前,来自中亚的棉花种子在中原大地生根发芽;两千年后,河南带着更先进的技术和更优质的种子,回到棉花的故乡。
近期,微信平台发现部分违规账号利用AI技术仿冒名人,通过伪造其形象、声音进行违规引流或虚假宣传。此类行为不仅严重侵害当事人合法权益,也易误导和欺骗广大用户。 为进一步维护网络空间秩序,保护用户与公众人物合法权益,平台结合用户举报、日常巡查及
下正是春耕备耕的重要时节,在安徽宣城,育秧工作正紧锣密鼓地展开,当地采用了智能化育秧设备,培育壮苗,助力丰收。 在安徽宣城的一处智能化育秧中心,两条全自动育秧生产线正高速运转。工作人员将育秧盘送入输送带后,育秧机就能精准完成底土铺设、洒水润
中新社北京3月7日电 题:习近平:原创性技术要从“0”到“1”,还要把“1”拉长 中新社记者 黄钰钦 3月6日,北京友谊宾馆。在农工党、九三学社、医药卫生界、社会福利和社会保障界政协联组会现场,科技话题成为会场交流的焦点。 “从0到1”。
智能辅助驾驶的核心价值在于守护出行安全,而安全实力的提升,离不开持续不断的技术迭代与海量数据的反复打磨,华为乾崑智驾ADS始终聚焦安全核心,沉下心优化技术、打磨性能,用持续上涨的数据,兑现守护出行的承诺。每一次数据跃升,都是华为乾崑智驾AD
3月7日,全国政协十四届四次会议第二场“委员通道”集体采访举行。 全国政协委员、苏州大学校长张桥介绍,为了确保信息安全,身份证上藏着不少黑科技。其中有一项很关键的光学防伪技术,就来自苏州大学的实验室。 想了解这个技术很简单: 如果把身份证个