SongGeneration - 腾讯AI实验室推出的音乐生成模型
SongGeneration是什么
SongGeneration 是腾讯 AI 实验室推出的高质量歌曲生成项目。基于 LeLM(Large Language Model for Music)框架,能并行生成人声与伴奏,实现二者和谐统一。用户可以通过输入歌词、描述文本(如风格、情感等)或参考音频来引导生成过程。SongGeneration 支持多种音乐风格和情感表达,生成的歌曲具有高质量和高多样性。技术架构结合了混合标记和双轨标记,通过音乐编解码器将生成的标记重构为音频。适用于音乐创作、影视配乐、游戏音乐等领域,为创作者提供了高效且富有创意的解决方案。

SongGeneration的主要功能
- 人声与伴奏协同生成:SongGeneration能同时生成人声和伴奏,确保二者在节奏、旋律和情感上高度统一。通过混合标记(mixed tokens)和双轨标记(dual-track tokens)技术,实现人声与伴奏的自然融合,避免了传统生成方式中人声与伴奏分离的问题。
- 多风格与多情感支持:用户可以通过描述文本指定歌曲的风格(如流行、摇滚、爵士等)和情感(如欢快、悲伤、激昂等)。SongGeneration能根据这些描述生成符合要求的歌曲,满足不同场景和用户需求。
- 多轨生成:SongGeneration 能自动生成分离的人声与伴奏轨道,同时保证旋律、结构、节奏与配器的高度匹配。
- 灵活的输入方式:用户可以输入歌词(需标注结构,如
[Verse]
e[Chorus]
等)、描述文本或参考音频来引导生成。多样化的输入方式为用户提供了极大的便利,即使是非专业用户也能轻松上手。 - 高质量音乐输出:SongGeneration生成的歌曲具有高质量的音频表现,性能超越开源音乐生成模型,媲美行业顶尖系统。生成的歌曲可以直接用于音乐创作、影视配乐、游戏音乐等场景。
- 高效生成能力:SongGeneration基于高效的 LeLM 框架,能快速生成完整的歌曲,大大提高了创作效率,降低了创作门槛,让音乐创作变得更加简单和高效。
SongGeneration项目地址
- Repositório do GitHub:https://github.com/tencent-ailab/SongGeneration
- HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
- arXiv技术论文:https://arxiv.org/pdf/2506.07520
- 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration
Como usar
- Experiência on-line:SongGeneration 模型已登陆 Hugging Face,用户可以通过在线体验使用。
- 功能使用方法
- 文本控制:用户只需输入关键词文本(如“开心 流行”“激烈 摇滚”),SongGeneration 会基于输入文本生成高质量的完整音乐作品。
- 风格跟随:用户可自行上传 10 秒以上的参考音频,SongGeneration 会自动生成风格一致的全长新曲,覆盖流行、摇滚、中国风等多种流派。
- 多轨生成:SongGeneration 能自动生成分离的人声与伴奏轨道,同时保证旋律、结构、节奏与配器的高度匹配。
- 音色跟随:SongGeneration 支持基于参考音频的音色跟随功能,生成歌曲具备“音色克隆”级别的人声表现,听感自然且有情感。
- 本地使用:如果需要在本地使用 SongGeneration,可以Github仓库和Hugging Face模型库获取代码和模型,用户可以下载代码和模型权重,按照项目文档中的说明进行安装和配置,然后在本地运行生成音乐。
SongGeneration的技术优势
- 低比特率音乐编解码:SongGeneration 创新性地实现了在极低码率(25Hz)和超低比特率(0.35kbps)下的高质量音乐重建,能将 48kHz 双通道音乐高效压缩并还原。
- 多偏好对齐:SongGeneration 通过直接偏好优化(DPO)和多维度偏好对齐,能精准对齐音乐性、歌词对齐、提示一致性等多个维度。使生成的歌曲不仅在音质上表现出色,还在旋律、结构和情感表达上更贴近用户需求。
- 多类别 Token 并行预测:SongGeneration 采用“混合优先,双轨其次”策略,避免了不同 Token 类型之间的相互干扰。
- 三阶段训练范式:SongGeneration 采用预训练、模块化扩展训练和多偏好对齐训练的三阶段训练范式。
- 高性能与竞争力:在与商业模型和开源模型的对比评测中,SongGeneration 在内容欣赏度、内容实用性、制作质量等多个关键维度上均表现优异。生成的歌曲在音质、旋律、结构和情感表达上均展现出强大的竞争力。
SongGeneration的适用人群
- 音乐创作者:专业音乐人或业余爱好者,SongGeneration 能提供强大的创作辅助。可以帮助创作者快速生成高质量的歌曲,激发灵感,节省创作时间,在旋律创作、编曲和歌词搭配方面。创作者可以根据自己的创意输入歌词或描述,生成符合风格和情感需求的完整歌曲。
- 影视制作人员:影视配乐是影视制作中的重要环节,SongGeneration 能根据影视作品的情感氛围和风格要求,快速生成匹配的音乐。例如,为电影、电视剧、广告或短视频生成合适的背景音乐,提升作品的整体效果。
- 游戏开发者:游戏音乐需要与游戏场景和氛围紧密结合。SongGeneration 可以根据游戏的风格(如奇幻、科幻、冒险等)和情感需求(如紧张、欢快、神秘等),生成符合游戏场景的音乐,增强玩家的沉浸感。
- criador de conteúdo:包括自媒体人、视频博主、播客等,SongGeneration 可以根据内容的风格和情感需求快速生成音乐,避免版权问题,同时提升内容的吸引力。
- 音乐教育者和学生:SongGeneration 可以作为音乐教育的辅助工具,帮助学生理解不同音乐风格、情感表达和创作技巧。教育者可以用来生成示例音乐,展示不同风格和情感的音乐效果,激发学生的学习兴趣。
© declaração de direitos autorais
O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.
Artigos relacionados
Nenhum comentário...