MusicLM | 环融AI

MusicLM将条件音乐生成过程描述为一个分层的序列到序列建模任务，并生成具有一致性的音乐，其采样率为24kHz，并可以持续几分钟。实验结果表明，MusicLM在音频质量和遵循文本描述方面优于先前的系统。此外，我们证明MusicLM可以同时基于文本和旋律进行条件处理，即可以根据文本说明将哼唱和口哨的旋律转换为所描述的风格。为了支持未来的研究，我们公开发布MusicCaps数据集，其中包含5.5k个音乐-文本对，由人类专家提供了丰富的文本描述。