Stable Audio 2.0：新音频到音频功能回顾

Stability是全球顶尖的AI公司之一。大多数人是通过他们的开源图像生成模型Stable Diffusion了解到它们的，但该公司也在人工智能音乐生成方面投入了大量时间和资金。

2024年4月3日，团队发布Stable Audio 2.0具有各种令人印象深刻的新功能。最值得注意的更新是音频到音频的功能，目前只有通过其竞争对手Meta的MusicGen可以做到。

该公司在音乐方面的第一次努力是通过一个名为Harmonai。到2023年9月，Stability宣布发布Stable Audio，这是他们的第一个营利性音乐生成模型。在推出后的几个小时内，该产品获得了来自Billboard，TechCrunch，VentureBeat和the Verge的热烈评论。

这项服务是作为一个网络应用程序提供的，并遵循付费播放模式。

在本文中，我们将让您了解新界面、我们使用音频到音频功能的实验、与MusicGen的比较，以及一些关于如何编写最佳提示的技巧。

实验1：手指敲击鼓点
实验2：哼唱旋律到合成器流行音乐
实验三：吉卜赛爵士手风琴曲
音频到音频功能的要点

2. 使用SparxAudio引导稳定的音频提示

3. Stability AI的Jordi Pons分享文本提示技术

4. Dadabots的CJ Carr的“流派融合”技术

<二>Stable Audio的服务条款

<三>Stable Audio与MusicGen相比如何？

<四>背景故事：和声、舞蹈扩散、重复融合和音频密码

如何使用Stable Audio的文本到音乐生成器

Stable Audio允许用户从音乐和声音的描述中生成原始音频。若要开始，请导航到Stable Audio网站，免费注册并接受他们的服务条款。这将带您到下面的仪表板。

Stable Audio界面的左上角仍然包含文本区域，您可以在其中输入音乐提示。下面，你会发现一个新的提示库预设的布局格式是我从未见过的其他服务提供的。单击其中一张卡片，用系统理解的关键术语预先填充文本区域。你可以按下这些卡片上的播放键，先试听一下。

库中有17个提示预设，最后的第18个选项写着“给我惊喜”，并将随机拉入17个选项中的一个。

在提示库选择器下面是一个型号选择器。如果你愿意，可以从AudioSparx 1.0或2.0中选择，但不言而喻，最新的选项是最好的。默认情况下，该程序默认为2.0版本，因此您可以保持原样。

向下移动列表，您会发现1.0版中存在的持续时间控件，但在下一节中，事情开始变得非常有趣，标签为输入音频。将鼠标悬停在信息图标上以访问其完整的用户指南。

用户指南是相当冗长和详细的，所以如果你急于开始，你可以简单地点击添加音频。在您第一次参观时，将启动一个简短的演练，解释关于每个定价层的上传预算的一些重要细节。

最小文件长度：1秒

免费计划：三分钟上传的音频

专业计划：三十分钟上传的音频

工作室计划：六十分钟上传的音频

最大计划：上传 90 分钟的音频 Stable Audio 将检查您的文件是否受版权保护的作品，如果发现违规，该音频仍将计入每月限额。所以一定要用未发表的音乐，即使是你自己的。

接受的文件格式：MP3，WAV，MP4，AIFF。

您上传的音频文件将被自动裁剪为三分钟。他们还澄清说，你的音乐永远不会被用来训练他们的任何模型。

这就是全部了。现在，您可以开始添加音频了。从两个选项中选择一个。您可以从电脑上传音乐，也可以直接录制到应用程序中。

上传选项很简单，只需打开系统的文件浏览器。但是，如果您决定使用录音功能，您需要授予浏览器访问电脑麦克风的权限。

您可以通过参考右上角的音符符号来监控您帐户中剩余的音乐生成点数。这个数字随着你创建的每首曲目而下降。

实验1：手指敲击鼓点

我的第一个实验是为记录的输入捕捉一个简单的节奏，看看我是否可以用稳定的音频得到一个更有趣的打击乐概念鼓独奏从提示库中预设。

第一次“抓拍”实验的结果有点令人印象深刻。有一个明确的风格/音色转移，但它没有达到我所说的鼓独奏。我试了第二个提示，鼓和低音，产生了不同的鼓声。两个输出都有一种修改过的捕捉音色。

实验2：哼唱旋律到合成器流行音乐

回到绘图板！我录下了自己哼着一首简单的十秒钟旋律。然后我选择了合成器流行音乐从Stable Audio 2.0的提示库预设，并点击生成。

尝试将下面上传的音频波形与synth pop输出进行比较。如您所见，输入信号的最大部分对应于输出中的类似波形。但是说实在的，风格的转变并不是很好。输出听起来类似于我的嗡嗡声，音色略有不同。

实验三：吉卜赛爵士手风琴曲

我的前两次实验有点失败。这两种方法都涉及到录制稳定的音频。所以这次我试着上传了一段我写的手风琴曲子的30秒录音。这是一段响亮、清晰的录音，有和弦和旋律。我成功地将它与之前的MusicGen，所以有一个明确的基准来比较。

成功，算是吧！这个版本无疑是迄今为止最好的结果。提示要求吉普赛爵士乐与直立低音和拉丝鼓组。相反，我得到的是一把原声爵士吉他，上面听起来像木琴。没有低音或鼓。

这里有必要提出一些建设性的批评。旋律的准确率约为90%，但有一些酸涩的音符在原始录音中没有出现。它有节奏地失去了几次线索，过早或过晚地跳入旋律。

另一方面，稳定音频确实在简单的i-iv-V7-i和弦进行上进行了创新，并进行了一些美味的重新和声。如果我的目标是想出新的和弦安排，这将是一个宝贵的资源。我可以想象把它传递到一个像Samplab或ripX来获取MIDI格式转录并精确计算出正在演奏的和弦。

我继续用新的提示重复手风琴歌曲，看看它是否公平。我的提示“死亡金属与爆炸节拍”缺乏鼓或低音，但确实在原始录音中应用了扭曲的吉他音色。提示“激情探戈”听起来与输入相当相似，但更像拨奏。

音频到音频功能的要点

总的来说，Stable Audio 2.0的音频到音频功能似乎应用了音色传输，而不是MusicGen的旋律模式提供的风格传输。你可能会在输出中听到不止一种乐器，但根据我的经验，我们还没有得到一个完整的鼓和低音的多乐器安排。

此外，音频输出的音质仍然有点粗糙。它的保真度很低，很难想象在任何情况下使用，无论是在DAW中采样还是作为创意奖杯在网上分享。

对于即时歌曲生成，suno似乎仍然处于领先地位，尽管Suno的质量最近受到了打击，Twitter用户也对那里的音乐创新下降表示了一些沮丧。

Stable Audio与MusicGen相比如何？

Stable Audio和Meta的MusicGen都是AI文本到音乐的平台，但正如我刚才解释的那样，MusicGen包括一个旋律模式，可以创建完整的乐器编曲。用户可以将音频文件上传到MusicGen，并提交文本提示进行修改。

MusicGen模型没有专用的用户界面，尽管第三方网站例如SoundGen已经创建了自定义用户界面。因此，Stable Audio的一个关键区别可能是模型和网络界面是由同一家公司构建的。

Stable Audio 2.0有一个特别漂亮的界面，值得一些赞。总而言之，我认为称Stable Audio为对消费者更友好的服务是公平的。

使用AudioSparx引导Stable Audio提示

这就把我们带回了Stable Audio产品的核心。尽管音频对音频可能令人兴奋，但他们赖以生存的仍然是纯粹的文字转音乐。如果你不介意回到核心体验，AudioSparx 2.0输出听起来确实比第一款更好。

那么，非常重要的问题是：我到底要在这东西上键入什么？

Stable Audio的人工智能模型是在AudioSparx上训练的，AudioSparx是一个拥有超过80万个音频文件和19.5 K小时的音乐、音效和单乐器阀杆的数据集。

由于专门针对该库中的音频进行了训练，当您使用与该数据集一致的术语时，该模型表现最佳。若要发现定型数据中的术语，请导航到AudioSparx网站然后点击音乐选项卡。

每个顶级音乐流派都链接到一个单独的页面，访问者可以在那里找到相关子流派的列表。

在本例中，我们选择了电子音乐并且正在查看按字母顺序排列的前几个子类别。每个集合中的曲目数量显示在标签的左侧。当需要生成音乐时，具有更多轨道的子类别可能会为稳定的音频带来更丰富和更多样的想法。

单击子类别以查看其包含的音频文件的完整集合。在每首曲目的标题下，你会发现一个丰富的文本描述。尝试将描述性文本直接复制并粘贴到Sample Audio的提示字段中，看看会发生什么。调整文本并迭代多轮，直到您对它创建的音乐感到满意。

在使用包含艺术家姓名的描述时要小心。上面显示的第三个例子命名了Aphex Twin、Radiohead和其他例子。

正如我们在本文后面解释的那样，Stable Audio的服务条款禁止滥用知识产权。我没有看到任何一行明确说明用户不能在提示中提交艺术家姓名，但从字里行间可以看出，这是最明显的解释。

我的解释是，只要是为了自己的享受，你尝试艺术家的名字可能是安全的。出于道德和法律原因，最好避免在商业上使用以艺术家名字为种子的音乐。

Stability AI的Jordi Pons分享文本提示技术

稳定性研究科学家约尔迪·庞斯本月发表了一篇文章，其中有一些很好的技巧提示稳定音频。我将在下面总结这些技巧，这样你就能更好地了解如何从AudioSparx上找到的流派、子流派和音乐描述中构建短语。

音乐提示技术1：提供音乐属性列表

最简单的起点之一是描述符，如流派、乐器、情绪和速度。

例子：高保真嘻哈，钢琴，低音，鼓，放松，寒冷，90 BPM

音乐提示技术2：结合音乐和非音乐描述

尝试加入非音乐的描述，看看它如何延续到音乐的感觉中。

例子：岛歌，木琴，站在脚下有沙子的大海上，听着海浪声，棕榈树在微风中摇摆的放松体验。

细化提示

如果你发现音乐输出听起来太数字化或电子化，Jordi建议在提示中添加“现场”或“乐队”等关键词。
您可以通过键入“立体声”、“高质量”和“44.1 kHz”来提高音频质量。
要增加旋律的趣味，请尝试在音轨的主音乐器名称后添加单词“Solo”。

这些是文本提示的基本原则，但总有进一步实验的空间。在下一节中，我们将分享一个新颖的例子。

Dadabots的CJ Carr的体裁融合技术

Dadabots的CJ Carr已经加入Harmonai团队好几年了。他是我个人在人工智能音乐领域最喜欢的人之一，因为他对音频合成的不合时宜和令人费解的方法。

当你把两种不太可能的流派融合在一起会发生什么？我们能创造出全新的音乐风格吗？否则这个世界将永远听不到这样的音乐风格。

流派融合提示格式：本演示中的提示格式组合了两个短语，每个短语都以“Subgenre：”为前缀，并用管道符号（|）分隔。

实验思路：尝试输入两种已知节奏相反的风格，如“Subgenre：Breakbeat|Subgenre：Lo-fi Hip Hop”。你也可以尝试风格相反的流派，比如“Subgenre：死亡金属|Subgenre：放松新世纪”。

在历史上的任何时候，像这样的流派融合都会停留在一种未表达的、潜在的空间里。但是现在，通过一些文本和片刻的处理，Stable Audio为我们做了繁重的工作，并为我们提供了新的想法。

流派弯曲是一个更安全的选择，而不是我所说的艺术家融合。提示可以在单词中交换艺术家用于子类别和创建多个艺术家的混合体。但正如我前面提到的，一旦我们开始将个别艺术家的品牌注入我们的提示，我们就进入了一个法律灰色地带。

因此，让我们仔细看看服务条款。

Stable Audio的服务条款

当我们注册一个新的应用程序时，我们大多数人都会跳过条款和服务协议。但当谈到人工智能音乐生成时，对它们的术语有一个基本的熟悉是很重要的。

以下是关于Stable Audio的服务条款需要了解的一些最重要的事情：

1. 年龄限制：你必须年满13岁才能合法使用这项服务
2. 音乐是你的：用户拥有他们生成的内容，受条款和法律的约束。
3. 不要用Stable Audio训练其他人工智能模型：用户被禁止使用服务或其生成的内容来训练其他人工智能模型。
4. 尊重艺人IP：用户不得侵犯知识产权。
5. 请不要提起集体诉讼：双方都放弃陪审团审判的权利。您与“Stability”之间的争议将通过有约束力的仲裁解决，而不是在法庭上。小额索赔法庭可用于个人索赔，您可以向联邦或州机构报告。

争议解决：双方必须在发出通知后60天内尝试非正式解决争议。如果没有解决，可以开始仲裁。
保密仲裁程序保密。
选择退出：您可以在帐户创建后30天内通过通知Stability选择退出仲裁协议。

如果你被起诉，你要支付法律费用：用户赔偿Stability因侵犯知识产权、滥用服务或违反条款而引起的索赔。Stability及其代表不对间接、特殊或后果性损害或损失负责。

免费、高级和企业级的定价摘要

免费层用户每月最多20首曲目，最长持续时间为45秒。他们不能将生成的内容用于商业用途。
专业级用户每月获得500首歌曲，时长90秒，可以将音乐用于每月年用户少于10万的商业项目。
企业级用户可以自定义音乐生成的最大持续时间和音量，但需要联系公司进行报价。请参阅定价页面。

这只是一个术语摘要，不应被视为一个完整的报告。我们已经涵盖了我们认为最相关的要点，但您仍应在注册前阅读服务条款。

背景故事：和声、舞蹈扩散和重复

之后努力以更高的估值筹集资金2023年6月，Stability似乎感受到了一些建立盈利服务的压力。9月份的大量用户流量可能会改善投资者情绪，特别是如果他们能够盈利并提供可靠的服务。

Stability的第一个流行的人工智能音乐模型，如 Disco Diffusion和Dance Diffusion，是由该公司的音频实验室开发的Harmonai。它们被基层采用，被在Google Colab和Hugging Face上运行模型的人采用。对于普通用户来说，这些界面有点技术性。

推出文字转音乐服务的决定可能在一定程度上受到了杂音。第三方开发商在2022年12月发布，web应用程序利用Stability的图像生成来训练标记的声谱图（声音的图像），并从文本中生成新的声谱图图像。Riffusion然后将这些剪辑缝合在一起，并对它们进行发音，这意味着它们将图像数据转化为声音。

2023年10月，Riffusion获得了400万美元的种子轮资金，并推出了一个具有歌声和音乐生成功能的新界面，可与Suno相媲美。

Stable Audio 2.0是一个进步，但他们是否能够与歌声的大众吸引力竞争还是一个悬而未决的问题。音频到音频功能的质量也需要一些改进。这是他们最大的优势，所以如果他们能在这方面有所改进，这可能会让他们重新成为音乐家，如果不是普通大众的话。

编辑：刘慧

（机器翻译，轻度译后编辑，仅供参考）

原文链接