文生音频
原创大约 4 分钟
和文生文、文生图这两类应用相比,音频领域的AI类应用也不少。

Stable Audio
这当中较为有趣的是Stable Audio和Suno

用文本生成音频也较为简单,只需要输入提示词(官方已经准备好了一些,可以让用户尽快上手),选择好模型,设置时长,或者选择一段参考音频,然后就可以创作了。

从官方准备好的提示词库中选择一种,例如这里选择的是Epic Rock
(史诗摇滚)。

至于提示词部分,它们代表的含义如下。
提示词 | 含义 |
---|---|
Post-Rock | 表示后摇,其特点是,所用乐器一般与摇滚乐相同,但节奏、和声、旋律、音色及和弦进行都有别于传统摇滚 |
Guitars | 吉他 |
Drum Kit | 架子鼓,欢快,节奏感极强 |
Bass | 贝斯,一般用于低音部 |
Euphoric | 表示极度兴奋和快乐的状态,常用于描述人们特别开心和激动的时刻,例如在成功取得目标、享受美好时光或体验到某种令人愉悦的感觉时,是表达人们对美好事物的向往和对幸福生活的追求 |
Up-Lifting | 激昂振奋的,其特点就是贝斯和弦比较紧凑,让人感觉十分激昂,也比较有史诗感,拍速(BPM)通常介于136~142之间 |
Moody | 一种情绪多变且喜怒无常的风格,这类曲风乖张、另类,充分流露个人情绪,尽情宣泄 |
Flowing | 流畅感,简单来说就是节奏和词的结合,它是说唱时咬文嚼字的方式以及每个音节发音的方式或特点,即说唱要像水流一般,时快时慢,时强时弱。 一段歌词可以有很多种flow的演唱方式,从发音、断句、语速、断拍、拖拍等方面都可以影响flow |
Epic | 属于Soundtrack,就是为电影电视等其他媒体形式所做的配乐,发展到现在,逐渐以传统管弦+合成器的方式来演奏所谓的史诗音乐 |
Sentimental | 属于抒情歌曲,是一种感情丰富的音乐风格,通常以浪漫和亲密关系为主题,偶尔涉及战争(抗议歌曲)、孤独、死亡、嗑药、政治和宗教,曲风哀婉雅正 |
BPM | 拍速,每分钟里拍子的数量。速标60/BPM等于每秒打一拍,而120/BPM则等于每秒打两拍,依此类推,但具体节奏还取决于曲调所采用的音符。例如,虽然拍速相同,但四分音符和八分音符打出的拍子是不同的 |
所以,在音频演奏时可以留意是否有这些元素在内,提示词虽然不多,但其包含的信息量却不小。
选择好之后,就可以通过 Generate 生成音频了。
我用Stable Audio生成的音频在这里:点击欣赏。
Suno
Suno的使用就相对简单多了,但也显得更加“业余”一点:

用Suno生成音频,不需要任何专业的音乐知识,只需要一段描述即可。
至于所谓的Custom Mode
,就由各位小伙伴自己玩玩吧。
剪映
文生音频的另一类应用就是大多数剪辑软件中都自带的朗读
功能了,这里以剪映为例。
除了剪映之外,还有很多其他在线工具都能够实现文本转音频、音频降噪、修复、人声分离等功能。
感谢支持
更多内容,请移步《超级个体》。