积士佳
Suno 来了和全新音乐创作场景一起|Z Talk

时间: 2024-04-11 04:33:38 |   作者: 上海体育nba直播在线观看快船

产品介绍

  我们在这里谈论最新的行业观察,先锋的创业动态,也在这里与真格老友相聚。我们始终相信持续的学习和进化,相信最深刻的认知来自实践。

  3 月 22 日,Suno V3 版本正式对外发布。Suno 的创作能力如何?又为音乐创作带来了哪些新的挑战与契机?在本文中,真格基金管理合伙人戴雨森分享了他对于 AI 音乐生成的思考。

  在国内 AI 音乐生成领域,线 年 A 轮投资的「快音 AI 写歌」引领了全新的创作场景——专有音色演唱、歌曲电影解说、生日祝福等。我们始终高度关注 AI 生成领域的最新进展,并期待与你共享和探讨。

  3 月 22 日,初创公司 Suno AI 正式对外发布 V3 版本,这一破圈版本被视作颠覆音乐界的 ChatGPT——「Suno 正在创造一个未来,在这个未来,任何人都能制作出很棒的音乐。」

  打开 Suno,用户只要输入想要的音乐风格、主题,或是歌词,就能在几十秒内得到 2 首时长 2 分钟的歌曲,和一张音乐封面。与前代相比,Suno V3 可以生成更高的音乐质量、更多样的音乐风格与流派、对 prompt 理解更准确、幻觉也更少。

  免费用户在 Suno 每天可获得 50 点数,用于 5 次生成,每次 2 首,一共可生成 10 首歌曲。如果每月支付 8 美元,即可生成 500 首;每月支付 24 美元,可生成 2000 首。Suno 尊重音乐创作者与知识产权,因此不允许用户在 prompt 中请求使用特定音乐人的风格与声音。

  据「定焦」,Suno 背后主要由自研的两个大模型支撑,分别是基于 transformer 的 Bark 语音模型和 Chirp 音乐模型,前者主要用来生成人声,后者提供音乐旋律和音效。两者让 Suno 生成的音乐旋律更智能化、复杂化,这也是此公司的核心技术。

  据「滚石」报道,创始人 Mikey Shulman 是一个「有着少年魅力、总是背着双肩包」的 37 岁哈佛物理博士毕业生。他的想象中,全球会有十亿人,每月向 Suno 支付 10 美元来创作歌曲。目前音乐听众的数量远超于音乐创作者,在他看来是「如此失衡」。

  AIGC 浪潮之中的音频远落后于图像与文字。在意识到这一点后,Suno 团队于 2023 年 4 月发布了基于 transformer 的文字转音频模型 Bark,并在 Bark 早期用户调研中,发现用户真正想要的是音乐生成工具。「所以我们开始做一些初步实验,结果很不错。」

  Shulman 和 Camacho 都很喜欢音乐,在 Kensho 时经常一起即兴演奏。许多 Suno 的成员也都是音乐家,办公室放着钢琴和吉他,墙上也挂着古典作曲家的画像。Suno 的官网上写着,「我们喜欢写代码,创作音乐,喝咖啡。音乐和声音实验是我们公司文化的全部——从午餐闲谈到办公室的录音棚。」

  真格基金管理合伙人戴雨森:Suno V3 有点像 Midjourney 的 V3、GPT 的 3.0 版本,给音乐产业带来了很多变化的可能,这里简单畅想一些可能的方向。

  之前做音乐 UGC 平台的公司基本都没有起来,一个重要原因是,音乐是创作者头部效应最明显的产业之一。

  一个普通人拍的视频可能是具备消费价值的,因为拍摄的人、事、景等可能很有意思,但是普通人创作的音乐、或者翻唱的歌曲几乎是完全不具备消费价值的。实际上,我们日常在听的、耳熟能详的、能出圈的歌曲也就是万首的级别。因此,控制了头部创作者的三大唱片公司,一年的版权收入是几百亿美金。天下苦三大久矣。

  现在以 Suno 为代表的 AI 作曲工具的出现,突然极大地降低了创作一首 60-70 分音乐的门槛。这有点像摄影的发展:一开始要用胶片拍摄和冲洗,然后诞生了数码相机和 Photoshop。门槛逐步降低,摄影工具变成了手机摄像头和剪映。当大量的普通人突然可根据自己的想法、歌词,来生成达到及格线的音乐时,就可能会随机诞生出全新的音乐家和大作。

  与此同时,Suno 也是 AIGC 应用里难得能形成「内容生产者 + 消费者闭环」的平台。妙鸭相机和 Midjourney 这类 AIGC 工具的长期问题,都在于 AI 产生的内容在本平台上的再消费价值不足。用 Midjourney 生成的图片,一般来说只对生产者本人有价值。而作为内容消费者,人们很难去刷 Midjourney 或是妙鸭的内容广场。

  但是,用 Suno 生成的音乐则不一定。事实上,我发现了自己很自然地就在 Suno 上开始听推荐的音乐了,有的还真的有点意思——这首最近在 Suno 排行榜第一名的中文摇滚就还真的挺好听的!

  70 分的音乐单独欣赏的价值并不大。因为绝大多数情况下,用户总可以去听 95 分的佳作,甚至单曲循环最好的那首歌。

  但 70 分的音乐,配合合适的场景可能是有用的,尤其是可以每时每刻生成个性化歌词音乐的时候。一种常见的场景是作为生日礼物,活动物料等。另外,配合视频等内容也可能会产生有趣的玩法。

  这是一个 up 主使用「快音 AI 写歌」创作自定义音乐来点评电影的例子。在这里,音乐本身是否好听其实并不是那么重要,重要的是用带有韵律的方式来传达信息。

  有一些场景下,70 分的音乐也能接受的,比如说公共场合的背景音乐等。

  想起小时候有个不存在的乐队叫「班得瑞」。实际上,「班得瑞」是台湾一个乐队公司把很多风格类似的器乐包装在一起,出了很多专辑,一度很流行。

  而 Suno 现在生成的纯器乐质量已经不错了,作为日常咖啡厅的背景音乐也完全不觉得违和。这原因是没有人声的器乐更接近纯数学,AI 能够更好地生成。

  就像我们不会要求 ChatGPT 直接写出来一部小说一样,现在对 Suno 的要求也不应该是直接生成一首完整的歌,而是作为再创作的起点。

  Suno 可以首先作为音乐创作者的 Copilot。看起来,这里的难点是如何生成专业创作者需要的工程文件(和 3D 生成遇到的问题类似),并且如何在一致性和可控性上逐步提升,需要类似图形生成里面 LoRA 和 ControlNet 这样的技术。

  现在用 Suno 生成一首歌之后,再 remix 得到的结果就完全不一样了,但还是会常常会出现「这首歌听起来不错,但是我还想微调一下」的场景。相信这个是可以很快得到提高的。

  总之,现在的 Suno V3 比起之前所有的 AI 音乐创作工具都有长足的进步,能够说是第一次摸到了合格歌曲输出的门槛。但是,Suno 也在音乐质量、一致性、可控性等方面,有许多显然可以大幅度提高的地方。

  这很像 GPT3 推出时,是第一个让人觉得「这次真的不一样了」的版本,而 GPT-4 完成了大幅度提高,变得更实用高效。期待在 AI 音乐生成领域,我们也可以看到更多的惊喜。

  和 Suno 一样,打开快音,输入灵感或一段歌词,就能得到一首属于你的 AI 歌曲。快音还支持多次修改编辑歌词,也能添加具体人名送给指定对象。如果清唱 60s,还可根据你的声音训练出你的专有音色。

  目前,快音 40% 的付费用户用于市场营销,为自己的产品写歌,30% 的用户会用于 KOL 内容创作,30% 用在所有祝福和纪念场景——「送你一首生日祝福」。

  快音还带来了一个全新的出圈场景——用歌曲解说电影。根据电影剧情生成歌词,再将歌词输入「快音 AI 写歌」,选择相应曲风,即可生成一首带感的背景音乐。B 站 up 主 @唐僧说电影发布上文中的视频《胆战心惊》后,观看量超过 150 万。

  快音成立于 2019 年,是专注 UGC 内容生产力的音乐平台。2020 年,真格基金 A 轮投资快音。在文字和图像大模型飞跃后,快音开始尝试将 AI 大模型和音乐进行结合,并推出了微信小程序的「快音 AI 写歌」。

  相比文字、图像,音乐的创作环节更多、更复杂,要考虑词曲一致,也要考虑到混响、降噪等后期处理。同时,高质量音乐数据集较少,标注成本大,需要很多前置工作。快音通过模型辅助人工标注,模型识别准确率能提高至 85%,人工达 95%,人效提高 10 倍以上。

热销产品

新技能!牛人教您巧用胶带轻松翻开罐头瓶盖
教你开罐头小好办法只需用它烧一下就能轻松拧开省时又省力
今天才发现原来罐头瓶盖上还有一个小机关难怪以前老是拧不开
开罐的技巧 先用剪刀尖或刀尖插入瓶盖边缘就可以撬动瓶盖 环球动态