本文转载自Midifan:https://www.midifan.com/modulearticle-detailview-7578.htm
新兴技术使数字音频工作站(DAW, Digital Audio Workstation)处于十字路口。历史遗留代码、兼容性限制以及厌恶软件升级换代的用户群体相结合,导致音乐制作软件缺乏创新。新冠疫情、云计算和生成式人工智能改变了人们对音乐制作工具界面和功能的期望。
打开2000年的数字音频工作站,你很可能会一眼认出当今使用的任何数字音频工作站的绝大多数功能(无论是功能上还是视觉上)。从左到右将有一个主编曲界面、一个MIDI音符编辑器、左侧有一个素材浏览器、一个带有一排虚拟推子和插件槽的混音窗口。当然,从那时起,我们最喜欢的的数字音频工作站技术已经发生了巨大的发展,但从根本上说,体验几乎保持不变。
目前主流的数字音频工作站都是建立在多年积累的俗称屎山的历史代码之上,这些开发代码无法随着用户期望或新技术的出现而轻松地更新调整。在数字音频工作站停滞不前之时,插件填补了空白,让新的想法可以快速实现。与之相对,数字音频工作站仍然是静态的相当可靠的底层。但插件领域也逐渐变得呆滞:即使市场上有数千个插件而且每个月都有更多的插件出现,但每年推出的真正创新的想法很少。主要产品都是复制现有工具或重新发明相同的模拟建模合成器和硬件。
这并不是说每个数字音频工作站和每个插件都完全缺乏创新——仅举三个例子,Ableton、Bitwig和FL Studio都在突破DAW基础设施的界限。但生成式人工智能工具的快速崛起是否让数字音频工作站公司变得脆弱?他们如何安抚期望熟悉性和兼容性的核心专业用户群,同时加入下一代制作人期望的突破性人工智能技术?随着创意工具向云端转移,数字音频工作站真的可以保持本地离线状态运行吗? 数字音频工作站会继续处于创意食物链的顶端吗?我们采访了一系列专家,从世界上最大的插件公司背后的开发人员到构建未来数字音频工作站的创新团队以了解2023年当下数字音频工作站的状况、其局限性如何阻碍创新,以及我们下一步的发展方向。
图1:Ableton Live
在 iZotope和Waves 工作了18年的专业音频顾问Scott Simon解释道:
“主要的问题在于的数字音频工作站的代码屎山,每个为数字音频工作站制造商工作的人都知道这一点——他们认识到并感受到了这种痛苦。”
Simon声称数字音频工作站已经成为弗兰肯斯坦式的软件,新功能被附加到现有的代码库上,最终导致创新瓶颈。
“数字音频工作站创造了这个令人着迷的小规模产业,其内部的集体产品每年从零增长到 20亿美元,但如果你回到30年前,你会发现这座房子已经变成了你私自拓建了700个房间的房子。现在你想再安装你的水疗中心、你的自动灯光、你的新供暖系统,在一个增加了700个房间的房子里真的很难做到这一点。这就是我对数字音频工作站的看法。”
Bronze是一家开发新型人工智能和机器学习驱动数字音频工作站的公司,其首席执行官Lex Dromgoole表示:
“我明白为什么没有一个头脑正常的人会承担构建数字音频工作站的任务。”
“如果你加上这样一个事实,即人们无法真正从中赚到钱,因为它需要很长时间才能开发,你就会明白为什么没有创新。我认为这实际上是其中很大一部分——经济激励不存在。”
包含YouTube频道和Discord社群的音频程序员社区Audio Progammer创始人的Joshua Hodge声称,插件市场的情况也已趋于稳定:
“过去最大的障碍之一是模拟建模——能够捕捉硬件的温暖和表现力,从插件首次出现到2012年左右主要做的实际上是在尝试将过去的声音重新带入这些工具中。”
Joshua Hodge表示,现在模拟建模已经基本实现,经典硬件可以在盒子里准确地重新创建,创新动力已经丧失
“我觉得创造力已经达到了一个平台期,很多人都在创造同样的东西。很多人都想知道:下一步是什么,它会是什么样子,我们如何扩展我们使用数字音频工作站所做的当前功能?但我认为没有人完全确定它会是什么样子。”
图2:“数字音频工作站遇上麻烦了吗?我想说数字音频工作站正处于其发展过程中非常重要的成熟阶段。 在某种程度上,我认为传统的数字音频工作站需要有一些刺激来重新定义自己的角色。” ——Scott Simon
RoEx Audio是一家新型音频技术公司,致力于打造人工智能驱动的音乐制作工具,其创始人David Ronan也谈到了其他开发者的挫败感。他解释说:
“虽然数字音频工作站在重建传统工作室方面做了令人钦佩的工作,但行业内存在一定程度的惯性阻碍了变革。多年来,当我尝试用传统数字音频工作站做一些有点非传统但可能具有突破性的事情时常常遇到许多障碍。有时这让我很恼火,就像试图在老头乐三轮车中安装法拉利发动机一样。”
虽然行业里许多人可能会感到沮丧无力,但也有人认为这是正确设计的完美例子。如果数字音频工作站还能运作,为什么要瞎折腾?随着交活期限的临近,制作人和混音师只想坐在桌前靠肌肉记忆熬夜工作。数字音频工作站可以是一个神圣的空间,经过高度定制后可以提供个性化音乐制作体验,并在将想法从头脑传递到耳朵时尽可能消除消除障碍和干扰。为了创新而创新肯定比根本不创新更有糟糕吧?毕竟,稳定性和可靠性对于最终用户来说都极其重要。这种说法是合理的,并且长期以来一直是主流说法,直到2020年。
新冠疫情导致数十亿人被限制在家中,随之而来的是人们对音乐创作的兴趣激增。在鼎盛时期,美国的乐器音频零售商Sweetwater每天派发1.5到2万件包裹,而Ableton和苹果等公司则为新的潜在客户延长了免费试用期。我们在2021年的一篇文章中探讨了疫情对音乐科技的影响。可以说,尽管整个音乐行业遭受了可怕的损失,但音乐科技公司却逆势而上,一些销售纪录主要来自缺乏经验的新用户群,他们发现自己有足够多的闲暇时间。 突然,一个全新的市场围绕着数字音频工作站展开,这并不是那些键盘快捷键神圣不可侵犯的市场。新的音乐制作者们希望快速获得结果并越过复杂的过程。Scott Simon说道:
“现在有两个世界——我们所知道的传统数字音频工作站世界和这个新世界,”
图3:Logic Pro
新创作者的爆炸式增长也改变了音乐科技公司的格局,许多公司在经历了一阵增长之后,随之而来的是一阵投资和一系列并购。其中包括Native Instruments吞并iZotope、Brainworx和Plugin Alliance、inMusic收购Moog、Pioneer DJ收购Serato(待批准)以及Avid于 2023年8月被STG财团收购。音乐人兼视频博主Benn Jordan对这一系列收购进行了详尽的报道
随着新用户到来,期望的功能也随之改变。十多年来,社交媒体已经成为在线领域的重要组成部分,但数字音频工作站和音乐制作在很大程度上仍然是一个离线、孤立的过程。 BandLab——一个在线数字音频工作站和音乐制作共享平台——看到了机会。该公司首席执行官Meng Ru Kuok说道:
“我最初想创办BandLab的想法不仅是在创作者方面有创新的可能性,而且在社交方面也有创新的可能性,”
“苹果的入门数字音频工作站被称之为车库乐队,但现实中人们不再是在车库搞乐队,每个人都生活在网上。人们协作的方式非常不同。”
协作音乐制作应用程序和平台Endlesss的制作人、创始人兼首席执行官Tim Exile也看到了同样的趋势。他解释道:
“音乐4万年的历史是我们共同协作的成果。在过去100年左右的时间算是一个微小的例外。音乐变成了一个可以一个人独立生产并由其他人群人消费的商业产品。”
对于Tim Exile来说,孤独天才秘密创作的想法将被更具协作性、以粉丝为主导、公开身份的艺术家所取代。“孤独天才世界的典型例子是Aphex Twin,他真正在这种完全的神秘之上建立了自己的品牌,激发了人们对他所做的事情的疯狂好奇。我不认为你现在真的能够打造Aphex Twin一样的品牌。”
Exile看到新粉丝希望与他们最喜欢的艺术家有更多联系。
“看看Fred again..如何建立他的品牌是很有趣的,这个品牌更具参与性。那里确实没有任何秘密,几乎是完全相反的。”
图4:“大环境会对所有人产生影响,但我也相信专业音乐创作流程能不断适应并将延续,同时工具库中会不断扩充。”—— BandLab首席执行官Meng Ru Kuok
BandLab用户的大幅增长(目前已超过 6000 万)可能暗示他们选择了正确的道路,但Meng Ru Kuok并不认为这是传统数字音频工作站的过渡,而是一种增强。 他说:
“如果你想到大量涌入的创作音乐的人,就会发现需要完成歌曲的人比以往任何时候都多,大环境会对所有人产生影响,但我也相信专业音乐创作流程能不断适应并将延续,同时工具库中会不断扩充。”
Exile表示同意:
“我认为数字音频工作站的未来不会受到任何方式的威胁,它们将永远位居音乐之巅。”
他解释道。 如果音乐制作的未来确实在云端,其重点在于无缝的Google Docs式协作和更易于访问的工具,那么它为另一种主要基于云的技术在这个新生态系统中蓬勃发展打开了大门:人工智能。
尽管人工智能在音乐制作中的应用已经有很多年,甚至几十年前了——我们在2021年的三部分人工智能未来系列中详细讨论了这一点。当OpenAI在2022年4月推出DALL-E 2以及后来的ChatGPT时,当人工智能,或者更准确地说是机器学习,似乎能够凭空“创造”时,人们感到惊叹不已。人们对人工智能对医疗保健、战争、经济、气候变化和文化等方方面面的影响已被广泛报道,无论好坏。
对于更广泛的音乐领域来说,随着人工智能工具和平台的不断推出,围绕版权和知识产权的合理担忧仍在争论中,许多工具和平台在未经权利人许可的情况下接受了受版权保护的内容的训练。这是一个正在迅速变化的混乱局面,欧盟和美国政府即将立法定义人工智能和版权在未来十年及更长时间内如何共存。目前,这是一个狂野的西部世界,从假Drake到GrimesAI,相互冲突的观点和充满未经许可的语音模型的Discord服务器。
图5:早期的Ableton Live和Logic Pro
对于数字音频工作站来说,情况更加微妙。 数字音频工作站中的人工智能和机器学习会是什么样子?我们会简单地要求ChatDAW替我们控制声音推子吗? 也许我们会要求它平衡混音并消除任何频率掩蔽,以便我们可以专注于创意方面。也许这将是一个八小节循环,我们要求围绕它构建一个编曲,类似于图像拓展。也许点击微小自动化节点的日子将永远消失——敢不敢想象一下?
这个未来比你想象的更近——一个名为 WavTool的网站构建了一个非常基本的音乐制作工具,其中包含一个聊天机器人,可以完成诸如在某个键中添加MIDI音符、调整效果器、调整信号路径、添加侧链压缩等任务,并仅通过文本提示就可以想出鼓模式。它很基础,有时甚至很糟糕,但概念验证令人印象深刻。数字音频工作站中的聊天机器人是你自己的个人工作室助理,他了解你工作方式的一切。对于这项技术的开发来说,感觉像是一种合乎逻辑且非常有用的方式,但在当前的数字音频工作站生态系统中这种可能性有多大还有待观察。
人工智能和机器学习还有两种方式可以与数字音频工作站的未来关联。一种是语音建模,即使用录音室品质的人声来训练人工智能模型。 该算法可将例如人的音色、语气、口音、单词之间的呼吸的每一个特征训练成模型,然后存储在云端服务器上。 然后,用户可以通过将这些特征应用到自己的录音中,将自己的录音转换为该人的声音。这项技术已经在数字音频工作站之外得到采用,GrimesAI项目就是最好的例子。其他包括DJ Fresh的Voice-Swap,该公司已授权著名歌手的声音供制作人和艺术家在他们的曲目中使用。
真正有趣的是,当你将这个概念应用于混音或制作人的风格而不是人声时。我们是否会开始看到Splice风格的商店突然出现,销售Motown模型或Daft Punk Homework时代的模型,它会自动在你的混音中应用数百种不同的调整 - 从单声道声音、添加EQ设置、压缩设置、混响、延迟、以及构成一个时代的声音特征的所有变量?
图6:Google的生成式人工智能作曲工具MusicLM
这是一个令人兴奋的想法,并且在不久的将来绝对有可能实现。想象一下,我们不是对著名的压缩器或均衡器进行建模,而是不仅对所使用的设备进行建模,还对工作室的氛围、工程技术、当时的技术限制、典型的麦克风放置、最流行的地毯和地毯的声学反射特性进行建模那个时代的特征、歌手那天可能吸了多少支烟,以及我们目前无法理解的数千个变量。
这项技术成为未来数字音频工作站工具包一部分的另一种方式是通过生成式人工智能从头开始创建内容(无论是图像、文本还是声音)的过程,通常使用提示信息作为来源。语音建模从技术上讲也是生成式人工智能,因为它本质上是使用提示来创建某些东西,只是提示来源恰好是另一种声音。更常见的生成式人工智能是指DALL-E 2风格的文本到内容生成。Google的MusicLM和Meta的AudioCraft是最终可能发展到数字音频工作站中的新兴工具的两个例子。
然而,对于大多数音乐人来说,这种一键式音乐解决方案并不是他们所寻求的。音乐人想要发挥创造力,并且想要控制创作过程。 对于抖音或播客配乐来说,这种一次性的生成音乐可能会起作用,但对于拥有自己独特身份的艺术家和制作人来说,很难看到一键式解决方案起作用。更有可能的是,生成式人工智能取代了音乐制作过程中的步骤,而不是完全取代创造力。
Never Before Heard Sounds (NBHS)的联合创始人Yotam Mann解释道,NBHS是一种机器学习驱动的数字音频工作站,包括音源分离、文本到音频的生成工具和人工智能语音建模等功能:
“音乐家追求的是他们自己的声音,”
“你永远不会对那些从过于简化的工具中所制作的音乐体会到拥有所有权。你想在这种生态系统中找到自己的创作之路,找到创造和发现自己的声音的方式。作为一个平台,我们的目标就是让这一切成为可能。”
图7:“人工智能算法与硬件密切相关,通常只能在特定类型的GPU上运行。因此,当我们考虑如何实际部署这项技术并将其交到音乐家手中时,浏览器是我们唯一的选择。” — Yotam Mann,Never Before Heard Sounds联合创始人
为了构建他们的平台,NBHS没有选择开发独立运行的桌面应用程序,而是为他们的美丽新世界选择了浏览器。在与Google一起构建Magenta Studio后,Mann了解到该浏览器可以提供更大的灵活性和支持,尤其是在融入人工智能时。他解释道:
“人工智能算法与硬件密切相关,通常只能在非常特定类型的GPU上运行,因此,当我们考虑如何实际部署这项技术并将其交到音乐家手中时,浏览器是我们唯一的选择。我所说的浏览器是指浏览器和云渲染的结合。”
NBHS(现称为Sounds.Studio)最近从私人测试版转为公开测试版。 你可以在这里尝试一下:https://sounds.studio/
人工智能插件公司RoEx的David Ronan同意浏览器的枢纽作用:
“目前,人工智能技术的一系列进步并没有与数字音频工作站无缝融合,导致桌面程序与浏览器之间存在明显的鸿沟。”
Ronan认为,虽然传统数字音频工作站不应该放弃桌面应用程序,但使用浏览器采用新技术具有显着的优势。 “基于浏览器的数字音频工作站可以实现许多在传统本地环境中难以实现的强大功能,这些可能包括世界各地艺术家之间的实时协作、与人工智能和机器学习服务的无缝集成、即时访问庞大的在线采样库以及跨设备的项目自动备份和同步。”
数字音频工作站中的在线采样库已经很常见,例如Splice的Bridge插件和Loopmaster的Loopcloud。最近,Image-Line发布了FL Cloud Sounds,它引入了从网络获取的声音包,这些声音包可以在数字音频工作站中预览使用。另外,Image-Line还在FL Studio中引入了音源分离和人工智能母带处理。另一方面,Bitwig和PreSonus开创了一种新的文件格式,允许Bitwig和Studio One项目之间的交叉兼容。
图8:“我相信我们有责任支持内容的道德、合法使用,并开发道德和合法的工具。数字音频工作站有责任齐心协力支持正确的可追溯性……”——Meng Ru Kuok,BandLab
另一项可能来自BandLab。自从BandLab收购了经典产品Cakewalk并对其进行了品牌重塑,最终于2023年宣布将推出Cakewalk Next和Cakewalk SONAR。目前尚不清楚其将包含哪些功能,但鉴于BandLab的移动和社交属性,预计新改版的软件将包含某种基于云的部分。
值得指出的是,浏览器并不是解决数字音频工作站问题的万能解决方案。它自身的问题包括延迟、多轨输入输出和第三方插件支持。但从社交和协作的角度来看,混合路线有很多好处。正如BandLab和Endlesss都提到的那样,浏览器可以集成人工智能等新兴技术,更快、更轻松地推送更新,以及简单的故障排除和错误修复。感觉上大多数数字音频工作站将在不久的将来采用某种形式的云连接。将繁重的CPU负载卸载到云端也感觉像是一个额外的好处。云计算是否可以完全取代DSP运算卡?
数字音频工作站公司一直以来依法回避了其用户使用其工具创建违法内容的问题。但如果数字音频工作站更多地转向线上,并且随着生成式人工智能的出现及其引发的道德雷区,数字音频工作站在版权侵权方面是否应该更加意识到并积极主动地发挥自己的作用?BandLab的Meng Ru Kuok解释道:
“我相信我们有责任支持内容的道德、合法使用,并创建道德和合法的工具,DAW有责任齐心协力支持正确的可追溯性——我们不能把这一切都交给流媒体平台来解决。每个人都可以为支持这个行业的下一次发展发挥作用。”
图9:Cubase和FL Studio
无论数字音频工作站能保持不受新兴技术颠覆的影响,还是在未来20年内慢慢开始转向面向未来,或是从头开始完全重新设计,2023年感觉像是一个拐点。使用场景开始进行转变,市场将会因此重构。专业音频顾问Scott Simon问道:
“数字音频工作站遇上麻烦了吗?我想说数字音频工作站正处于其发展过程中非常重要的成熟阶段。在某种程度上,我认为传统的数字音频工作站需要有一些刺激来重新定义自己的角色。”
RoEx的创始人David Ronan表示:
“未来三到五年,音乐的创作和消费方式将会发生重大转变。”
他补充说,随着人工智能和机器学习技术的进步,数字音频工作站可能很难跟上:
“当前的系统可能无法轻松适应这种创新的交互式框架。作为回应,我们可能会看到专门为此目的开发的新工具、新软件。”
“这不是零和游戏,我们每年都会看到制作音乐的人数呈两位数增长。这种增长将由强调过程的乐趣而非作品的完美所驱动。会有一条前进的道路。数字音频工作站将在这条道路上走得很远。”