UPEE观点 | 把音乐还给人类(Suno 去死)
Cover: 吴爱花 WU AI-HUA
封面 | 吴爱花 WU AI-HUA
撰文 | 浴室傩
AI音乐死了。
“二十一世纪是生物的世纪”——这句曾风靡一时的预言,在今日听来已成辛辣的反讽。世纪仅过四分之一,一种非生物的逻辑正以前所未有的速度接管我们的文化生产。一项研究显示,2020至2025年间,网络英文内容中AI生成的比例已蹿升至52%。这意味着,我们阅读的文字,过半已是硅基的造物。
在这一趋势中,音乐生产也开始呈现出明显的产能爆发特征。以 Suno 为例,在模型训练完成后,音乐的生成不再需要创作周期或人类协作,只要输入自然语言的提示词,系统就可以在数秒内生成一首完整曲目,并在同一时间尺度内持续输出大量作品,其产量仅受算力与平台调度能力限制。
在实际市场层面,生成式音乐的流入规模已经远远超出个体感知。据流媒体平台Deezer 披露,其每天收到的新增音乐中,都有五万首左右 AI 生成曲目(完全由AI生成的曲目,不包括人类使用AI辅助创作的作品)。有数千万用户使用过 Suno 平台创作音乐,用户侧每天产生的 AI 音乐数量已达到数百万级别,这些数据还在持续性攀升。换种说法,我们在流媒体平台上所接触到的 AI 音乐,只是这一生产洪流的表层残留,而在平台后台与审核系统中,被识别、拦截与清理的生成式音乐如同一座屎山,已经构成了一种持续发生的内容过载。
可是当AI模型在几秒钟内生成大量完整的音乐时,我们真的迎来了创作的奇迹吗?
很明显不是。而且音乐,这门最需要呼吸、汗水与时代震颤的艺术,正在被生成类AI抽空它的肉身。
音乐从来不只是因为它在声音上“成立”,而是因为它总是和具体的人、具体的处境绑在一起。就像我们先前所论证的音乐风格的重要性一样,真正的人类音乐人都有属于他们的真实的社会状况与独特语境,音乐从来不是在真空中发生的:它总是由特定年龄的人写出,在特定阶级条件下被生产,由特定的身体发声,并受到地域、技术条件与生存风险的约束。正是在这些限制之中,音乐语言才得以发生变化。正如人们老生常谈的摇滚乐,嘻哈乐与house等等类型的音乐起源,他们的诞生与现实世界的发展密不可分,不管是压力、焦虑、歧视、社会运动、审查环境还是边缘社群的自我组织,一种音乐的兴起总有其根源。
生成式 AI 音乐的问题正在于此:它跳过了这些限制与情感,却保留了结果;回避了风险,却继承了形式;抽空了现实世界之间的关系,却试图继续占据“艺术”的位置。
Bill Callahan在接受卫报采访时提到:“人们正在用 AI 贬低一切,这确实很让人伤心。但我们的处境本身就是意义所在:我们是生活在地球上的人类。做一个并不是什么都知道的人,去尝试、去实验、去探索,这本身就是乐趣所在。AI 永远不会创造出任何值得思考的东西。你当然可以做出一百张所谓的‘弗兰克·辛纳屈’唱片,但……那不是人类。创作意味着作为一个人不断成长,而这恰恰不是 AI 所关心的事情。”
‘It’s just sad to me, really, the way people are devaluing everything with AI. I mean, we’re here. We’re humans on Earth. That’s the fun of it, being a human that doesn’t know everything and trying things out, experimenting and exploring. Being able to do everything without any effort is not fun. When some artist that you like makes a new record, it’s exciting – maybe they did something even better than the last time, or maybe they really fucked up and that’ll be really interesting and give a new dimension to that person. AI is never going to make anything worth thinking about. You could make 100 quote-unquote “Frank Sinatra” records but [sighs] … it’s just not human. Creating things involves growing as a human, and that’s not what AI is about.’
—— Bill Callahan interview with The Guardian (Jan 8, 2026)
Reddit和各种平台上,人们用 AI 生成的音乐来嘲笑音乐人水平低下,仿佛几秒钟内产出的旋律已经足以证明人类创作的无能。但这本身建立在一个被刻意忽略的事实之上:AI 并不是凭空出现的天才,它本身正是由无数音乐大师的积累与现代科技所喂养出来的结果。那些具体的人、具体的身体、具体的失败经验、具体的历史冲突、社会条件与生存风险,当被偷窃到AI工具的数据库时,都只变成了随时可以调用的一条条波形。数据库中音乐不再作为一种神圣的艺术形式存在,而是作为一种数据被储存。这种剥夺更是深刻且完全隐蔽的,原本清晰的创作来源被系统性地抹平,劳动的边界被模糊,责任也随之消失在庞大的训练集之中。
因为抄一个人是抄袭,抄一万个人就成了算法;当责任被均匀分摊到足够稀薄的程度,罪名本身也就不再成立。
或许有人会认为,AI 音乐同样构成了这个时代的声音。但在这些被迅速生产、无限复制的作品之中,真正来自人类的成分究竟还剩下多少?做视觉还需要用comfyui,midjourney等各种软件之间反复周旋,而用 Suno 制作音乐,简单到几乎不再需要“制作”这个动作,不需要懂和声、节奏或录音,也不必经历任何试错与修改。只要输入流派提示词与歌词(甚至这两个也可以用AI生成)后不断刷新,就能源源不断地产出新的作品。真正的创作需要灵感与时间,AI音乐更像是在一台自动售货机前反复投币——按钮按得越快,音乐出现得就越多,而人只要负责筛选。在这样的生产力下,人类如何能保持自身的参与度?
不过,仅仅是以上这些基于生成原理的道德指控也不至于让AI音乐变得十恶不赦。更重要的是他们真的在市场上流通而产生的恶果:
主要的问题不止于道德,而在于市场后果。AI音乐直接侵蚀真人音乐人的生存空间和权益。
本该流向真正音乐人与音乐厂牌的资源和收益,正被科技公司和算法掌控者大肆攫取。这也许看起来只是一种很宏观而且很难预测的影响,但这一影响落在每一个艺术家头上时都是巨大的。一项来自Suno尚未如此成熟的2024年的一项全球研究警告说:到2028年人工智能可能夺走音乐从业者近四分之一的收入,音乐素材库收入中AI创作甚至可占据六成。不知道如今再去做这项预估将是怎样的数字。
恰逢此时,中国乃至全球传统唱片行业越来越糟糕,主流乐坛创造力几近枯竭,鲜少出现优秀的音乐人及作品。华语音乐活力基本上由较为独立、地下的音乐人支撑起来。但是做音乐没有想象中来钱,他们中的很多人白天被切成零碎的时段用来维持生存;夜晚则在宿主中埋头苦干。无法提前知道下个月是否还有活可接,也无法对生活做出长期承诺。同样,小型厂牌的盈利情况也十分堪忧,很多几乎没有盈利,更不用说音乐人足够的支持。
尽管其中许多人天赋异禀,但每一次创作都伴随着失败、无人倾听乃至陷入穷困潦倒的真实风险。正是这些现实条件,让音乐问题不只是好不好听的问题,就像我们为什么不应该将一体机音乐人或者寥寥数人完全独立制作的音乐与行业学院派强大班底齐心协力制作的工业化音乐在完成度上作比较。音乐人与音乐相关的收入来源以极不规律的项目的形式出现,而学习、试错、推翻重来、情绪与身体的消耗都不被计入成本。而AI生成音乐最容易接管的就是尚未形成足够IP力量的底层音乐人支撑的工作,但是被取代并不会以公告的形式发生,一切事情只是默默地发生:工作报酬越来越低直到入不敷出,角色从创作主体退化为修补AI生成的东西。直到有一天,项目不再出现,消息不再被回复,熟悉的合作关系自行断裂,最后丢了经济来源,被迫从事其他工作。
当然,流媒体经济模式、传统唱片业衰落等都是目前让音乐人如此困顿更早存在且影响更剧烈的原因,这些是产业肌体上长期存在的慢性病。但Suno的崛起,并非只是给这个带病的肌体新增一道伤口或者提供一种技术平权的工具,它的本质是提供一套完全绕过人类创作核心环节的、可规模化的替代性生产方法。这不再是在原有系统内加剧竞争,而是试图用一套无需“音乐人”这一生物的新系统,来定义何为“音乐产品”。对资本而言,它首次提供了将音乐创作这一创造性劳动,彻底转化为可预测无休止的标准化数据生产的工作流。对产业生态而言,它不再仅仅挤压底层音乐人的空间,而是动摇了从创作、录制到雇佣乐手、制作人等一整条专业链条存在的经济逻辑。它威胁的是职业音乐人作为一种社会分工的根基。
AI是多好的一个载体,在真正的音乐人——人类音乐人们在生活中困顿、被各种精神疾患与真实困境折磨得不成人形的时候,杀出来一个可以无穷无尽生产声音,而且从来不会疲惫、不会政治不正确、不会死亡、不需要身体、不需要承担任何社会后果的AI。在这种对比之下,人类的脆弱变成了“缺陷”,而 AI 的非人性却被包装成一种优势。问题从来不在于它能否生成音乐,而在于它被安置在一个怎样的历史时刻——这个恰好容不下人的时刻。那些本该到那些勤恳或天赋异禀的音乐人手上的钱,会转换成每个月的订阅佣金转移到科技巨头与用AI敛财的无耻厂牌手上,而这些事情就是此时此刻正在发生的。
在为生成式 AI 辩护的叙事中,“技术平权”是一个被频繁调用的关键词。支持者常常强调,AI 并不会替代人类,而是作为工具帮助人们打开更多可能性,人类在情感深度与风格独特性上的优势依然不可取代。在这一框架下,AI 被描绘成一种降低门槛的手段,使“任何人都能创作音乐”,从而打破专业壁垒、资源垄断与精英话语,看似指向一种更开放、更民主的创作未来。然而这类论述几乎从不触及一个更现实的问题:人类音乐人在现行社会结构中处于怎样的位置,他们是如何创作歌曲,他们的劳动条件、收入模式与议价能力是否因此发生改变。表面上,这套说法带着一种“天下大同”与“按需分配”的理想主义色彩,但它刻意混淆了两个本质不同的概念——工具的可获得性,并不等同于生产关系的平等。即便所有人都可以使用 AI 生成音乐,创作成果的所有权、收益分配与决策权还是集中在唱片公司与AI平台手中,不平等并未被消除。
更现实的风险在于,如果生成式 AI 在缺乏明确法律与行业规范的前提下全面进入音乐生产流程,唱片工业极有可能演化为一种新的流水线模式:音乐人被雇佣来无穷无尽地调用 AI 生成内容,直到“撞”出一首足以为公司牟利的爆款,而不是被支持、被培养去创造真正具有长期价值的作品。在这种情形下,AI 反而进一步固化了既有的生产关系。
当音乐被彻底纳入高频、低成本、可替换的内容生产体系时,人们最终将越来越难听到由人类完整经验与判断主导的作品——就像今天在公共空间中,已经被大量令人精神疲劳的 AI 生成图像所淹没一样。
况且音乐真的需要技术平权吗?我不认为这样。有学习过乐理的话大概可以知道,如今很多跟随互联网兴起的风格并不需要什么乐理支撑;写一首结构完整、和声成立的简单民谣,其乐理复杂度不超过小学数学;大多数流行音乐与摇滚音乐所使用的和声、节奏与曲式,其难度也不过相当于初中数学的水平,因为它们从来就不是依靠高深的理论成立的。音乐并不是一场奥数竞赛,它之所以成为音乐,恰恰是因为创作者必须在有限条件中作出选择。技术门槛的存在,从来不是音乐的主要敌人;相反,在许多情况下,它构成了音乐语言得以分化与深化的现实背景,甚至一些技术缺陷很多时候能为独立音乐增色(所以有的地下音乐一听就是地下音乐)。如果真的热爱音乐,想要成为音乐的创作者,学习与制作音乐的壁垒与成本从来没有像现在这个时代一样小:在中国,1000元可以解决录音设备、宿主是“免费”的、网上有随时可查的乐理资料与制作教程,使得音乐学习与制作可以摆脱很多阶级与资源的因素。如果为了这种程度的平权就要用技术把音乐创作简化为文字游戏,将人类千百年来建立起的听觉语言压缩成算法的概率输出,有点像拆除整座建筑的承重结构,只为了每个人都能在废墟上捡拾碎片。
那么在这个音乐人在焦虑与生存中挣扎的如今,那些手握无数版权与资本的大唱片公司们在做什么呢?
年初,华纳音乐推出了一项虚拟音乐人企划——由AI艺术家吴志气主导的项目“吴爱花”。她的同名单曲MV引发了广泛关注,也成为这篇文章写作的直接契机。整个项目以AI深度参与为核心,无论是音乐生成还是视觉呈现,都高度依赖生成式AI完成。
吴爱花,这个名字几乎完美:既有一种守拙的美学,又暗含一种朴素与可爱。它以1980年代国产片女主般的面孔登场,朴素、隐忍、带着适度的韧性。它的形象毫无悬念,气质稳定,叙事完整——像是从一个已被证明有效的文化模板中直接调用的。致敬经典,又不失反叛姿态;有历史感,却不制造历史问题;有东方特色,却满口英语。如此“正确”,以至于其中不再需要任何真实的人存在。
很多人已经从音乐性上批判了这个作品,这里不再赘述,但我更倾向于这个项目因为它的生成路径,与几乎写在脸上的大公司招商与资本试水意图,是一坨没有存在合法性的、彻头彻尾的屎。一切设计都指向同一个事实:它并不是为了音乐而存在,而是为了效率、规模、话题而被生产出来的。
我感到有一些可悲,MV那种邵氏功夫片式的lo-fi质感,本是一种受限下的审美选择,是低成本、有限技术与创作者意志博弈后挣扎的痕迹。若有人类复现了这一风格创意我会感到惊喜,可是它是AI高度介入所有制作流程的虚拟歌手。所有影像都是由真正的功夫片喂养生成出来的。正好这种lofi质感的后期处理可以弥补ai生成画面在技术层面细节方面的不足,这是否是一种一举两得呢?当 lofi 不再来自设备的限制或者复古的考量,而是为了遮掩AI生成的不周到的地方,那么这种美学本身,是否也已经完成了它的最后一次被利用呢?
其实类似的视觉系统The Chemical Brothers和揽佬都早就用过了,而且比那个高级很多。
此外,因为它是一个虚构的形象,它为什么被设定成这样其实是很容易被想到的:一个女性形象,但是带着讨巧的反差。大多数有性别特征的机器人被制作成女性特征的样子,siri与豆包也是女性形象的,因为在社会中女性形象常常被视为非威胁性的、可亲近的存在,适合承载过渡期的不确定性,当一个新系统尚未获得伦理共识时,让它以女性面孔出现,往往能有效降低人们的警惕。为了让它看起来新颖,专门加上了反差与武术女侠的设定,把MV里面的男歹徒们杀了个人仰马翻,看似是很有“她力量”,实则不知所云。MV最后出来的“传男也传女”让企划本身的空虚与极其“充实”的视觉形成让人发笑的反差。它足够强,但不会真正指向结构的问题,不会谈具体的议题。可以说她是一个极致到狡诈的设计,成功之处在于将复古美学、“女性叙事”、AI 技术与主流工业逻辑完美对齐,使一套高度去人化的生产方式看起来亲切、无害,甚至值得被情感投入,虽然造出它的是男性制作人,是生成式AI,是大型唱片公司的招商,但是没有人在乎。
音乐本身,它听起来几乎可以被明确指认为 Nicki Minaj,Cardi B与Lana Del Rey的超低配版混合体:已经被主流工业反复验证过的攻击性与姿态加上生搬硬套的中国风配器。但与这些真实存在的音乐人不同,吴爱花不会出现在那个美国转折点的节目上,它不需要应对媒体审视、公共争议或行业博弈,更不会影响专辑的如期推出。平台与大型公司对生成式 AI 的宽容,也正是基于这一点。AI 音乐不需要签约(甚至它背后的制作人也是想换就换)、不需要维护关系、不需要处理情绪与冲突,更不需要为其生存负责,这对公司而言是成本结构的巨大优化。
平心而论,这个企划如果是真人的会还可以,但是为什么选择使用了AI进行呈现?为什么华纳音乐要为这样一个注定充满争议的项目背书(如果不是华纳音乐推出这个音乐人这个项目更可能仅被当做一个生产力实验)?也许这是一个为大公司招商而存在的项目。他们看到了未来的趋势,认为AI音乐的潜力巨大,做出了顺应潮流的典型的判断。这正是最让人感到恶心的地方:这种足以摧毁整个行业生态的科技被如此清醒、如此主动地用于逐利。在明知 AI 所依赖的是对人类创作劳动的系统性抽取、在明知它将进一步挤压真实创作者生存空间的前提下,仍然选择拥抱它,更恶心的是,这一切还可以被熟练地包装成“创新”“探索未来”“技术进步”的故事,对外展示为一种值得鼓掌的前瞻姿态,甚至可以反过来占据道德高地。当经济利益与创新叙事被这样紧密地捆绑在一起时,被牺牲的就不只是某些音乐人,而是人们对创作、对劳动、对艺术本身最基本的尊重。
技术本身无罪,我们无法也不应阻挡技术前进的脚步。只是在洪流中我们想坚守对“人”的关切:今日的科技进步也许不是线性的,而是人类选择让技术服务于人类,并非重新定义尊严以适应技术,况且AI音乐的最终问题不是技术性的,而是哲学和社会的:当艺术创作这个人类最后的“不可自动化堡垒”被算法化时,我们如何重新定义人类的价值?人工智能是否把手伸得过于长了?
但可以肯定的是:AI音乐绝对不适合这个年代。它们自身不创造意义,其产量越高,真正的音乐人越困顿。音乐历来是人类表达情感、讲述故事、连接彼此的重要媒介。如果继续纵容AI介入音乐生产,我们一定会迎来一个音乐人文内涵日渐空心化的时代。而这,需要你我的共同选择。
如果想抵制AI音乐,作为听众,请不要给予AI音乐过多的关注与实际的金钱支持,也不要放过围剿用了AI却假装自己没用的草包音乐人。作为音乐人,请不要过多地焦虑,可以更加赤裸地展示你们的谱系、困境、即兴的灵光与笨拙的尝试,将创作牢牢锚定于所在的时空,必须确保最终的判断与灵魂百分百属于你自己。平台也请对AI生成内容进行清晰标注,越详细,越好。
作为音乐人与听众的我们无法让AI音乐死去,但可以让它变得无关紧要——通过让每一颗渴望真实联结的心灵都清楚地知道,该去何处寻找回声。那个未来,不在技术演进的预设里,而在我们每一次有意识的聆听、谈论与支持之中。这种选择并非空想。在现实层面,已经有平台开始以制度性的方式作出回应。Bandcamp 近日成为首个全面禁止生成式 AI 音乐内容的主流音乐平台,明确拒绝完全或主要由生成式 AI 生成的音乐与音频进入其发行体系,并同时禁止将平台内容用于训练 AI 模型。
最后,其实真正值得追的虚拟偶像早在二十几年前就出现过了,这才是真正的科技与艺术的结晶。









