MusicLM來了!Google出手解決文字生成音樂問題,卻因copy風險不敢公開發布

Google用 280000 小時的音樂資料集訓練出了 MusicLM,卻不願冒著法律風險發佈它。

Google繼續向音樂領域發起挑戰!近日,Google發佈的 MusicLM 模型簡直是生成音樂界的小能手,會的樂曲五花八門,你能想到的,它都會滿足。

MusicLM 不是第一個生成歌曲的 AI 系統。其他更早的嘗試包括 Riffusion,這是一種通過視覺化來創作音樂的 AI,以及 Dance Diffusion,Google自己也發佈過 AudioML,OpenAI 則推出過 Jukebox。

雖然生成音樂的 AI 系統早已被開發出來,但由於技術限制和訓練資料有限,還沒有人能夠創作出曲子特別複雜或保真度特別高的歌曲。不過,MusicLM 可能是第一個做到的。

為什麼這麼說,我們先聽聽效果如何?

曲風隨便選,你要做的就是動動手指輸入文字就可以。比如讓 MusicLM 來段街機遊戲配樂,我們就可以輸入文字「街機遊戲的主配樂,音樂給人的感受節奏快且樂觀,帶有朗朗上口的電吉他即興重複段,但又伴隨著意想不到的聲音,如鐃鈸撞擊聲或鼓聲」:

還想讓 MusicLM 來段電子舞曲,也沒問題,輸入字幕「雷鬼和電子舞曲的融合,帶有空曠的、超凡脫俗的聲音,引發迷失在太空中的體驗,音樂的設計旨在喚起一種驚奇和敬畏的感覺,同時又適合跳舞」:

工作累了,想聽聽放鬆的音樂,MusicLM 也能安排:

你可能認為上述生成的音樂時長太短了,不用擔心,MusicLM 生成長音樂的質量也很出色。來段輕鬆的爵士樂,時長足足 5 分鐘:

MusicLM 還有故事模式,你可以要求 MusicLM 在不同的時間段生成不同的音樂風格。例如爵士樂(0:00-0:15)、流行樂(0:15-0:30)、搖滾樂(0:30-0:45)、死亡金屬樂(0:45-1:00)、說唱(1: 00-1:15)、絃樂四重奏與小提琴(1:15-1:30)、史詩電影配樂與鼓(1:30-1:45)、蘇格蘭民歌與傳統樂器(1:45-2:00):

MusicLM 也可以通過圖片和標題的組合來指導,生成相應風格的音樂。例如拿破崙翻越阿爾卑斯山配樂:

MusicLM 根據圖片和文字描述生成的音樂如下:

除此以外,MusicLM 還能生成由特定類型的樂器「演奏」的特定流派的音訊。甚至可以設置「AI 音樂家」的經驗水平,系統可以根據地點、時代或要求創作音樂(例如體育鍛煉時的勵志音樂)。

有人對這一研究給予極高的評價:這比大火的 ChatGPT 還重要,Google幾乎解決了音樂生成問題。

MusicLM 肯定不是完美無缺的 —— 事實上,遠非如此。一些樣本有質量問題,不可避免地對訓練過程產生副作用。雖然 MusicLM 在技術上可以生成人聲,包括合唱的和聲,但它們還有很多地方需要改進。大多數「歌詞」可能是蹩腳的英語或純粹的胡言亂語,然後由合成的聲音演唱,聽起來像是幾個藝術家的「混合物」。

  • 論文地址:https://arxiv.org/pdf/2301.11325.pdf
  • 論文主頁:https://google-research.github.io/seanet/musiclm/examples/

方法層面,Google採用三個模型來提取音訊表示,這些模型將用於條件自迴歸音樂生成,如圖 1 所示。SoundStream 模型用來處理 24 kHz 單聲音訊,從而得到 50 Hz 的嵌入;具有 600M 參數的 w2v-BERT 模型用於建模中間層;MuLan 模型用於提取目標音訊序列的表示。

然後將上述得到的離散音訊表示與 AudioLM 相結合,從而實現基於文字的音樂生成。為了達到這一效果,Google提出了一個分層的序列 – 序列建模任務,其中每個階段都由單獨的解碼器 Transformer 自迴歸建模。所提出的方法如圖 2 所示。

Google在 FMA(Free Music Archive)資料集上訓練 SoundStream 和 w2v-BERT 模型,而語義和聲學建模階段的 tokenizer 以及自迴歸模型是在 500 萬音訊剪輯的資料集上訓練的,在 24kHz 下總計 280000 小時的音樂

實驗部分,Google將 MusicLM 與文字生成音樂的基線方法 Mubert 、 Riffusion 進行比較。結果顯示在 FAD_VGG 指標上,MusicLM 所捕獲的音訊質量比 Mubert 和 Riffusion 得分更高。在 FAD_Trill 上,MusicLM 的得分與 Mubert 相似 (0.44 vs。

0.45),優於 Riffusion (0.76)。

圖 3 是對提示長度分析的結果

圖 3 是對提示長度分析的結果:

飽受爭議的生成式 AI

飽受爭議的生成式 AI

與此同時,Google的研究人員也注意到了像 MusicLM 這樣的系統所帶來的許多道德挑戰,包括將訓練資料中受版權保護的材料納入生成的歌曲中的傾向。在一次實驗中,他們發現該系統生成的音樂中約有 1% 是直接複製自其訓練的歌曲,這個問題足以讓研究人員不願意以目前的狀態發佈 MusicLM

「我們承認與該用例相關的盜用創意內容潛在風險,」作者們在論文中寫道。「我們強調的是,在解決這些與音樂生成相關的風險方面,未來需要更多的工作。」

假設有一天 MusicLM 或類似的系統可用,似乎仍將不可避免地會出現重大法律問題,即使這些系統被定位為輔助藝術家而不是取代他們的工具。這類的爭議此前已經發生過:2020 年,Jay-Z 的唱片公司對 YouTube 頻道 Vocal Synthesis 提出版權警告,理由是它使用 AI 創作了 Jay-Z 翻唱 Billy Joel 的《We Didn’t Start the Fire》等歌曲。儘管在刪除視訊後,YouTube 發現刪除請求「不完整」且恢復了它們,但 Deepfake 式的音樂仍然處於模糊的法律基礎之上。

Eric Sunray 撰寫的一份白皮書認為,像 MusicLM 這樣的 AI 音樂生成器通過「從訓練攝取的作品中創建連貫音訊」侵犯了音樂版權,從而侵犯了美國版權法的複製權。隨著 OpenAI 音樂生成神經網路 Jukebox 的發佈,批評者也開始質疑在受版權保護的音樂材料上訓練 AI 模型是否構成合理使用。圍繞圖像、程式碼和文字生成 AI 系統中使用的訓練資料也引起了類似的擔憂,這些資料通常是在創作者不知情的情況下從網路上收集的。

從使用者的角度來看,Andy Baio 推測由 AI 系統生成的音樂將被視為衍生作品,在這種情況下,只有原創元素會受到版權保護。當然,暫不清楚在這種音樂中什麼可以被視為「原創」,將這種音樂用於商業用途就像是進入未知水域。如果將生成的音樂用於受合理使用保護的目的,比如模仿和評論,那就更簡單了,但預計法院將不得不根據具體情況做出判斷。

近期法院審理的幾起訴訟可能會對生成音樂的 AI 產生影響,比如微軟、GitHub 和 OpenAI 目前在一場集體訴訟中被起訴,指控其 Copilot 違反版權法。還有一項涉及藝術家的權利,這些藝術家的作品在他們不知情或未同意的情況下被用於訓練 AI 系統。流行的 AI 藝術工具幕後的兩家公司 Midjourney 和 Stability AI 正被指控通過在網路抓取的圖像上訓練他們的工具,侵犯了數百萬藝術家的權利。就在上週,庫存圖片供應商 Getty Images 將 Stability AI 告上法庭,據報道,該公司未經許可使用其網站上的數百萬張圖片來訓練 Stable Diffusion。

問題主要在於,生成式 AI 偏好從用於訓練它的資料中複製圖像、文字等,包括受版權保護的內容。在最近的一個例子中,CNET 用來編寫文章的 AI 工具被發現抄襲了人類撰寫的文章,這些文章可能在其訓練資料集中被清除了。與此同時,2022 年 12 月發表的一項學術研究發現,像 DALL-E-2 和 Stable Diffusion 這樣的圖像生成 AI 模型,能夠且確實從它們的訓練資料中複製了圖像的各個方面。

因此,一些圖片託管平臺已經禁止了 AI 生成的內容,因為擔心會遭到法律訴訟。幾位法律專家警告說,如果公司無意中將這些工具生成的受版權保護的內容整合到他們銷售的任何產品中,那麼生成式 AI 工具可能會使公司面臨風險。

伴隨著關注與爭議,或許在不遠的未來,這些問題都將有清晰的答案。

參考連結:

https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

https://techcrunch.com/2023/01/27/the-current-legal-cases-against-generative-ai-are-just-the-beginning/

相關文章

18年後,無人倖免?

18年後,無人倖免?

1 AI,真的覺醒了? 人工智慧,會甦醒嗎? 這是一個古老而又新奇的話題。 「深度學習」天生的不可預測,加深了這種憂慮。 「神經網路」的生物...

​我們想象的 AI,也許已經過時了

​我們想象的 AI,也許已經過時了

你的下一個同事,也許不是人。 作者 | 拉風的極客 今年,AI 對繪畫出手了。 有人歡呼:給出關鍵詞就能畫畫的 AI 模型,讓創造的成本趨近...