作者 | 凌敏、核子可樂
Meta 放大招,語音生成 AI 領(lǐng)域又有新研究成果了!
近日,Meta AI 宣布在生成式 AI 語音模型領(lǐng)域取得了突破:開發(fā)出了首個(gè)可泛化至多種語音生成任務(wù)的模型 Voicebox,無需專門訓(xùn)練即可達(dá)成頂尖性能表現(xiàn)。Meta AI 研究人員分享了多段音頻樣本和一篇研究論文,其中詳細(xì)介紹了他們采用的方法和取得的成果。
【資料圖】
與圖像及文本類生成系統(tǒng)一樣,Voicebox 能夠創(chuàng)建多種樣式的輸出,包括從零開始創(chuàng)建輸出、修改給定樣本等。但與以往不同的是,Voicebox 并非簡單創(chuàng)建圖片或一段文字,而是 直接生成高質(zhì)量的音頻片段 。該模型能夠?yàn)槔ㄓ⒄Z、法語、西班牙語、德語、波蘭語和葡萄牙語在內(nèi)的六種語言合成語音,同時(shí)執(zhí)行噪聲去除、內(nèi)容編輯、風(fēng)格轉(zhuǎn)換和多樣化樣本生成等任務(wù)。
在 Voicebox 出現(xiàn)之前,生成式 AI 語音模型需要配合精心準(zhǔn)備的訓(xùn)練數(shù)據(jù),就各項(xiàng)任務(wù)接受特定訓(xùn)練。Voicebox 使用一種新的方法, 可直接從原始音頻和隨附的轉(zhuǎn)錄結(jié)果中學(xué)習(xí) 。與只能根據(jù)給定音頻片段續(xù)寫結(jié)尾的自回歸模型不同,Voicebox 能夠修改給定樣本中的任意部分。
據(jù)了解,Voicebox 能夠出色執(zhí)行各種任務(wù),具體包括:
結(jié)合上下文的文本到語音合成:使用長度僅為兩秒的輸入音頻樣本,Voicebox 即可匹配樣本的音頻風(fēng)格并據(jù)此進(jìn)行文本到語音生成。后續(xù)項(xiàng)目有望為無法說話的人士提供語音支持,或者為游戲 NPC 及虛擬助手快速生成對(duì)話語音。 跨語言風(fēng)格轉(zhuǎn)換:給定一段語音樣本,外加一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox 即可生成對(duì)應(yīng)的朗讀音頻。這種能力訟人興奮,未來可以幫助使用不同母語的人們通過自然且真實(shí)的方式開展交流。 語音降噪與編輯:Voicebox 的上下文學(xué)習(xí)為其賦予了強(qiáng)大的語音生成能力,可無縫編輯音頻中的片段。它能重新合成被暫時(shí)噪聲干擾的語音部分,或者替換掉說錯(cuò)的詞,而無需重新錄制整段語音。用戶可以找到語音中被噪聲(如狗叫聲)干擾的原始片段,剪切出來并指示模型重新生成。有朝一日,這種能力還可用于清洗和編輯音頻,且使用過程與目前流行的圖像編輯工具一樣輕松便捷。 多樣化語音采樣:利用多樣化的真實(shí)數(shù)據(jù)完成學(xué)習(xí)后,Voicebox 將可生成與人們的現(xiàn)實(shí)對(duì)話高度吻合的以上六種語言對(duì)話音頻。未來,此功能可用于生成合成數(shù)據(jù),協(xié)助提升語音助手模型的訓(xùn)練效果。研究結(jié)果表明,基于 Voicebox 生成的合成語音訓(xùn)練出的語音識(shí)別模型,在性能上幾乎與使用真實(shí)語音的模型相當(dāng),錯(cuò)誤率降低了 1%;與以往同類文本到語音模型相比,合成語音數(shù)據(jù)訓(xùn)練結(jié)果的錯(cuò)誤率更是大幅降低 45%至 70%。Voicebox 的誕生,標(biāo)志著生成式 AI 研究又向前邁出了重要一步。在文本、圖像和視頻生成等方面,具備任務(wù)泛化能力的可擴(kuò)展生成式 AI 模型已經(jīng)激發(fā)了人們對(duì)于跨任務(wù)潛在應(yīng)用的濃厚興趣。Meta AI 希望音頻領(lǐng)域未來也能掀起同樣的潮流,同時(shí)繼續(xù)保持深耕和探索,關(guān)注其他研究人員如何在 Voicebox 的基礎(chǔ)之上尋求新的突破。
現(xiàn)有語音合成工具的主要局限之一,在于只能就專門的任務(wù)配合準(zhǔn)備好的數(shù)據(jù)接受訓(xùn)練。這些單調(diào)而干凈的輸入數(shù)據(jù)相對(duì)有限且難以收集,因此也導(dǎo)致輸出結(jié)果變得同樣單調(diào)。
Meta AI 的研究人員基于“流匹配”(Flow Matching)技術(shù)構(gòu)建了 Voicebox,這項(xiàng)技術(shù)是 Meta 在非自回歸生成模型領(lǐng)域的最新進(jìn)展,能夠掌握文本到語音之間高度不確定的映射。 非確定性映射非常重要,它使得 Voicebox 能夠從不同的語音數(shù)據(jù)中學(xué)習(xí),且無需對(duì)各種變化要素做詳盡標(biāo)注。也就是說,Voicebox 能夠在多樣性更強(qiáng)、規(guī)模更大的數(shù)據(jù)之上進(jìn)行訓(xùn)練。
與當(dāng)前最先進(jìn)的英語模型 VALL-E 相比,Voicebox 在可懂度(即單詞錯(cuò)誤率,前者為 %,Voicebox 為 %)和音頻相似度( 對(duì) )方面均更加強(qiáng)大,且速度要快 20 倍。在跨語言風(fēng)格遷移方面,Voicebox 也優(yōu)于領(lǐng)先模型 YourTTS,能夠?qū)⑵骄鶈卧~錯(cuò)誤率從 %降低至 %,并將音頻相似度從 提高至 。
Voicebox取得新的先進(jìn)結(jié)果,在單詞錯(cuò)誤率方面優(yōu)于Vall-E和YourTTS。
Voicebox還分別在英語和多語言基準(zhǔn)測試中的音頻風(fēng)格相似性方面,達(dá)成了新的頂尖成績。
研究人員使用超過 5 萬小時(shí)的語音錄音,和來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公共有聲讀物轉(zhuǎn)錄對(duì) Voicebox 進(jìn)行訓(xùn)練。經(jīng)過訓(xùn)練后,Voicebox 能夠在給定前后語音和片段轉(zhuǎn)錄數(shù)據(jù)時(shí)預(yù)測出語音片段。它還能學(xué)會(huì)根據(jù)上下文補(bǔ)全語音,從而被應(yīng)用于其他語音生成任務(wù),包括在無需重建整個(gè)輸入的前提下生成音頻的中間部分。
Voicebox 擁有眾多令人興奮的用例,但 Meta 也承認(rèn)其存在潛在的濫用風(fēng)險(xiǎn),所以 Meta AI 的研究人員決定暫不公開 Voicebox 模型或代碼。Meta 在社交平臺(tái)上公開表示:“與其他強(qiáng)大的人工智能創(chuàng)新技術(shù)一樣,我們認(rèn)為這項(xiàng)技術(shù)也可能會(huì)被濫用,造成意外傷害?!?
事實(shí)上,語音生成引發(fā)的濫用風(fēng)險(xiǎn)并不少見。以華語樂壇最近爆火的“AI 孫燕姿”為例,AI 讓孫燕姿翻紅的同時(shí),也讓背后的風(fēng)險(xiǎn)顯露出來。一方面,AI 合成聲音可能涉及侵權(quán)問題,另一方面,也可能帶來一系列倫理和法律的風(fēng)險(xiǎn)。
我國《民法典》第 1023 條第二款規(guī)定,對(duì)自然人聲音的保護(hù),參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定。第 1019 條第一款規(guī)定,任何組織或者個(gè)人不得以丑化、污損,或者利用信息技術(shù)手段偽造等方式侵害他人的肖像權(quán)。未經(jīng)肖像權(quán)人同意,不得制作、使用、公開肖像權(quán)人的肖像。由此可見,比照對(duì)肖像的人格權(quán)保護(hù),未經(jīng)權(quán)利人的同意,也不得制作、使用、公開利用權(quán)利人的聲音。
此外,語音生成也會(huì)成為電信詐騙的利器。前段時(shí)間,美國和加拿大各地使用 AI 合成語音進(jìn)行電信詐騙的案例多發(fā),不少老年上當(dāng)受騙。加拿大警方稱,最近加拿大各地都有不少類似案件發(fā)生,涉案金額已達(dá)數(shù)百萬加元。有受害者表示,犯罪分子使用的聲音和她兒子的聲音簡直一模一樣。在美國,類似的詐騙案件近期也呈上升趨勢。
作為首個(gè)能夠成功執(zhí)行任務(wù)的多功能、高效泛化模型,Meta AI 堅(jiān)信 Voicebox 即將開創(chuàng)生成式 AI 語音模型的新時(shí)代,但與其他強(qiáng)大的 AI 創(chuàng)新成果一樣,這項(xiàng)技術(shù)同樣可能因誤用引發(fā)意外危害。對(duì)于語音生成帶來的濫用風(fēng)險(xiǎn),Meta 也想好了對(duì)策—— 構(gòu)建一款高效分類器,用以區(qū)分由 Voicebox 生成的音頻和真實(shí)語音 ,借此緩解未來可能出現(xiàn)的種種風(fēng)險(xiǎn)。
在論文(/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)中,Meta AI 研究人員還具體講解了如何構(gòu)建一款高效分類器,用以區(qū)分真實(shí)語音和 Voicebox 生成的音頻。
參考鏈接:
/blog/voicebox-generative-ai-model-speech/
/ent/20230620/85f213fc8b914b7a9ea17addc3cec01e/
本文轉(zhuǎn)載來源:
/news/YF1LRfH3Ttt7eZ0mBPjQ
標(biāo)簽:
- “AI 孫燕姿”爆火后,Meta 發(fā)布通用語音生成 AI:支持多種語音功能
- 微頭條丨劇場版《Love Live! 虹咲學(xué)園校園偶像同好會(huì)》新作三部曲 制作決定
- 天天觀速訊丨寫在夜不能寐之后——想要傳達(dá)給你的愛戀感想(上)
- 采訪2022七月番《莉可麗絲》特輯4
- 今日熱搜:如果你喜歡的蘿莉御姐漫畫家是摳腳大漢時(shí)?你會(huì)怎么做?
- 速看:日本通報(bào)全球首例因感染Oz病毒死亡病例
- 第一時(shí)間響應(yīng)!——省水文中心下午緊急召開全省水文測報(bào)Ⅲ級(jí)響應(yīng)視頻調(diào)度會(huì)
- 全球今日?qǐng)?bào)丨買二手房申請(qǐng)房貸需注意什么
- 北京第三座大悅城設(shè)立警務(wù)室!來看民警端午都忙些啥|全球熱訊
- 俄外交部:已大幅增加歐洲機(jī)構(gòu)和歐盟成員國禁止入境人員名單
- 158萬元“秒變”22元!緊急提醒:近期高發(fā)!
- 當(dāng)前熱議!“冤大頭”!無人機(jī)臺(tái)灣買,情報(bào)美軍優(yōu)先用?
- 天天微動(dòng)態(tài)丨biu站_逼站指啥
- 天天關(guān)注:注意一個(gè)細(xì)節(jié),張某和大叔見面談和解時(shí),哭的梨花帶雨的說
- 反對(duì)網(wǎng)絡(luò)地域黑,倡導(dǎo)網(wǎng)絡(luò)文明_焦點(diǎn)快看
- 甜美與完美的結(jié)合!一千只貓薄禾cos奧古斯特女仆裝驚艷亮相!
- 2023年秋月律子生日?qǐng)D轉(zhuǎn)發(fā)
- 1885套!市中心黃金地段嚴(yán)查回遷房重復(fù)安置!知情請(qǐng)舉報(bào)…
- 天天時(shí)訊:香港在新興初創(chuàng)生態(tài)系統(tǒng)類別排名亞洲第一
- 全球焦點(diǎn)!昨天北京最高地表溫度達(dá)到71.8℃ 是觀測史上第二位
- 第十五屆“八喜杯”小籃球精英賽今天開賽
- 河南新密一處門面房因液化氣泄漏致房屋坍塌,4人受傷 今日最新
- 世界快播:廣東省6月25日中午12時(shí)起可查詢高考成績
- 北京高溫,用電激增!空調(diào)等用電占總負(fù)荷的35% 環(huán)球焦點(diǎn)
- 新疆高考成績6月24日18時(shí)起查詢,方式公布
- 全球微速訊:滄浪之水清兮可以濯吾纓滄浪之水濁兮可以濯吾足道理(滄浪之水清兮可以濯吾纓滄浪之水濁兮)
- 永州東安:文旅活動(dòng)過端午,點(diǎn)亮美好新生活 熱聞
- 宇野常寬:富野與母性敵托邦(中)——從《伊迪安》到《逆襲的夏亞》|每日精選
- 搬運(yùn) “麥麥” 表情包/二創(chuàng)/Q版/萌系/高清-焦點(diǎn)觀察
- 未來三天重慶氣溫將持續(xù)上升,最高將達(dá)35℃
- 1 微頭條丨劇場版《Love Live! 虹咲學(xué)園校園偶像同好會(huì)》新作三部曲 制作決定
- 2 天天觀速訊丨寫在夜不能寐之后——想要傳達(dá)給你的愛戀感想(上)
- 3 采訪2022七月番《莉可麗絲》特輯4
- 4 今日熱搜:如果你喜歡的蘿莉御姐漫畫家是摳腳大漢時(shí)?你會(huì)怎么做?
- 5 速看:日本通報(bào)全球首例因感染Oz病毒死亡病例
- 6 北京第三座大悅城設(shè)立警務(wù)室!來看民警端午都忙些啥|全球熱訊
- 7 俄外交部:已大幅增加歐洲機(jī)構(gòu)和歐盟成員國禁止入境人員名單
- 8 158萬元“秒變”22元!緊急提醒:近期高發(fā)!
- 9 當(dāng)前熱議!“冤大頭”!無人機(jī)臺(tái)灣買,情報(bào)美軍優(yōu)先用?
- 10 反對(duì)網(wǎng)絡(luò)地域黑,倡導(dǎo)網(wǎng)絡(luò)文明_焦點(diǎn)快看