FacebookAI研究人員以驚人的準(zhǔn)確性克隆了比爾蓋茨的聲音
Facebook Inc.的研究人員設(shè)法克隆了微軟公司的比爾·蓋茨的聲音,以至于您無法分辨它是機(jī)器產(chǎn)生的語音。
Facebook AI Research的肖恩·巴斯克斯(Sean Vasquez)和邁克·劉易斯(Mike Lewis)周一表示,他們已經(jīng)在嘗試模仿人類的語音已有一段時(shí)間了,這顯然很困難,因?yàn)榧词故鞘返俜?middot;霍金(Stephen Hawking)可以說是最著名的口語機(jī)器,聽起來仍然像機(jī)。
看來現(xiàn)在已經(jīng)取得了進(jìn)展,如果您聽蓋茨的克隆作品(如圖),您會(huì)同意的。聽起來像他,您很難分辨機(jī)器和他的真實(shí)聲音之間的區(qū)別。
正如蓋茨所說,機(jī)器在這里說:“甜美的姑娘的眼神中增添了光芒。” 它在此處克隆了“向您所珍惜的朋友寫一封好記號”的字樣。關(guān)于最后一句話,也許有些不可思議的是,當(dāng)蓋茨說“珍惜”時(shí),機(jī)器是如何正確糾正蓋茨毫無疑問的上升趨勢的。
用于執(zhí)行此操作的技術(shù)稱為MelNet,可用于復(fù)制人類語調(diào)。迄今為止,蓋茨的聲音和許多其他人的聲音已經(jīng)完美地再現(xiàn)了。Vasquez和Lewis說,克隆的音頻來自各種Ted Talks。
研究人員說,直到最近,文本轉(zhuǎn)語音軟件之所以不能很好地工作,是因?yàn)樗褂昧瞬ㄐ斡涗?。這些說明了聲音在幾秒鐘內(nèi)如何發(fā)生變化。如果您聽到蓋茨說出的“珍惜”一詞,則音調(diào)會(huì)發(fā)生很大變化。當(dāng)試圖模仿一個(gè)人時(shí),深度學(xué)習(xí)機(jī)必須猜測所有這些微小的變化,這并非易事。
Vasquez和Lewis說,他們通過使用所謂的頻譜圖來訓(xùn)練機(jī)器,從而更加準(zhǔn)確地克隆了語音。
研究人員說:“頻譜圖的時(shí)間軸比波形的時(shí)間軸緊湊幾個(gè)數(shù)量級,這意味著跨越波形中成千上萬個(gè)時(shí)間步長的依存關(guān)系僅跨越頻譜圖中成百上千個(gè)時(shí)間步長,”研究人員說。“這使我們的頻譜圖模型能夠在幾秒鐘的時(shí)間內(nèi)生成無條件的語音和音樂樣本。”
但是有一些挫折。研究小組表示,盡管他們可以完美地再現(xiàn)句子,但它無法復(fù)制“語調(diào)以表明隨著故事在數(shù)十秒或幾分鐘內(nèi)演變而引起的話題或情緒變化”。該團(tuán)隊(duì)說,盡管如此,在人機(jī)交互方面,該技術(shù)在僅涉及簡短短語的對話中仍可能具有變革性。