來源:中國(guó)電商物流網(wǎng) 發(fā)布時(shí)間:2021-9-2 9:49
雖然日常和你對(duì)話的 Siri 聲音機(jī)械,還常常胡亂斷句,但實(shí)際上,最新的技術(shù)進(jìn)展顯示,AI 的語音合成能力已經(jīng)可以說得上是以假亂真。
比如英偉達(dá),最近就發(fā)布了一個(gè)更懂節(jié)奏、更具感情的語音合成 AI。
在英偉達(dá)的紀(jì)錄片中,她的自我介紹口齒清晰自不必說,氣息頓挫、情緒把控,播音員范兒絕對(duì)夠正。
幀級(jí)控制合成語音
英偉達(dá)將在 9 月 3 日的語音技術(shù)頂會(huì) Interspeech 2021 上展示該項(xiàng)目的最新成果。
不過,其背后的技術(shù),此前就已經(jīng)幫助自家數(shù)字人在 SIGGRAPH Real-Time Live 上摘下了最佳展示獎(jiǎng)。
核心是名為 RAD-TTS 的語音合成方法。
這是一個(gè)并行的端到端 TTS 模型。與此前的并行方法不同,RAD-TTS 將語音節(jié)奏作為一個(gè)單獨(dú)的生成分布來建模。如此,在推理過程中,語音的持續(xù)時(shí)間就能被更好地控制。
從 RAD-TTS 的演示界面中也可以看出,用戶可以在幀級(jí)別上控制合成語音的音調(diào)、持續(xù)時(shí)間和節(jié)奏力度。
研究人員還介紹,RAD-TTS 既可以將任意文本轉(zhuǎn)換成說話人的聲音,也可以將一個(gè)說話人的聲音(甚至是歌聲)轉(zhuǎn)換成另一個(gè)人的聲音。
也就是說,合成語音的制作人可以像指導(dǎo)配音演員一樣去“指導(dǎo)”AI,讓它學(xué)會(huì)哪個(gè)單詞應(yīng)該重點(diǎn)突出、節(jié)奏如何把控更符合創(chuàng)作基調(diào)等等。
機(jī)器語音能有多真實(shí)?
其實(shí),不只是英偉達(dá),此前,小冰也發(fā)布過超級(jí)自然語音技術(shù)。
把一句人類的語音混進(jìn)小冰的語音里,你能分辨到底哪一句來自真正的人類嗎?
不過,小冰公司 CEO 李笛此前曾表示,AI 的聲音太接近真人,就很有可能被濫用。因此小冰禁止為普通個(gè)人訓(xùn)練聲音。
但這樣的技術(shù),也正在通過電臺(tái)、便利店等更多商業(yè)場(chǎng)景,走進(jìn)人們的日常生活。
參考鏈接:
[1] 論文地址:https://openreview.net/forum?id=0NQwnnwAORi
[2]https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。