3月28日消息,據(jù)VentureBeat報道,谷歌旗下Google Brain和機器感知團隊的成員今天在博客文章中宣布,谷歌研究人員已經(jīng)找到了讓機器生成更自然、更像人類語音的方法,使它們的聲音更有表現(xiàn)力。
今天早些時候,谷歌發(fā)布了其Cloud Text-to-Speech服務(wù)的測試版本,為客戶提供谷歌助手Google Assistant使用的相同語音合成技術(shù)。谷歌Cloud Text-to-Speech由DeepMind的WaveNet支持,后者也可以用來生成聽起來更自然的聲音。
今天推出的Cloud Text-to-Speech服務(wù)和研究方法,可以用來為使用語音控制或語音計算的設(shè)備、應(yīng)用程序或數(shù)字服務(wù)帶來更自然的聲音。
在最近發(fā)表的兩篇關(guān)于如何模仿語音中的重音或語調(diào)的文章中,都提到了讓機器聲音聽起來更像人類的新方法,符合語音學(xué)韻律的規(guī)律。這兩份論文中提及的技術(shù)都是在Tacotron 2上建立的,這是去年12月首次亮相的人工智能系統(tǒng),它使用被訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模仿人類語言。
雖然Tacotron在最初的800人測試中聽起來像是人類的聲音,但它無法模仿在壓力條件下的人類聲音或說話者的自然語調(diào)。在Tacotron聯(lián)合創(chuàng)始人Yuxuan Wang領(lǐng)導(dǎo)的研究中,通過將人類語音記錄片段嵌入其中實現(xiàn)了壓力水平下的語音生成。
研究人員在博客文章中說:“這種嵌入捕捉聲音特征的方式獨立于語音信息和說話者的特殊特征,這些特征包括壓力、語調(diào)和時機等。在推理時,我們可以使用這種嵌入方式來進行韻律轉(zhuǎn)換,生成完全不同的說話者聲音,同時模仿引用者的語音韻律。”
第二篇論文是由Skerry-Ryan撰寫的,它使用無監(jiān)督訓(xùn)練來識別語音模式并模仿某些語言風(fēng)格。
第一種韻律轉(zhuǎn)換方法依賴于模仿長度和結(jié)構(gòu)相似句子的語音;第二篇論文中使用的語言風(fēng)格轉(zhuǎn)換方法是,不需要模仿錄制的音調(diào)或相似長度的語音,從而將演講風(fēng)格轉(zhuǎn)移為憤怒或活潑的語氣。
Yuxuan Wang和Skerry-Ryan都表示:“這是前景十分樂觀的研究,因為它為語音交互設(shè)計師們使用他們自己的聲音定制語音合成鋪平了道路。”
除了谷歌的Cloud Text-to-Speech服務(wù)和語音識別服務(wù)之外,更有表現(xiàn)力的語音技術(shù)還可以帶來更人性化的Google Assistant。擺脫單調(diào)的無音域聲音似乎是科技巨頭們追求的策略之一,比如Alexa、Siri和Google Assistant。
去年,Siri得到了更有表現(xiàn)力的聲音。4月份,Alexa為語音應(yīng)用程序開發(fā)人員提供了SSML標簽,以提高個人助理的語音能力,比如停頓、耳語或類似“砰”或“Bada bing”的表情。SSML也已向Google Assistant開發(fā)者開放。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...