專利名稱:一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音變聲技術(shù)領(lǐng)域,公開了一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法,該方法在手機(jī)上接收用戶輸入的文字,通過特定人語音合成技術(shù),生成模擬多種不同發(fā)音人音調(diào)和音色的音頻數(shù)據(jù),對(duì)圖片或漫畫進(jìn)行配音的方法和系統(tǒng),該方法包括:I)通過收集目標(biāo)發(fā)音人的少量語音數(shù)據(jù)(50-100句),實(shí)現(xiàn)具有其發(fā)音特點(diǎn)的語音合成系統(tǒng)的快速構(gòu)建;2)接收用戶在手機(jī)上輸入的文字,將文字通過個(gè)性化合成技術(shù),并設(shè)置合成模版參數(shù),實(shí)現(xiàn)各種模擬男女對(duì)話、老少對(duì)話等的合成音頻,實(shí)現(xiàn)手機(jī)圖片、漫畫的配音。利用本發(fā)明,可以將用戶輸入的文字,轉(zhuǎn)化為指定人的聲音甚至是自己親屬的聲音實(shí)現(xiàn)對(duì)手機(jī)圖片、漫畫的配音,增加了趣味性,提升了用戶交互體驗(yàn)。
背景技術(shù):
現(xiàn)有一些應(yīng)用“對(duì)圖片配音”的解決方案主要是采用人工錄音的方式對(duì)圖片進(jìn)行配音,配音效果單一,不能實(shí)現(xiàn)將聲音轉(zhuǎn)變成不同目標(biāo)人、甚至是自己親屬聲音的等有趣效果O現(xiàn)有技術(shù)的缺點(diǎn)為:現(xiàn)有圖片漫畫配音大多采用人工錄音的方案,配音效果單一,很難滿足用戶對(duì)有趣好玩等的應(yīng)用需求。
發(fā)明內(nèi)容
本發(fā)明要解決以下幾個(gè)問題:1、從聲音模擬目標(biāo)人角度來看,需要解決只采集目標(biāo)人少量語音數(shù)據(jù)的情況下模擬合成的發(fā)音人聲音的相似度問題。2、從業(yè)務(wù)的角度來看,模擬發(fā)音人聲音需要采集發(fā)音人一定量的語料,如果讓用戶在采集語料時(shí)不感到厭煩,同時(shí)不需要花費(fèi)大量的時(shí)間成本。本發(fā)明采用的技術(shù)方案為:一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法,該方法包括如下步驟:步驟I)、模型訓(xùn)練步驟:a)、特定語料庫準(zhǔn)備需要根據(jù)用戶日常用語、生日祝福、勵(lì)志語錄、網(wǎng)絡(luò)流行語的分類構(gòu)建語料庫,每個(gè)分類至少收集百句以上的典型語料;b)、用戶個(gè)人虛擬形象設(shè)定用戶可以通過手機(jī)端程序可以新建自己的虛擬形象,也可以創(chuàng)建給自己的親屬各創(chuàng)建一個(gè)虛擬形象;C)、虛擬形象馴養(yǎng)程序模擬養(yǎng)鸚鵡的場(chǎng)景,需要每天不定時(shí)對(duì)鸚鵡的虛擬形象說話,鸚鵡重復(fù)一句,用戶說話的內(nèi)容由程序隨機(jī)從第a)步系統(tǒng)準(zhǔn)備的語料庫里面隨機(jī)選取,采用這種方式利用用戶的零碎時(shí)間采集用戶的聲音數(shù)據(jù),并上傳到后臺(tái)系統(tǒng);d)、聲學(xué)模型訓(xùn)練
后臺(tái)系統(tǒng)將根據(jù)第c)步驟收集過來的用戶聲音數(shù)據(jù),進(jìn)行聲學(xué)模型訓(xùn)練,生成用戶個(gè)人虛擬形象音庫資源,給出用戶的虛擬形象模擬用戶聲音的當(dāng)前相似度,在客戶端虛擬形象上可以采用鸚鵡從幼鳥生長(zhǎng)為成鳥或者鸚鵡的人氣值不斷升高等設(shè)計(jì)來模擬虛擬形象的成長(zhǎng)過程;e )、系統(tǒng)預(yù)置個(gè)性化音庫資源后臺(tái)系統(tǒng)在用戶的個(gè)人虛擬形象未訓(xùn)練完成或者希望更多個(gè)性化聲音效果時(shí),可以選用系統(tǒng)預(yù)置的一些特色的方言、明星音庫;步驟2)、文字配音流程:用戶在手機(jī)客戶端程序上,選擇有趣的漫畫或圖片,輸入適合漫畫的文字,輸入完成后用戶可以選擇自己馴養(yǎng)的虛擬形象,也可以以道具的方式購買選用系統(tǒng)預(yù)置的虛擬形象,客戶端程序?qū)⑹褂糜脩暨x擇的虛擬形象對(duì)應(yīng)的后臺(tái)音庫資源合成出音頻文件,在客戶端合成為MV等視頻文件,生成有聲漫畫,供用戶進(jìn)行娛樂和分享給好友欣賞;在選擇虛擬形象的過程中,用戶可以根據(jù)漫畫上下文需要,給不同的文字選擇不同的虛擬形象如男女,或者自己的親屬虛擬形象,系統(tǒng)將合成出生動(dòng)的對(duì)話效果,增強(qiáng)漫畫的趣味性。本發(fā)明與現(xiàn)有技術(shù)相比的技術(shù)優(yōu)點(diǎn)為:1、采用特定語音合成技術(shù)的技術(shù)方案,替換人工錄音,解決了配音單調(diào)問題,增強(qiáng)了趣味性。2、用戶可以通過在手機(jī)上輸入文本便捷地制作個(gè)性化手機(jī)有聲圖片或漫畫。3、采用特定人語音合成技術(shù),只需采集少量目標(biāo)的人聲音數(shù)據(jù),即可達(dá)到基本相像的效果。
圖1為用戶訓(xùn)練個(gè)性化音庫配音系統(tǒng)構(gòu)建流程框圖;圖2為聲學(xué)模型訓(xùn)練框圖的示意圖。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施例進(jìn)一步說明本發(fā)明。1、技術(shù)及業(yè)務(wù)流程,如圖1所示。I)、模型訓(xùn)練流程a)、特定語料庫準(zhǔn)備需要根據(jù)用戶日常用語、生日祝福、勵(lì)志語錄、網(wǎng)絡(luò)流行語等分類構(gòu)建語料庫,每個(gè)分類至少收集百句以上的典型語料。b)、用戶個(gè)人虛擬形象設(shè)定用戶可以通過手機(jī)端程序可以新建自己的虛擬形象,也可以創(chuàng)建給自己的親屬各創(chuàng)建一個(gè)虛擬形象。C)、虛擬形象馴養(yǎng)程序模擬養(yǎng)鸚鵡的場(chǎng)景,需要每天不定時(shí)對(duì)鸚鵡(虛擬形象)說話,鸚鵡重復(fù)一句,用戶說話的內(nèi)容由程序隨機(jī)從第a)步系統(tǒng)準(zhǔn)備的語料庫里面隨機(jī)選取,采用這種方式利用用戶的零碎時(shí)間通過移動(dòng)手機(jī)網(wǎng)絡(luò)遠(yuǎn)程采集用戶的聲音數(shù)據(jù),同時(shí)不讓用戶感到厭煩,并上傳到后臺(tái)系統(tǒng)。d)、聲學(xué)模型訓(xùn)練后臺(tái)系統(tǒng)將根據(jù)第c)步驟收集過來的用戶聲音數(shù)據(jù),進(jìn)行聲學(xué)模型訓(xùn)練,生成用戶個(gè)人虛擬形象音庫資源,給出用戶的虛擬形象模擬用戶聲音的當(dāng)前相似度。在客戶端虛擬形象上可以采用鸚鵡從幼鳥生長(zhǎng)為成鳥或者鸚鵡的人氣值不斷升高等設(shè)計(jì)來模擬虛擬形象的成長(zhǎng)過程。具體技術(shù)實(shí)現(xiàn)算法參考下面介紹的聲學(xué)模型訓(xùn)練方法。e )、系統(tǒng)預(yù)置個(gè)性化音庫資源后臺(tái)系統(tǒng)在用戶的個(gè)人虛擬形象未訓(xùn)練完成或者希望更多個(gè)性化聲音效果時(shí),可以選用系統(tǒng)預(yù)置的一些特色的方言、明星音庫等。2)、文字配音流程用戶在手機(jī)客戶端程序上,選擇有趣的漫畫(圖片),輸入適合漫畫的文字。輸入完成后用戶可以選擇自己馴養(yǎng)的虛擬形象,也可以以道具的方式購買選用系統(tǒng)預(yù)置的虛擬形象??蛻舳顺绦?qū)⑹褂糜脩暨x擇的虛擬形象對(duì)應(yīng)的后臺(tái)音庫資源合成出音頻文件,在客戶端合成為MV等視頻文件,生成有聲漫畫,供用戶進(jìn)行娛樂和分享給好友欣賞。在選擇虛擬形象的過程中,用戶可以根據(jù)漫畫上下文需要,給不同的文字選擇不同的虛擬形象如男女,或者自己的親屬 虛擬形象,系統(tǒng)將合成出生動(dòng)的對(duì)話效果,增強(qiáng)漫畫的趣味性。2、系統(tǒng)關(guān)鍵模塊的詳細(xì)說明I)用戶個(gè)人虛擬形象音庫資源構(gòu)建可以模擬成養(yǎng)鸚鵡場(chǎng)景,每天對(duì)鸚鵡說一句特定預(yù)定的語料,鸚鵡同樣跟學(xué)一句,手機(jī)程序自動(dòng)將用戶錄音上傳到系統(tǒng)后臺(tái),進(jìn)行聲學(xué)模型訓(xùn)練。用戶根據(jù)預(yù)定的語料和鸚鵡說的越多,系統(tǒng)收集用戶的特定語料就越多,訓(xùn)練出來的聲學(xué)模型對(duì)用戶聲音的模擬就越相似。目前實(shí)驗(yàn)結(jié)果表明,只要100句以上就能達(dá)到基本相像的效果。2)聲學(xué)模型訓(xùn)練算法根據(jù)用戶輸入的少量錄音進(jìn)行聲學(xué)模型訓(xùn)練。具體實(shí)現(xiàn)技術(shù)除利用科大訊飛專利《一種結(jié)合高層描述信息和模型自適應(yīng)的說話人轉(zhuǎn)換方法》(專利號(hào)200610039680.3)外,還增加了模型自適應(yīng)算法處理。具體如圖2所示框圖的加粗虛線框圖部分。該算法為最小生成誤差線性回歸模型自適應(yīng)方法:①、利用自適應(yīng)數(shù)據(jù),由最大似然線性回歸模型自適應(yīng)算法,計(jì)算源說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣M ;②、根據(jù)源說話人的聲學(xué)模型λ和源說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣Μ,得到目標(biāo)說話人模型,通過傳統(tǒng)的基于最大似然的參數(shù)生成方法,估計(jì)與自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)C各幀相對(duì)應(yīng)的生成聲學(xué)參數(shù)Μ),其中:C = [C1, C2, , cT](I)C(I5M) = Tcl5C2,...,^'
」UT為總幀數(shù),C1, C2到Ct定義如下公式(3),這里采用的聲學(xué)參數(shù)為線譜頻率參數(shù)(Isf)JP:
權(quán)利要求
1.一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法,其特征在于:該方法包括如下步驟: 步驟I)、模型訓(xùn)練步驟: a)、特定語料庫準(zhǔn)備 需要根據(jù)用戶日常用語、生日祝福、勵(lì)志語錄、網(wǎng)絡(luò)流行語的分類構(gòu)建語料庫,每個(gè)分類至少收集百句以上的典型語料; b)、用戶個(gè)人虛擬形象設(shè)定 用戶可以通過手機(jī)端程序可以新建自己的虛擬形象,也可以給自己的親屬各創(chuàng)建一個(gè)鸚鵡虛擬形象; C)、虛擬形象馴養(yǎng) 程序模擬馴養(yǎng)鸚鵡的場(chǎng)景,需要每天不定時(shí)對(duì)鸚鵡的虛擬形象說話,鸚鵡重復(fù)一遍,用戶說話的內(nèi)容由程序隨機(jī)從第a)步系統(tǒng)準(zhǔn)備的語料庫里面隨機(jī)選取,采用這種方式利用用戶的零碎時(shí)間采集用戶的聲音數(shù)據(jù),并上傳到后臺(tái)系統(tǒng); d)、聲學(xué)模型訓(xùn)練 后臺(tái)系統(tǒng)將根據(jù)第c)步驟收集過來的用戶聲音數(shù)據(jù),進(jìn)行聲學(xué)模型訓(xùn)練,生成用戶個(gè)人虛擬形象音庫資源,給出用戶的虛擬形象模擬用戶聲音的當(dāng)前相似度,在客戶端虛擬形象上可以采用鸚鵡從幼鳥生長(zhǎng)為成鳥或者鸚鵡的人氣值不斷升高等設(shè)計(jì)來模擬虛擬形象的成長(zhǎng)過程; e)、系統(tǒng)預(yù)置個(gè)性化音庫資源 后臺(tái)系統(tǒng)在用戶的個(gè)人虛擬形象未訓(xùn)練完成或者希望更多個(gè)性化聲音效果時(shí),可以選用系統(tǒng)預(yù)置的一些特色的方言、明星音庫; 步驟2)、文字配音流程: 用戶在手機(jī)客戶端程序上,選擇有趣的漫畫或圖片,輸入適合漫畫的文字,輸入完成后用戶選擇自己馴養(yǎng)的虛擬形象,或者以道具的方式購買選用系統(tǒng)預(yù)置的虛擬形象,客戶端程序?qū)⑹褂糜脩暨x擇的虛擬形象對(duì)應(yīng)的后臺(tái)音庫資源合成出音頻文件,在客戶端合成為MV等視頻文件,生成有聲漫畫,供用戶進(jìn)行娛樂和分享給好友欣賞;還可以將合成出的音頻文件設(shè)置成用戶彩鈴和來電鈴聲; 在選擇虛擬形象的過程中,用戶可以根據(jù)漫畫上下文需要,給不同的文字選擇不同的虛擬形象如男女,或者自己的親屬虛擬形象,系統(tǒng)將合成出生動(dòng)的對(duì)話效果,增強(qiáng)漫畫的趣味性。
全文摘要
本發(fā)明公開了一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法,該方法在手機(jī)上接收用戶輸入的文字,通過特定人語音合成技術(shù),生成模擬多種不同發(fā)音人音調(diào)和音色的音頻數(shù)據(jù),對(duì)圖片或漫畫進(jìn)行配音;接收用戶在手機(jī)上輸入的文字,將文字通過特定人語音合成技術(shù),并設(shè)置合成模版參數(shù),實(shí)現(xiàn)各種模擬男女對(duì)話、老少對(duì)話等的合成音頻,實(shí)現(xiàn)手機(jī)圖片、漫畫的配音。本發(fā)明將用戶輸入的文字,轉(zhuǎn)化為指定人的聲音甚至是自己親屬的聲音,實(shí)現(xiàn)對(duì)手機(jī)圖片、漫畫的配音,增加了趣味性,提升了用戶交互體驗(yàn)。
文檔編號(hào)G10L13/033GK103117057SQ20121057931
公開日2013年5月22日 申請(qǐng)日期2012年12月27日 優(yōu)先權(quán)日2012年12月27日
發(fā)明者唐義平, 江源, 孫見青, 江濤, 聶小林, 徐佳佳 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司