一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法

文檔序號(hào)：2833741閱讀：342來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音變聲技術(shù)領(lǐng)域，公開了一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法，該方法在手機(jī)上接收用戶輸入的文字，通過特定人語音合成技術(shù)，生成模擬多種不同發(fā)音人音調(diào)和音色的音頻數(shù)據(jù)，對(duì)圖片或漫畫進(jìn)行配音的方法和系統(tǒng)，該方法包括:I)通過收集目標(biāo)發(fā)音人的少量語音數(shù)據(jù)(50-100句)，實(shí)現(xiàn)具有其發(fā)音特點(diǎn)的語音合成系統(tǒng)的快速構(gòu)建；2)接收用戶在手機(jī)上輸入的文字，將文字通過個(gè)性化合成技術(shù)，并設(shè)置合成模版參數(shù)，實(shí)現(xiàn)各種模擬男女對(duì)話、老少對(duì)話等的合成音頻，實(shí)現(xiàn)手機(jī)圖片、漫畫的配音。利用本發(fā)明，可以將用戶輸入的文字，轉(zhuǎn)化為指定人的聲音甚至是自己親屬的聲音實(shí)現(xiàn)對(duì)手機(jī)圖片、漫畫的配音，增加了趣味性，提升了用戶交互體驗(yàn)。
背景技術(shù)：
現(xiàn)有一些應(yīng)用“對(duì)圖片配音”的解決方案主要是采用人工錄音的方式對(duì)圖片進(jìn)行配音，配音效果單一，不能實(shí)現(xiàn)將聲音轉(zhuǎn)變成不同目標(biāo)人、甚至是自己親屬聲音的等有趣效果O現(xiàn)有技術(shù)的缺點(diǎn)為:現(xiàn)有圖片漫畫配音大多采用人工錄音的方案，配音效果單一，很難滿足用戶對(duì)有趣好玩等的應(yīng)用需求。

發(fā)明內(nèi)容
本發(fā)明要解決以下幾個(gè)問題:1、從聲音模擬目標(biāo)人角度來看，需要解決只采集目標(biāo)人少量語音數(shù)據(jù)的情況下模擬合成的發(fā)音人聲音的相似度問題。2、從業(yè)務(wù)的角度來看，模擬發(fā)音人聲音需要采集發(fā)音人一定量的語料，如果讓用戶在采集語料時(shí)不感到厭煩，同時(shí)不需要花費(fèi)大量的時(shí)間成本。本發(fā)明采用的技術(shù)方案為:一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法，該方法包括如下步驟:步驟I)、模型訓(xùn)練步驟:a)、特定語料庫準(zhǔn)備需要根據(jù)用戶日常用語、生日祝福、勵(lì)志語錄、網(wǎng)絡(luò)流行語的分類構(gòu)建語料庫，每個(gè)分類至少收集百句以上的典型語料；b)、用戶個(gè)人虛擬形象設(shè)定用戶可以通過手機(jī)端程序可以新建自己的虛擬形象，也可以創(chuàng)建給自己的親屬各創(chuàng)建一個(gè)虛擬形象；C)、虛擬形象馴養(yǎng)程序模擬養(yǎng)鸚鵡的場(chǎng)景，需要每天不定時(shí)對(duì)鸚鵡的虛擬形象說話，鸚鵡重復(fù)一句，用戶說話的內(nèi)容由程序隨機(jī)從第a)步系統(tǒng)準(zhǔn)備的語料庫里面隨機(jī)選取，采用這種方式利用用戶的零碎時(shí)間采集用戶的聲音數(shù)據(jù)，并上傳到后臺(tái)系統(tǒng)；d)、聲學(xué)模型訓(xùn)練
后臺(tái)系統(tǒng)將根據(jù)第c)步驟收集過來的用戶聲音數(shù)據(jù)，進(jìn)行聲學(xué)模型訓(xùn)練，生成用戶個(gè)人虛擬形象音庫資源，給出用戶的虛擬形象模擬用戶聲音的當(dāng)前相似度，在客戶端虛擬形象上可以采用鸚鵡從幼鳥生長(zhǎng)為成鳥或者鸚鵡的人氣值不斷升高等設(shè)計(jì)來模擬虛擬形象的成長(zhǎng)過程；e )、系統(tǒng)預(yù)置個(gè)性化音庫資源后臺(tái)系統(tǒng)在用戶的個(gè)人虛擬形象未訓(xùn)練完成或者希望更多個(gè)性化聲音效果時(shí)，可以選用系統(tǒng)預(yù)置的一些特色的方言、明星音庫；步驟2)、文字配音流程:用戶在手機(jī)客戶端程序上，選擇有趣的漫畫或圖片，輸入適合漫畫的文字，輸入完成后用戶可以選擇自己馴養(yǎng)的虛擬形象，也可以以道具的方式購買選用系統(tǒng)預(yù)置的虛擬形象，客戶端程序?qū)⑹褂糜脩暨x擇的虛擬形象對(duì)應(yīng)的后臺(tái)音庫資源合成出音頻文件，在客戶端合成為MV等視頻文件，生成有聲漫畫，供用戶進(jìn)行娛樂和分享給好友欣賞；在選擇虛擬形象的過程中，用戶可以根據(jù)漫畫上下文需要，給不同的文字選擇不同的虛擬形象如男女，或者自己的親屬虛擬形象，系統(tǒng)將合成出生動(dòng)的對(duì)話效果，增強(qiáng)漫畫的趣味性。本發(fā)明與現(xiàn)有技術(shù)相比的技術(shù)優(yōu)點(diǎn)為:1、采用特定語音合成技術(shù)的技術(shù)方案，替換人工錄音，解決了配音單調(diào)問題，增強(qiáng)了趣味性。2、用戶可以通過在手機(jī)上輸入文本便捷地制作個(gè)性化手機(jī)有聲圖片或漫畫。3、采用特定人語音合成技術(shù)，只需采集少量目標(biāo)的人聲音數(shù)據(jù)，即可達(dá)到基本相像的效果。

圖1為用戶訓(xùn)練個(gè)性化音庫配音系統(tǒng)構(gòu)建流程框圖；圖2為聲學(xué)模型訓(xùn)練框圖的示意圖。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施例進(jìn)一步說明本發(fā)明。1、技術(shù)及業(yè)務(wù)流程，如圖1所示。I)、模型訓(xùn)練流程a)、特定語料庫準(zhǔn)備需要根據(jù)用戶日常用語、生日祝福、勵(lì)志語錄、網(wǎng)絡(luò)流行語等分類構(gòu)建語料庫，每個(gè)分類至少收集百句以上的典型語料。b)、用戶個(gè)人虛擬形象設(shè)定用戶可以通過手機(jī)端程序可以新建自己的虛擬形象，也可以創(chuàng)建給自己的親屬各創(chuàng)建一個(gè)虛擬形象。C)、虛擬形象馴養(yǎng)程序模擬養(yǎng)鸚鵡的場(chǎng)景，需要每天不定時(shí)對(duì)鸚鵡(虛擬形象)說話，鸚鵡重復(fù)一句，用戶說話的內(nèi)容由程序隨機(jī)從第a)步系統(tǒng)準(zhǔn)備的語料庫里面隨機(jī)選取，采用這種方式利用用戶的零碎時(shí)間通過移動(dòng)手機(jī)網(wǎng)絡(luò)遠(yuǎn)程采集用戶的聲音數(shù)據(jù)，同時(shí)不讓用戶感到厭煩，并上傳到后臺(tái)系統(tǒng)。d)、聲學(xué)模型訓(xùn)練后臺(tái)系統(tǒng)將根據(jù)第c)步驟收集過來的用戶聲音數(shù)據(jù)，進(jìn)行聲學(xué)模型訓(xùn)練，生成用戶個(gè)人虛擬形象音庫資源，給出用戶的虛擬形象模擬用戶聲音的當(dāng)前相似度。在客戶端虛擬形象上可以采用鸚鵡從幼鳥生長(zhǎng)為成鳥或者鸚鵡的人氣值不斷升高等設(shè)計(jì)來模擬虛擬形象的成長(zhǎng)過程。具體技術(shù)實(shí)現(xiàn)算法參考下面介紹的聲學(xué)模型訓(xùn)練方法。e )、系統(tǒng)預(yù)置個(gè)性化音庫資源后臺(tái)系統(tǒng)在用戶的個(gè)人虛擬形象未訓(xùn)練完成或者希望更多個(gè)性化聲音效果時(shí)，可以選用系統(tǒng)預(yù)置的一些特色的方言、明星音庫等。2)、文字配音流程用戶在手機(jī)客戶端程序上，選擇有趣的漫畫(圖片)，輸入適合漫畫的文字。輸入完成后用戶可以選擇自己馴養(yǎng)的虛擬形象，也可以以道具的方式購買選用系統(tǒng)預(yù)置的虛擬形象?？蛻舳顺绦?qū)⑹褂糜脩暨x擇的虛擬形象對(duì)應(yīng)的后臺(tái)音庫資源合成出音頻文件，在客戶端合成為MV等視頻文件，生成有聲漫畫，供用戶進(jìn)行娛樂和分享給好友欣賞。在選擇虛擬形象的過程中，用戶可以根據(jù)漫畫上下文需要，給不同的文字選擇不同的虛擬形象如男女，或者自己的親屬虛擬形象，系統(tǒng)將合成出生動(dòng)的對(duì)話效果，增強(qiáng)漫畫的趣味性。2、系統(tǒng)關(guān)鍵模塊的詳細(xì)說明I)用戶個(gè)人虛擬形象音庫資源構(gòu)建可以模擬成養(yǎng)鸚鵡場(chǎng)景，每天對(duì)鸚鵡說一句特定預(yù)定的語料，鸚鵡同樣跟學(xué)一句，手機(jī)程序自動(dòng)將用戶錄音上傳到系統(tǒng)后臺(tái)，進(jìn)行聲學(xué)模型訓(xùn)練。用戶根據(jù)預(yù)定的語料和鸚鵡說的越多，系統(tǒng)收集用戶的特定語料就越多，訓(xùn)練出來的聲學(xué)模型對(duì)用戶聲音的模擬就越相似。目前實(shí)驗(yàn)結(jié)果表明，只要100句以上就能達(dá)到基本相像的效果。2)聲學(xué)模型訓(xùn)練算法根據(jù)用戶輸入的少量錄音進(jìn)行聲學(xué)模型訓(xùn)練。具體實(shí)現(xiàn)技術(shù)除利用科大訊飛專利《一種結(jié)合高層描述信息和模型自適應(yīng)的說話人轉(zhuǎn)換方法》(專利號(hào)200610039680.3)外，還增加了模型自適應(yīng)算法處理。具體如圖2所示框圖的加粗虛線框圖部分。該算法為最小生成誤差線性回歸模型自適應(yīng)方法:①、利用自適應(yīng)數(shù)據(jù)，由最大似然線性回歸模型自適應(yīng)算法，計(jì)算源說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣M ;②、根據(jù)源說話人的聲學(xué)模型λ和源說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣Μ，得到目標(biāo)說話人模型，通過傳統(tǒng)的基于最大似然的參數(shù)生成方法，估計(jì)與自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)C各幀相對(duì)應(yīng)的生成聲學(xué)參數(shù)Μ)，其中:C = [C1, C2, , cT](I)C(I5M) = Tcl5C2,...,^'
」UT為總幀數(shù)，C1, C2到Ct定義如下公式(3)，這里采用的聲學(xué)參數(shù)為線譜頻率參數(shù)(Isf)JP:
權(quán)利要求
1.一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法，其特征在于:該方法包括如下步驟: 步驟I)、模型訓(xùn)練步驟: a)、特定語料庫準(zhǔn)備需要根據(jù)用戶日常用語、生日祝福、勵(lì)志語錄、網(wǎng)絡(luò)流行語的分類構(gòu)建語料庫，每個(gè)分類至少收集百句以上的典型語料； b)、用戶個(gè)人虛擬形象設(shè)定用戶可以通過手機(jī)端程序可以新建自己的虛擬形象，也可以給自己的親屬各創(chuàng)建一個(gè)鸚鵡虛擬形象； C)、虛擬形象馴養(yǎng) 程序模擬馴養(yǎng)鸚鵡的場(chǎng)景，需要每天不定時(shí)對(duì)鸚鵡的虛擬形象說話，鸚鵡重復(fù)一遍，用戶說話的內(nèi)容由程序隨機(jī)從第a)步系統(tǒng)準(zhǔn)備的語料庫里面隨機(jī)選取，采用這種方式利用用戶的零碎時(shí)間采集用戶的聲音數(shù)據(jù)，并上傳到后臺(tái)系統(tǒng)； d)、聲學(xué)模型訓(xùn)練后臺(tái)系統(tǒng)將根據(jù)第c)步驟收集過來的用戶聲音數(shù)據(jù)，進(jìn)行聲學(xué)模型訓(xùn)練，生成用戶個(gè)人虛擬形象音庫資源，給出用戶的虛擬形象模擬用戶聲音的當(dāng)前相似度，在客戶端虛擬形象上可以采用鸚鵡從幼鳥生長(zhǎng)為成鳥或者鸚鵡的人氣值不斷升高等設(shè)計(jì)來模擬虛擬形象的成長(zhǎng)過程； e)、系統(tǒng)預(yù)置個(gè)性化音庫資源后臺(tái)系統(tǒng)在用戶的個(gè)人虛擬形象未訓(xùn)練完成或者希望更多個(gè)性化聲音效果時(shí)，可以選用系統(tǒng)預(yù)置的一些特色的方言、明星音庫；步驟2)、文字配音流程: 用戶在手機(jī)客戶端程序上，選擇有趣的漫畫或圖片，輸入適合漫畫的文字，輸入完成后用戶選擇自己馴養(yǎng)的虛擬形象，或者以道具的方式購買選用系統(tǒng)預(yù)置的虛擬形象，客戶端程序?qū)⑹褂糜脩暨x擇的虛擬形象對(duì)應(yīng)的后臺(tái)音庫資源合成出音頻文件，在客戶端合成為MV等視頻文件，生成有聲漫畫，供用戶進(jìn)行娛樂和分享給好友欣賞；還可以將合成出的音頻文件設(shè)置成用戶彩鈴和來電鈴聲；在選擇虛擬形象的過程中，用戶可以根據(jù)漫畫上下文需要，給不同的文字選擇不同的虛擬形象如男女，或者自己的親屬虛擬形象，系統(tǒng)將合成出生動(dòng)的對(duì)話效果，增強(qiáng)漫畫的趣味性。
全文摘要
本發(fā)明公開了一種特定人語音合成技術(shù)在手機(jī)漫畫配音中的應(yīng)用方法，該方法在手機(jī)上接收用戶輸入的文字，通過特定人語音合成技術(shù)，生成模擬多種不同發(fā)音人音調(diào)和音色的音頻數(shù)據(jù)，對(duì)圖片或漫畫進(jìn)行配音；接收用戶在手機(jī)上輸入的文字，將文字通過特定人語音合成技術(shù)，并設(shè)置合成模版參數(shù)，實(shí)現(xiàn)各種模擬男女對(duì)話、老少對(duì)話等的合成音頻，實(shí)現(xiàn)手機(jī)圖片、漫畫的配音。本發(fā)明將用戶輸入的文字，轉(zhuǎn)化為指定人的聲音甚至是自己親屬的聲音，實(shí)現(xiàn)對(duì)手機(jī)圖片、漫畫的配音，增加了趣味性，提升了用戶交互體驗(yàn)。
文檔編號(hào)G10L13/033GK103117057SQ20121057931
公開日2013年5月22日申請(qǐng)日期2012年12月27日優(yōu)先權(quán)日2012年12月27日
發(fā)明者唐義平, 江源, 孫見青, 江濤, 聶小林, 徐佳佳申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐義平;江源;孫見青;江濤;聶小林;徐佳佳
技術(shù)所有人：安徽科大訊飛信息科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！