本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,特別涉及一種基于神經(jīng)網(wǎng)絡(luò)模型的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法及裝置。
背景技術(shù):
語(yǔ)音是日常生活中攜帶信息的常用方式,隨著語(yǔ)音技術(shù)的發(fā)展,也出現(xiàn)了越來(lái)越多的語(yǔ)音識(shí)別系統(tǒng)來(lái)進(jìn)行語(yǔ)音識(shí)別,根據(jù)語(yǔ)音來(lái)源距離的不同,可以有遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的分別,在進(jìn)行語(yǔ)音識(shí)別時(shí),針對(duì)不同的語(yǔ)音,可以采用不同的處理策略,來(lái)進(jìn)行語(yǔ)音處理,以便獲取到的清晰可識(shí)別的語(yǔ)音信息。
尤其是遠(yuǎn)場(chǎng)語(yǔ)音,由于其傳輸距離較長(zhǎng),其語(yǔ)音中可能就會(huì)包含了更多的干擾,為了降低這些干擾的影響,一般需要進(jìn)行去噪、去回聲等處理。
現(xiàn)有技術(shù)中,一般是通過(guò)麥克風(fēng)陣列來(lái)實(shí)現(xiàn)對(duì)遠(yuǎn)場(chǎng)語(yǔ)音的去噪、去回聲處理的,這種方式必須布置麥克風(fēng)陣列,對(duì)于不方便布置麥克風(fēng)陣列的場(chǎng)合來(lái)說(shuō)并不適用。此外,這種方式其實(shí)現(xiàn)去噪的困難和復(fù)雜程度依賴于麥克風(fēng)的數(shù)目,一般而言,麥克風(fēng)數(shù)目越大,去噪相對(duì)來(lái)說(shuō)越容易,當(dāng)麥克風(fēng)數(shù)量不夠時(shí),去噪的效果也會(huì)大打折扣。
因此,現(xiàn)有麥克風(fēng)陣列去噪的實(shí)現(xiàn)方式,不僅需要足夠的麥克風(fēng)數(shù)量,增加了設(shè)備成本,而且對(duì)遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行去噪處理的效果并不是很好,不能獲取到較佳的語(yǔ)音處理結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法及裝置,用以解決現(xiàn)有技術(shù)中存在的遠(yuǎn)場(chǎng)語(yǔ)音去噪處理時(shí),設(shè)備成本投入高,去噪處理效果不佳的問(wèn)題,能夠在不增加設(shè)備投入的情況下,獲取到較佳的遠(yuǎn)場(chǎng)語(yǔ)音處理結(jié)果。
本發(fā)明實(shí)施例提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法,包括:
接收遠(yuǎn)場(chǎng)語(yǔ)音;
將所述遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型中;
通過(guò)所述語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音;
對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
在一些可選的實(shí)施例中,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型的訓(xùn)練過(guò)程,包括:
錄入近場(chǎng)語(yǔ)音,從錄入的近場(chǎng)語(yǔ)音中獲取近場(chǎng)音頻特征;
在近場(chǎng)語(yǔ)音中加入遠(yuǎn)場(chǎng)語(yǔ)音的環(huán)境聲音,得到模擬遠(yuǎn)場(chǎng)語(yǔ)音;
將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型。
在一些可選的實(shí)施例中,將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練時(shí),采用中低層網(wǎng)絡(luò)特定訓(xùn)練的目標(biāo)函數(shù)進(jìn)行語(yǔ)音模型訓(xùn)練,具體包括:采用如下公式最小化整個(gè)數(shù)據(jù)庫(kù)的重建向量和純凈向量的平方誤差損失:
U是訓(xùn)練事件的總數(shù)量;
zi是第i個(gè)重建特征向量;
xi是對(duì)應(yīng)的純凈特征向量。
在一些可選的實(shí)施例中,上述方法還包括:
將基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型與聲學(xué)模型相融合,得到融合后語(yǔ)音訓(xùn)練模型;相應(yīng)的,接收到遠(yuǎn)場(chǎng)語(yǔ)音時(shí),將所述遠(yuǎn)場(chǎng)語(yǔ)音輸入到融合后語(yǔ)音訓(xùn)練模型中。
在一些可選的實(shí)施例中,對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別,具體包括:
將處理后的遠(yuǎn)場(chǎng)語(yǔ)音輸入到聲學(xué)模型中進(jìn)行識(shí)別;或
通過(guò)融合后語(yǔ)音訓(xùn)練模型直接對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
本發(fā)明實(shí)施例還提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理裝置,包括:
接收模塊,用于接收遠(yuǎn)場(chǎng)語(yǔ)音;
輸入模塊,用于將所述遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型中;
處理模塊,用于通過(guò)所述語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音;
識(shí)別模塊,用于對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
在一些可選的實(shí)施例中,上述裝置還包括:
訓(xùn)練模塊,用于錄入近場(chǎng)語(yǔ)音,從錄入的近場(chǎng)語(yǔ)音中獲取近場(chǎng)音頻特征;在近場(chǎng)語(yǔ)音中加入遠(yuǎn)場(chǎng)語(yǔ)音的環(huán)境聲音,得到模擬遠(yuǎn)場(chǎng)語(yǔ)音;將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型。
在一些可選的實(shí)施例中,所述訓(xùn)練模塊,具體用于:
將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練時(shí),采用中低層網(wǎng)絡(luò)特定訓(xùn)練的目標(biāo)函數(shù)進(jìn)行語(yǔ)音模型訓(xùn)練,具體包括:采用如下公式最小化整個(gè)數(shù)據(jù)庫(kù)的重建向量和純凈向量的平方誤差損失:
U是訓(xùn)練事件的總數(shù)量;
zi是第i個(gè)重建特征向量;
xi是對(duì)應(yīng)的純凈特征向量。
在一些可選的實(shí)施例中,所述訓(xùn)練模塊,還用于:將基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型與聲學(xué)模型相融合,得到融合后語(yǔ)音訓(xùn)練模型;相應(yīng)的,
所述輸入模塊,具體用于接收到遠(yuǎn)場(chǎng)語(yǔ)音時(shí),將所述遠(yuǎn)場(chǎng)語(yǔ)音輸入到融合后語(yǔ)音訓(xùn)練模型中。
在一些可選的實(shí)施例中,所述識(shí)別模塊,具體用于:
將處理后的遠(yuǎn)場(chǎng)語(yǔ)音輸入到聲學(xué)模型中進(jìn)行識(shí)別;或
通過(guò)融合后語(yǔ)音訓(xùn)練模型直接對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
本發(fā)明實(shí)施例提供的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法及裝置,接收遠(yuǎn)場(chǎng)語(yǔ)音時(shí),將遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型中,通過(guò)語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音并進(jìn)行識(shí)別,從而能夠以較低的設(shè)備成本投入,實(shí)現(xiàn)較佳的去噪處理效果,能夠在不增加設(shè)備成本投入的情況下,獲取較佳的遠(yuǎn)場(chǎng)語(yǔ)音處理效果,使得遠(yuǎn)程語(yǔ)音能夠和近場(chǎng)語(yǔ)音的效果相同或相近,該方法實(shí)現(xiàn)簡(jiǎn)單方便,處理效果好。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
圖1為本發(fā)明實(shí)施例一中遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法的流程圖;
圖2為本發(fā)明實(shí)施例二中語(yǔ)音訓(xùn)練模型的訓(xùn)練過(guò)程示意圖;
圖3為本發(fā)明實(shí)施例二中語(yǔ)音訓(xùn)練模型訓(xùn)練原理示意圖;
圖4為本發(fā)明實(shí)施例三中遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法的流程圖;
圖5為本發(fā)明實(shí)施例四中遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法的流程圖;
圖6為本發(fā)明實(shí)施例中遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理裝置的框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
為了解決現(xiàn)有技術(shù)中存在的遠(yuǎn)場(chǎng)語(yǔ)音去噪處理時(shí),設(shè)備成本投入高,去噪處理效果不佳的問(wèn)題,本發(fā)明實(shí)施例提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法,通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí),基于學(xué)習(xí)結(jié)果對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行處理,無(wú)需布置麥克風(fēng)陣列,不用增加設(shè)備成本,即可實(shí)現(xiàn)對(duì)遠(yuǎn)場(chǎng)語(yǔ)音的優(yōu)化處理,并獲取到較佳的處理結(jié)果。
實(shí)施例一
本發(fā)明實(shí)施例一提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法,其流程如圖1所示,包括如下步驟:
步驟S101:接收遠(yuǎn)場(chǎng)語(yǔ)音。
用于遠(yuǎn)場(chǎng)語(yǔ)音處理的設(shè)備,通過(guò)設(shè)置的接收模塊,接收遠(yuǎn)場(chǎng)語(yǔ)音,并進(jìn)行后續(xù)的去混響、去噪處理,以獲取質(zhì)量較佳的語(yǔ)音。
步驟S102:將接收到的遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型中。
接收到遠(yuǎn)場(chǎng)語(yǔ)音后,將遠(yuǎn)場(chǎng)語(yǔ)音輸入到語(yǔ)音訓(xùn)練模型中進(jìn)行去混響、去噪處理,其中語(yǔ)音訓(xùn)練模型可以選用預(yù)先訓(xùn)練好的基于神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的語(yǔ)音訓(xùn)練模型。
語(yǔ)音訓(xùn)練模型的訓(xùn)練過(guò)程,也是一種學(xué)習(xí)過(guò)程,通過(guò)錄入近場(chǎng)聲音,從近場(chǎng)聲音中提取出近場(chǎng)音頻特征。用軟件在近場(chǎng)聲音中加入遠(yuǎn)場(chǎng)的環(huán)境聲音,模擬出遠(yuǎn)場(chǎng)聲音,將遠(yuǎn)場(chǎng)聲音和近場(chǎng)聲音加入到神經(jīng)網(wǎng)絡(luò),對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)和模型進(jìn)行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型可以采用深度網(wǎng)絡(luò)模型或卷積網(wǎng)絡(luò)模型。
步驟S103:通過(guò)語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音。
預(yù)先訓(xùn)練好的語(yǔ)音訓(xùn)練模型能夠包含遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征,可以將遠(yuǎn)場(chǎng)語(yǔ)音,經(jīng)過(guò)比對(duì)處理,得到對(duì)應(yīng)的近場(chǎng)語(yǔ)音。該過(guò)程實(shí)現(xiàn)從噪聲混響特征較多的遠(yuǎn)場(chǎng)語(yǔ)音中恢復(fù)出噪聲混響特征較少的近場(chǎng)語(yǔ)音。
步驟S104:對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
對(duì)遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別,主要的是進(jìn)行聲學(xué)模型的識(shí)別,以便識(shí)別出語(yǔ)音,播放給用戶。聲學(xué)模型的識(shí)別可以通過(guò)單獨(dú)的聲學(xué)模型實(shí)現(xiàn)識(shí)別,也可以通過(guò)融合后的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行識(shí)別,融合后的神經(jīng)網(wǎng)絡(luò)模型是指將遠(yuǎn)場(chǎng)音頻特征到近場(chǎng)音頻特征的神經(jīng)網(wǎng)絡(luò)模型與聲學(xué)模型融合得到的神經(jīng)網(wǎng)絡(luò)模型。
本發(fā)明實(shí)施例提供的技術(shù)方案,接收到遠(yuǎn)場(chǎng)語(yǔ)音時(shí),輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型。利用神經(jīng)網(wǎng)絡(luò)對(duì)遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行音頻特征的加工,實(shí)現(xiàn)去混響、去噪聲等,得到近場(chǎng)音頻特征;并對(duì)近場(chǎng)音頻特征進(jìn)行聲學(xué)模型的識(shí)別處理,實(shí)現(xiàn)為用戶提供音質(zhì)較佳的遠(yuǎn)場(chǎng)語(yǔ)音。
實(shí)施例二
本發(fā)明實(shí)施例二提供上述遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理方法中,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型的訓(xùn)練過(guò)程,其流程如圖2所示,包括如下步驟:
步驟S201:錄入近場(chǎng)語(yǔ)音。
基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型的訓(xùn)練,實(shí)際上是一種學(xué)習(xí)過(guò)程,首先是通過(guò)錄入近場(chǎng)語(yǔ)音學(xué)習(xí)近場(chǎng)語(yǔ)音的特征。
步驟S202:從錄入的近場(chǎng)語(yǔ)音中獲取近場(chǎng)音頻特征。
錄入近場(chǎng)聲音后,從近場(chǎng)聲音中提取出近場(chǎng)音頻特征,實(shí)現(xiàn)對(duì)近場(chǎng)語(yǔ)音特征的學(xué)習(xí)。
步驟S203:在近場(chǎng)語(yǔ)音中加入遠(yuǎn)場(chǎng)語(yǔ)音的環(huán)境聲音,得到模擬遠(yuǎn)場(chǎng)語(yǔ)音。
在訓(xùn)練過(guò)程中,學(xué)習(xí)到近場(chǎng)語(yǔ)音的音頻特征后,再在近場(chǎng)語(yǔ)音中加入噪聲混響的特征,得到一個(gè)模擬的遠(yuǎn)場(chǎng)語(yǔ)音,通過(guò)學(xué)習(xí)模擬的遠(yuǎn)場(chǎng)語(yǔ)音的特征,實(shí)現(xiàn)模型的建立,所建立的模型能夠反映遠(yuǎn)場(chǎng)語(yǔ)音與近場(chǎng)語(yǔ)音之間的差別和關(guān)聯(lián),從而能夠?qū)崿F(xiàn)遠(yuǎn)場(chǎng)語(yǔ)音到近場(chǎng)語(yǔ)音的反向還原。
步驟S204:將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型。
將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練時(shí),采用中低層網(wǎng)絡(luò)特定訓(xùn)練的目標(biāo)函數(shù)進(jìn)行語(yǔ)音模型訓(xùn)練,具體包括:采用如下公式最小化整個(gè)數(shù)據(jù)庫(kù)的重建向量和純凈向量的平方誤差損失:
U是訓(xùn)練事件的總數(shù)量;
zi是第i個(gè)重建特征向量;
xi是對(duì)應(yīng)的純凈特征向量。
上述公式為表示中低層網(wǎng)絡(luò)特定訓(xùn)練的目標(biāo)函數(shù),將此公式用于圖3所示的語(yǔ)音訓(xùn)練模型訓(xùn)練原理中,實(shí)現(xiàn)語(yǔ)音訓(xùn)練模型的建立。
如圖3所示的,近場(chǎng)語(yǔ)音中可以提取出近場(chǎng)語(yǔ)音特征x,對(duì)近場(chǎng)語(yǔ)音特征x進(jìn)行重建,得到重建特征z,噪聲混響語(yǔ)音中提取出疊加噪聲的特征x’,疊加噪聲的特征x’通過(guò)映射變換,實(shí)現(xiàn)輸入變量x’到隱性特征的映射(fθ映射,也是一個(gè)編碼過(guò)程),得到非線性的映射變換特征h1,進(jìn)一步通過(guò)映射得到fθ得到特征h2;再通過(guò)非線性擠壓(gθ映射,也是一個(gè)譯碼過(guò)程),得到重建特征z,基于該原理,實(shí)現(xiàn)模型的語(yǔ)音訓(xùn)練建立。
如圖3所示的,其參數(shù)從下往上依次為11*44,512,512和11*44。
本發(fā)明實(shí)施例中基于對(duì)遠(yuǎn)場(chǎng)語(yǔ)音的原始特征或中層表達(dá),通過(guò)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為近場(chǎng)語(yǔ)音的特征和中層表達(dá),因此主要是對(duì)神經(jīng)網(wǎng)絡(luò)模型的中低層參數(shù)進(jìn)行了特定訓(xùn)練,高層神經(jīng)網(wǎng)絡(luò)的參數(shù)與現(xiàn)有語(yǔ)音識(shí)別模型訓(xùn)練方法相同。
通過(guò)中低層網(wǎng)絡(luò)參數(shù)的特定訓(xùn)練,在遠(yuǎn)場(chǎng)環(huán)境下,新的遠(yuǎn)場(chǎng)語(yǔ)音模型的性能與原始的帶噪訓(xùn)練的遠(yuǎn)場(chǎng)語(yǔ)音模型的性能相比,有10%左右的提升。
實(shí)施例三
本發(fā)明實(shí)施例三提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理的具體實(shí)現(xiàn)方法,其流程如圖4所示,包括如下步驟:
步驟S301:接收遠(yuǎn)場(chǎng)語(yǔ)音。
步驟S302:將接收到的遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型中。
本實(shí)施例中基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型是未融合聲學(xué)模型的語(yǔ)音訓(xùn)練模型,該模型僅實(shí)現(xiàn)遠(yuǎn)場(chǎng)語(yǔ)音到近場(chǎng)語(yǔ)音的處理。
步驟S303:獲取語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征。
步驟S304:根據(jù)獲取的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音。
步驟S305:將處理后的遠(yuǎn)場(chǎng)語(yǔ)音輸入到聲學(xué)模型中進(jìn)行識(shí)別。
通過(guò)單獨(dú)聲學(xué)模型進(jìn)行識(shí)別,其實(shí)現(xiàn)更靈活。
本發(fā)明實(shí)施例提供的技術(shù)方案,在訓(xùn)練基于網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型時(shí),不進(jìn)行聲學(xué)模型的融合,后續(xù)得到近場(chǎng)語(yǔ)音后,通過(guò)單獨(dú)的聲學(xué)模型進(jìn)行語(yǔ)音識(shí)別。
實(shí)施例四
本發(fā)明實(shí)施例四提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理的具體實(shí)現(xiàn)方法,其流程如圖5所示,包括如下步驟:
步驟S401:接收遠(yuǎn)場(chǎng)語(yǔ)音。
步驟S402:將接收到的遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的融合后的語(yǔ)音訓(xùn)練模型。
本實(shí)施例中基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型是與聲學(xué)模型融合后的語(yǔ)音訓(xùn)練模型,能夠一體化的實(shí)現(xiàn)語(yǔ)音識(shí)別。
本實(shí)施例中在生成語(yǔ)音訓(xùn)練模型時(shí),將基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型與聲學(xué)模型相融合,得到融合后語(yǔ)音訓(xùn)練模型。
步驟S403:獲取語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征。
步驟S404:根據(jù)獲取的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音。
相應(yīng)的,接收到遠(yuǎn)場(chǎng)語(yǔ)音時(shí),將接收到的遠(yuǎn)場(chǎng)語(yǔ)音輸入到融合后語(yǔ)音訓(xùn)練模型中進(jìn)行遠(yuǎn)場(chǎng)語(yǔ)音到近場(chǎng)語(yǔ)音的轉(zhuǎn)換處理,并同時(shí)實(shí)現(xiàn)語(yǔ)音識(shí)別,實(shí)現(xiàn)參數(shù)連調(diào),其節(jié)約操作流程,處理效率更高。
步驟S405:通過(guò)融合后的語(yǔ)音訓(xùn)練模型對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音輸入進(jìn)行識(shí)別。
由于使用的是融合后的語(yǔ)音訓(xùn)練模型,通過(guò)融合后語(yǔ)音訓(xùn)練模型直接對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別,而不用再使用單獨(dú)的聲學(xué)模型來(lái)進(jìn)行識(shí)別了。
本發(fā)明實(shí)施例提供的技術(shù)方案,在訓(xùn)練基于網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型時(shí),進(jìn)行聲學(xué)模型的融合,后續(xù)得到近場(chǎng)語(yǔ)音后,通過(guò)融合后的基于網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型進(jìn)行語(yǔ)音識(shí)別。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供一種遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別處理裝置,該裝置可以設(shè)置在任意的語(yǔ)音設(shè)備中,對(duì)接收到的語(yǔ)音進(jìn)行處理,該裝置結(jié)構(gòu)如圖6所示,包括:接收模塊601、輸入模塊602、處理模塊603和識(shí)別模塊604。
接收模塊601,用于接收遠(yuǎn)場(chǎng)語(yǔ)音。
輸入模塊602,用于將接收到的遠(yuǎn)場(chǎng)語(yǔ)音輸入到預(yù)先訓(xùn)練得出的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型中。
處理模塊603,用于通過(guò)語(yǔ)音訓(xùn)練模型中包含的遠(yuǎn)場(chǎng)語(yǔ)音和近場(chǎng)語(yǔ)音的音頻特征,對(duì)接收到的遠(yuǎn)場(chǎng)語(yǔ)音的音頻特征進(jìn)行去干擾處理,得到處理后的遠(yuǎn)場(chǎng)語(yǔ)音。
識(shí)別模塊604,用于對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
優(yōu)選的,上述裝置還包括:訓(xùn)練模塊605,用于錄入近場(chǎng)語(yǔ)音,從錄入的近場(chǎng)語(yǔ)音中獲取近場(chǎng)音頻特征;在近場(chǎng)語(yǔ)音中加入遠(yuǎn)場(chǎng)語(yǔ)音的環(huán)境聲音,得到模擬遠(yuǎn)場(chǎng)語(yǔ)音;將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型。
優(yōu)選的,上述訓(xùn)練模塊605,具體用于將近場(chǎng)語(yǔ)音和模擬遠(yuǎn)場(chǎng)語(yǔ)音加入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練時(shí),采用中低層網(wǎng)絡(luò)特定訓(xùn)練的目標(biāo)函數(shù)進(jìn)行語(yǔ)音模型訓(xùn)練,具體包括:采用如下公式最小化整個(gè)數(shù)據(jù)庫(kù)的重建向量和純凈向量的平方誤差損失:
U是訓(xùn)練事件的總數(shù)量;
zi是第i個(gè)重建特征向量;
xi是對(duì)應(yīng)的純凈特征向量。
優(yōu)選的,上述訓(xùn)練模塊605,還用于:將基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音訓(xùn)練模型與聲學(xué)模型相融合,得到融合后語(yǔ)音訓(xùn)練模型;相應(yīng)的,
上述輸入模塊602,具體用于接收到遠(yuǎn)場(chǎng)語(yǔ)音時(shí),將所述遠(yuǎn)場(chǎng)語(yǔ)音輸入到融合后語(yǔ)音訓(xùn)練模型中。
優(yōu)選的,上述識(shí)別模塊604,具體用于將處理后的遠(yuǎn)場(chǎng)語(yǔ)音輸入到聲學(xué)模型中進(jìn)行識(shí)別;或通過(guò)融合后語(yǔ)音訓(xùn)練模型直接對(duì)處理后的遠(yuǎn)場(chǎng)語(yǔ)音進(jìn)行識(shí)別。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
本領(lǐng)域技術(shù)人員還可以了解到本發(fā)明實(shí)施例列出的各種說(shuō)明性邏輯塊(illustrative logical block),單元,和步驟可以通過(guò)電子硬件、電腦軟件,或兩者的結(jié)合進(jìn)行實(shí)現(xiàn)。為清楚展示硬件和軟件的可替換性(interchangeability),上述的各種說(shuō)明性部件(illustrative components),單元和步驟已經(jīng)通用地描述了它們的功能。這樣的功能是通過(guò)硬件還是軟件來(lái)實(shí)現(xiàn)取決于特定的應(yīng)用和整個(gè)系統(tǒng)的設(shè)計(jì)要求。本領(lǐng)域技術(shù)人員可以對(duì)于每種特定的應(yīng)用,可以使用各種方法實(shí)現(xiàn)所述的功能,但這種實(shí)現(xiàn)不應(yīng)被理解為超出本發(fā)明實(shí)施例保護(hù)的范圍。
本發(fā)明實(shí)施例中所描述的各種說(shuō)明性的邏輯塊,或單元都可以通過(guò)通用處理器,數(shù)字信號(hào)處理器,專用集成電路(ASIC),現(xiàn)場(chǎng)可編程門(mén)陣列或其它可編程邏輯裝置,離散門(mén)或晶體管邏輯,離散硬件部件,或上述任何組合的設(shè)計(jì)來(lái)實(shí)現(xiàn)或操作所描述的功能。通用處理器可以為微處理器,可選地,該通用處理器也可以為任何傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以通過(guò)計(jì)算裝置的組合來(lái)實(shí)現(xiàn),例如數(shù)字信號(hào)處理器和微處理器,多個(gè)微處理器,一個(gè)或多個(gè)微處理器聯(lián)合一個(gè)數(shù)字信號(hào)處理器核,或任何其它類似的配置來(lái)實(shí)現(xiàn)。
本發(fā)明實(shí)施例中所描述的方法或算法的步驟可以直接嵌入硬件、處理器執(zhí)行的軟件模塊、或者這兩者的結(jié)合。軟件模塊可以存儲(chǔ)于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤(pán)、可移動(dòng)磁盤(pán)、CD-ROM或本領(lǐng)域中其它任意形式的存儲(chǔ)媒介中。示例性地,存儲(chǔ)媒介可以與處理器連接,以使得處理器可以從存儲(chǔ)媒介中讀取信息,并可以向存儲(chǔ)媒介存寫(xiě)信息。可選地,存儲(chǔ)媒介還可以集成到處理器中。處理器和存儲(chǔ)媒介可以設(shè)置于ASIC中,ASIC可以設(shè)置于用戶終端中??蛇x地,處理器和存儲(chǔ)媒介也可以設(shè)置于用戶終端中的不同的部件中。
在一個(gè)或多個(gè)示例性的設(shè)計(jì)中,本發(fā)明實(shí)施例所描述的上述功能可以在硬件、軟件、固件或這三者的任意組合來(lái)實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn),這些功能可以存儲(chǔ)與電腦可讀的媒介上,或以一個(gè)或多個(gè)指令或代碼形式傳輸于電腦可讀的媒介上。電腦可讀媒介包括電腦存儲(chǔ)媒介和便于使得讓電腦程序從一個(gè)地方轉(zhuǎn)移到其它地方的通信媒介。存儲(chǔ)媒介可以是任何通用或特殊電腦可以接入訪問(wèn)的可用媒體。例如,這樣的電腦可讀媒體可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盤(pán)存儲(chǔ)、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)裝置,或其它任何可以用于承載或存儲(chǔ)以指令或數(shù)據(jù)結(jié)構(gòu)和其它可被通用或特殊電腦、或通用或特殊處理器讀取形式的程序代碼的媒介。此外,任何連接都可以被適當(dāng)?shù)囟x為電腦可讀媒介,例如,如果軟件是從一個(gè)網(wǎng)站站點(diǎn)、服務(wù)器或其它遠(yuǎn)程資源通過(guò)一個(gè)同軸電纜、光纖電纜、雙絞線、數(shù)字用戶線(DSL)或以例如紅外、無(wú)線和微波等無(wú)線方式傳輸?shù)囊脖话谒x的電腦可讀媒介中。所述的碟片(disk)和磁盤(pán)(disc)包括壓縮磁盤(pán)、鐳射盤(pán)、光盤(pán)、DVD、軟盤(pán)和藍(lán)光光盤(pán),磁盤(pán)通常以磁性復(fù)制數(shù)據(jù),而碟片通常以激光進(jìn)行光學(xué)復(fù)制數(shù)據(jù)。上述的組合也可以包含在電腦可讀媒介中。
以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。