本發(fā)明涉及一種基于信息解耦的跨方言語音識別方法、系統(tǒng)和設(shè)備,屬于語音識別領(lǐng)域。
背景技術(shù):
1、中國專利申請(公布號cn117894295a)提出一種語音識別方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括:對待識別語音的第一語音特征進行設(shè)定級別的特征提取處理,得到設(shè)定級別的語音特征;設(shè)定級別包括:幀級別和/或片段級別;基于設(shè)定級別的語音特征,預(yù)測待識別語音的屬性信息,屬性信息包括:方言類型信息和語音距離信息中的至少一種;基于第一語音特征、設(shè)定級別的語音特征和待識別語音的屬性信息,預(yù)測待識別語音的語音識別結(jié)果。采用本技術(shù)的技術(shù)方案,能夠預(yù)先預(yù)測出語音的方言類型信息和語音距離信息,直接基于預(yù)測出的方言類型信息和/或語音距離信息進行語音識別,無需手動切換方言包以及語音距離的識別模塊,提高了語音識別的便捷性。
2、上述方案沒有考慮口音(發(fā)音)對語音識別系統(tǒng)的影響,并且口音信息嵌入通常會與其他語音屬性交織在一起,從而影響語音識別系統(tǒng)的性能,導(dǎo)致語音識別系統(tǒng)的識別準確率較低,特別是對于非母語人士的重音語音,現(xiàn)有語音識別系統(tǒng),很難準確識別。
3、本背景技術(shù)中公開的信息僅用于理解本發(fā)明構(gòu)思的背景,因此它可以包括不構(gòu)成現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)思路
1、針對上述問題或上述問題之一,本發(fā)明的目的一在于提供一種基于信息解耦的跨方言語音識別方法、系統(tǒng)和設(shè)備,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入,從而可以將說話人信息,語義信息和方言信息解耦,從而可以有效避免口音嵌入與其他語音屬性交織在一起,因而可以獲得更精確的方言特征;同時在方言適配階段,使用提取的方言發(fā)音嵌入幫助模型學(xué)習(xí)方言語音,進而能夠有效提高對多方言的泛化能力,提高識別準確率。
2、針對上述問題或上述問題之一,本發(fā)明的目的二在于提供一種基于信息解耦的跨方言語音識別方法、系統(tǒng)和設(shè)備,可以有效提取口音嵌入,而無需任何特定說話人的信息,因而可以有效提高跨方言語音識別模型的性能,有著更低的詞錯誤率。
3、為實現(xiàn)上述目的之一,本發(fā)明的第一種技術(shù)方案為:
4、一種基于信息解耦的跨方言語音識別方法,包括以下步驟:
5、步驟一,通過預(yù)先構(gòu)建的信息采集模型,獲取說話人信息;
6、步驟二,利用預(yù)先構(gòu)建的方言解耦模型,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入;
7、步驟三,采用預(yù)先構(gòu)建的方言拼接模型,將方言發(fā)音嵌入與方言樣本進行拼接,得到方言發(fā)音特征數(shù)據(jù);
8、步驟四,基于預(yù)先構(gòu)建的語音識別模型,對方言發(fā)音特征數(shù)據(jù)進行方言適配,完成基于信息解耦的跨方言語音識別。
9、本發(fā)明經(jīng)過不斷探索以及試驗,通過構(gòu)建信息采集模型、方言解耦模型、方言拼接模型、語音識別模型,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入,從而可以將說話人信息,語義信息和方言信息解耦,從而可以有效避免口音嵌入與其他語音屬性交織在一起,因而可以獲得更精確的方言特征;同時在方言適配階段,使用提取的方言發(fā)音嵌入幫助模型學(xué)習(xí)方言語音。相較于傳統(tǒng)方言識別方法,本發(fā)明提取的方言發(fā)音的特征,能夠有效提高對多方言的泛化能力,提高識別準確率。
10、進一步,本發(fā)明可以有效提取口音(發(fā)音)嵌入,而無需任何特定說話人的信息,因而可以有效提高跨方言語音識別模型的性能,特別適用于非母語人士的重音語音識別。
11、更進一步,應(yīng)用本發(fā)明在commonvoice數(shù)據(jù)集上進行的實驗,實驗結(jié)果表明,本發(fā)明提出的方法較原始方言語音識別有著更低的詞錯誤率。
12、作為優(yōu)選技術(shù)措施:
13、步驟二,利用預(yù)先構(gòu)建的方言解耦模型,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入的方法如下:
14、利用梅爾濾波器,將說話人信息轉(zhuǎn)為離散信號,并保留語音語義信息,得到語音頻譜信號;
15、通過先期創(chuàng)建的說話人編碼器,利用神經(jīng)網(wǎng)絡(luò)算法從語音頻譜信號中提取特征信息,并生成說話人特征向量;
16、基于梯度反轉(zhuǎn)層,對說話人特征向量的梯度進行逆向,得到說話人逆向信息;
17、通過先期創(chuàng)建的方言編碼器,利用對抗訓(xùn)練算法對語音頻譜信號進行聚類訓(xùn)練,并基于說話人逆向信息,得到方言發(fā)音嵌入。
18、作為優(yōu)選技術(shù)措施:
19、說話人編碼器的創(chuàng)建方法如下:
20、構(gòu)建一個線性層和一個softmax層去計算每一個說話人嵌入si的概率分布;
21、根據(jù)概率分布,建立說話人分類損失函數(shù);
22、
23、其中l(wèi)ogp(li∣si)是說話人嵌入si屬于說話人li的概率;
24、基于說話人分類損失函數(shù),設(shè)置聲紋模型ecapa-tdnn;
25、利用語音數(shù)據(jù)集voxceleb?2對聲紋模型ecapa-tdnn進行預(yù)訓(xùn)練,并得到權(quán)重信息;
26、根據(jù)權(quán)重信息,初始化聲紋模型ecapa-tdnn,得到說話人編碼器。
27、作為優(yōu)選技術(shù)措施:
28、方言編碼器的創(chuàng)建方法如下:
29、使用gst模型創(chuàng)建方言編碼器的架構(gòu),并設(shè)置基向量的個數(shù);
30、對語音頻譜信號進行k-means聚類,并設(shè)定聚類個數(shù),得到聚類中心;
31、計算每個聚類中心的聚類值,得到聚類數(shù)組;
32、利用聚類數(shù)組,初始化每個基向量,并進行方言編碼器訓(xùn)練,得到方言特征向量;
33、將方言特征向量作為方言發(fā)音嵌入,完成方言編碼器的創(chuàng)建。
34、作為優(yōu)選技術(shù)措施:
35、說話人編碼器的訓(xùn)練目標是使說話人編碼能夠被說話人分類器判別,使用說話人分類器損失對其優(yōu)化;
36、或/和,方言編碼器訓(xùn)練的方法為mtl、xvectoremb、ours-a、ours-b和ours-a&b。
37、作為優(yōu)選技術(shù)措施:
38、通過先期創(chuàng)建的方言編碼器,利用對抗訓(xùn)練算法對語音頻譜信號進行聚類訓(xùn)練,并基于說話人逆向信息,得到方言發(fā)音嵌入的方法如下:
39、基于方言發(fā)音變量ai由說話人yi的語音頻譜信號中抽取得到的概率,建立對抗損失函數(shù);
40、最小化對抗損失函數(shù),移除語音頻譜信號中的方言發(fā)音變量;
41、基于說話人嵌入以及方言發(fā)音變量ai,建立正交損失函數(shù),用于監(jiān)督方言發(fā)音嵌入與說話人嵌入相互正交,使得方言發(fā)音嵌入與說話人嵌入互不相關(guān);
42、根據(jù)對抗損失函數(shù)、正交損失函數(shù)和說話人分類損失函數(shù),建立總優(yōu)化目標;
43、利用對抗訓(xùn)練算法,并基于總優(yōu)化目標以及說話人逆向信息,對對語音頻譜信號進行聚類訓(xùn)練,得到方言發(fā)音嵌入。
44、作為優(yōu)選技術(shù)措施:
45、對抗損失函數(shù)的計算公式如下:
46、
47、其中l(wèi)ogp(yi∣ai)是方言發(fā)音嵌入ai由說話人yi的語音樣本中抽取得到的概率;
48、或/和,正交損失函數(shù)的計算公式如下:
49、
50、其中為弗羅貝尼烏斯范數(shù);
51、或/和,總優(yōu)化目標ldm的表達式如下:
52、ldm=lsc+αlort+βladv
53、其中,lsc為說話人分類損失函數(shù);α、β為相關(guān)系數(shù);lort為正交損失函數(shù);ladv為對抗損失函數(shù)。
54、為實現(xiàn)上述目的之一,本發(fā)明的第二種技術(shù)方案為:
55、一種基于信息解耦的跨方言語音識別方法,包括以下內(nèi)容:
56、首先,獲取說話人信息;
57、然后,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入;
58、再將方言發(fā)音嵌入集成到編碼器上,或?qū)⒎窖园l(fā)音嵌入集成到解碼器上,進行方言適配,得到方言發(fā)音特征數(shù)據(jù);
59、最后,基于方言發(fā)音特征數(shù)據(jù),對待識別的方言語音進行識別,得到語音識別信息,完成基于信息解耦的跨方言語音識別。
60、本發(fā)明經(jīng)過不斷探索以及試驗,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入,從而可以將說話人信息,語義信息和方言信息解耦,從而可以有效避免口音嵌入與其他語音屬性交織在一起,因而可以獲得更精確的方言特征;同時在方言適配階段,使用提取的方言發(fā)音嵌入幫助模型學(xué)習(xí)方言語音。相較于傳統(tǒng)方言識別方法,本發(fā)明提取的方言發(fā)音的特征,能夠有效提高對多方言的泛化能力,提高識別準確率。
61、進一步,本發(fā)明可以有效提取口音嵌入,而無需任何特定說話人的信息,因而可以有效提高跨方言語音識別模型的性能。
62、為實現(xiàn)上述目的之一,本發(fā)明的第三種技術(shù)方案為:
63、一種基于信息解耦的跨方言語音識別系統(tǒng),包括信息采集模塊、方言解耦模塊、方言拼接模塊和語音識別模塊;
64、信息采集模塊,用于獲取說話人信息;
65、方言解耦模塊,用于將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入;
66、方言拼接模塊,用于將方言發(fā)音嵌入與方言樣本進行拼接,得到方言發(fā)音特征數(shù)據(jù);
67、語音識別模塊,用于對方言發(fā)音特征數(shù)據(jù)進行方言適配,完成基于信息解耦的跨方言語音識別。
68、本發(fā)明經(jīng)過不斷探索以及試驗,通過設(shè)置信息采集模塊、方言解耦模塊、方言拼接模塊、語音識別模塊,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入,從而可以將說話人信息,語義信息和方言信息解耦,從而可以有效避免口音嵌入與其他語音屬性交織在一起,因而可以獲得更精確的方言特征;同時在方言適配階段,使用提取的方言發(fā)音嵌入幫助模塊學(xué)習(xí)方言語音。相較于傳統(tǒng)方言識別方法,本發(fā)明提取的方言發(fā)音的特征,能夠有效提高對多方言的泛化能力,提高識別準確率。
69、為實現(xiàn)上述目的之一,本發(fā)明的第四種技術(shù)方案為:
70、一種電子設(shè)備,其包括:
71、一個或多個處理器;
72、存儲裝置,用于存儲一個或多個程序;
73、當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)上述的一種基于信息解耦的跨方言語音識別方法。
74、與現(xiàn)有技術(shù)方案相比,本發(fā)明具有以下有益效果:
75、本發(fā)明經(jīng)過不斷探索以及試驗,將說話人信息從方言發(fā)音嵌入中解耦,獲得說話人無關(guān)的方言發(fā)音嵌入,從而可以將說話人信息,語義信息和方言信息解耦,從而可以有效避免口音嵌入與其他語音屬性交織在一起,因而可以獲得更精確的方言特征;同時在方言適配階段,使用提取的方言發(fā)音嵌入幫助模型學(xué)習(xí)方言語音。
76、相較于傳統(tǒng)方言識別方法,本發(fā)明提取的方言發(fā)音的特征,能夠有效提高對多方言的泛化能力,提高識別準確率。
77、進一步,本發(fā)明可以有效提取口音嵌入,而無需任何特定說話人的信息,因而可以有效提高跨方言語音識別模型的性能。
78、更進一步,應(yīng)用本發(fā)明在commonvoice數(shù)據(jù)集上進行的實驗,實驗結(jié)果表明,本發(fā)明提出的方法較原始方言語音識別有著更低的詞錯誤率。