專利名稱:一種嵌入式語音情感識別方法及裝置的制作方法
技術領域:
本發(fā)明專利涉及一種語 音情感識別技術,尤其涉及一種嵌入式語音情感識別方法及裝置,屬于語音情感識別技術領域。
背景技術:
自動語音情感識別技術屬于IT行業(yè)比較邊緣的技術。語音作為人與人之間的交流媒介,攜帶著豐富的情感信息。情感在人類的感知、決策等過程扮演著重要角色,在人類交流中具有重要作用。隨著科技的發(fā)展,人機交流在人們的日常生活中也越來越重要。利用語音進行自然、和諧的人機交互是人們一直以來的奮斗目標。語音情感識別是和諧人機交互的一個重要內(nèi)容,它將有效地改變過去呆板的人機交互服務,提高人機交互的親切性和準確性。語音情感識別作為語音識別的一種補充,能夠增強人與機器的情感交互,在遠程教學、輔助測謊、自動遠程電話服務中心以及臨床醫(yī)學,智能玩具,智能手機等方面有著廣闊的應用前景。嵌入式語音情感識別技術,特指在電腦以外的獨立裝置上運行的情感識別技術,尤其是應用于語音玩具、智能寵物及其它嵌入式產(chǎn)品上的技術。傳統(tǒng)的語音產(chǎn)品要求用戶以近乎中性的方式發(fā)出語音命令,帶強烈情感色彩的語音反而會影響語音識別效果,有時候這種苛刻而且不夠人性化的條件會打消用戶的積極性,這是現(xiàn)在語音產(chǎn)品的一大缺陷。將情感融入到語音產(chǎn)品中去,可以在語音產(chǎn)品的使用上給予用戶更大的自由度,提升用戶體驗,這也是智能交互語音產(chǎn)品發(fā)展的一大方向。以智能交互語音玩具為例,如果智能交互玩具能夠識別用戶語音中的情感,對語音中不同的情感做出不同的回應,可以從一定程度上改善了電子玩具不夠人性化的缺點,增強玩具使用的親和性、趣味性。推而廣之,嵌入式語音情感識別技術可以實現(xiàn)人與機器更好的交流與互動。顯然,這種需求在當前的社會上是存在的,但是目前還未見國內(nèi)市場上推出帶情感識別功能的嵌入式產(chǎn)品,不能不說是一大遺憾。
發(fā)明內(nèi)容
本發(fā)明解決的問題是為克服傳統(tǒng)語音情感識別在非特定人時識別率不高的缺陷,同時為解決市面上缺乏具有良好人機交互功能的語音情感識別裝置的問題,結合以上背景和需求,本發(fā)明提供一種嵌入式語音情感識別方法及其裝置,這種系統(tǒng)能夠在小型嵌入式設備中識別說話人的平靜、高興、生氣、害怕、平靜等情感,根據(jù)說話人語音攜帶的不同情感采取不同的操作。本發(fā)明的技術解決方案是I、一種嵌入式語音情感識別方法,包括以下步驟步驟I :接收待識別的情感語音片斷輸入;步驟2 :對待識別的情感語音片斷數(shù)字化以提供數(shù)字語音信號;步驟3 :對待識別的情感數(shù)字語音信號X(η)進行預處理,包括預加重、分幀、加窗、端點檢測步驟3. I :對待識別的情感數(shù)字語音信號X (η)按下面進行預加重
權利要求
1.一種嵌入式語音情感識別方法,其特征在于,包括以下步驟 步驟I:接收待識別的情感語音片斷輸入; 步驟2 :對待識別的情感語音片斷數(shù)字化以提供數(shù)字語音信號; 步驟3 :對待識別的情感數(shù)字語音信號X(η)進行預處理,包括預加重、分幀、加窗、端點檢測 步驟3. I :對待識別的情感數(shù)字語音信號X (η)按下面進行預加重X(n) = X{r>)-aX(n-l)(I) 式中α =0. 9375,η表示待識別的情感數(shù)字語音離散點序號; 步驟3. 2 :采用交疊分段的方法進行分幀,前一幀與后一幀之間有交疊的部分,稱為幀移,此處幀移取7ms,即在11. 025kHz采樣率下取80個點,每一幀長取23ms,即取256個點;步驟3. 3 :選擇漢明窗對語音信號進行加窗處理,窗口函數(shù)如下
2.根據(jù)權利要求I所述的嵌入式語音情感識別方法,其特征是,步驟4中對經(jīng)過預處理的數(shù)字語音提取語音特征參數(shù)采用如下方法 步驟4. I:在時域信號X(n')后增補0,使得增補O后的序列的長度為N',使N'為2的整數(shù)次冪,然后經(jīng)過離散傅立葉變換DFT后得到線性頻譜X (k),轉(zhuǎn)換公式為
3.根據(jù)權利要求I所述的嵌入式語音情感識別方法,其特征在于,所述的說話人識別模型訓練方法包括以下步驟 步驟5. I :接收各說話人訓練語音片斷輸入; 步驟5. 2 :對說話人訓練語音片斷數(shù)字化以提供數(shù)字語音信號X(Ii1),其中Ii1表示說話人訓練數(shù)字語音離散點序號; 步驟5. 3 :采用步驟3所述的預處理,對數(shù)字語音信號X(Ii1)進行預處理,包括預加重、分幀、加窗、端點檢測,得到說話人訓練數(shù)字語音信號X(n/ ); 步驟5. 4 :對經(jīng)過預處理的數(shù)字語音X (n/ )提取語音特征參數(shù),該特征參數(shù)為12維美爾頻率倒譜系數(shù); 步驟5. 5 :利用步驟4提取的語音特征參數(shù)來訓練說話人識別模型,具體步驟如下 步驟5. 5. I :設置說話人識別模型的的混合高斯模型的階數(shù)為4 ; 步驟5. 5. 2 :用K均值方法(kmeans)初始化說話人識別模型,得到各高斯分布的初始化參數(shù)均值向量μ k,協(xié)方差矩陣Σ k,混合分量權值ck,其表示第k個說話人對應的初始化子模型參數(shù); 步驟5. 5. 3 :設第c個說話人訓練語音的第t個特征參數(shù)Xct為 |/ = LA J-C= I,A ,('!,其中T。表示第c個說話人訓練語音的幀數(shù),C表示訓練樣本的總數(shù),按照下面的公式對高斯分布的初始化參數(shù)進行重新估計,令e=i,l,f=i,其中m示對應的說話人,得到各說話人識別子模型參數(shù)
4.根據(jù)權利要求I所述的嵌入式語音情感識別方法,其特征在于,所述的與語音情感識別模型庫的訓練方法包括以下步驟 步驟7. I :接收I個說話人情感訓練語音片斷輸入; 步驟7.2 :對情感訓練語音片斷數(shù)字化以提供數(shù)字語音信號Χ(η2),其中112表示情感訓練數(shù)字語音離散點序號; 步驟7. 3 :采用步驟3所述的預處理,對情感訓練數(shù)字語音信號X (η)進行處理,得到情感訓練數(shù)字語音信號Χ(η' 2); 步驟7. 4 :對經(jīng)過預處理的數(shù)字語音提取語音特征參數(shù),該特征參數(shù)為12維美爾頻率倒譜系數(shù); 步驟7. 5 :利用步驟4提取的語音情感特征參數(shù)來訓練語音情感模型,具體步驟如下 步驟7. 5. I :設置語音情感識別模型的的混合高斯模型的階數(shù)為10 ; 步驟7. 5. 2 :用K均值方法kmeans初始化語音情感識別模型的的各高斯分布的均值向量μ' k',協(xié)方差矩陣Σ' k',混合分量權值c' k'; 步驟7. 5. 3:采用步驟5. 3所述的情感訓練語音,設第c'個情感訓練語音的第t'個特征參數(shù)為IV / c/ It' =1,L,T' e;c' =1,L,C' },其中T'。表示第c'個情感訓練語音的幀數(shù),C1表示情感訓練語音樣本總數(shù),按照下面的公式對混合高斯模型參數(shù)進行重新估計,令k' =l,L,k' =K',形成訓練好的與該說話人對應的語音情感識別模型,并建立與該說話人對應的文件夾,其中k'表示情感語音對應的情感,即該說話人情感識別模型包含K'個情感子模型
5.一種權利要求書I所述的嵌入式語音情感識別方法的運行裝置,該裝置主要包括中央處理器(101 )、電源(102)、時鐘發(fā)生器(103)、Nand型閃存(104)、Nor型閃存105)、音頻編解碼芯片(106)、話筒(107)、揚聲器(108)、鍵盤(109)、液晶顯示器(110)、通用串型總線接口大容量存儲設備(111),其特征是,所述Nor型閃存(105)保存裝置的操作系統(tǒng),文件系統(tǒng),引導加載模塊,所述中央處理器(101)米用基于ARM架構的32位嵌入式微處理器為內(nèi)核,所述Nand型閃存(104)保存語音識別方法的軟件實現(xiàn),包括語音預處理方法、特征提取方法、情感模型訓練模塊、高斯混合模型情感識別模型;所述通用串型總線接口大容量存儲設備(111)保存包括音樂、圖片的資源文件。
6.根據(jù)權利要求7所述的嵌入式語音情感識別裝置,其特征在于,所述Nand型閃存(104)、Nor型閃存105)通過外部總線接口與中央處理器(101)相連;所述時鐘發(fā)生器 (103)與中央處理器(101)相連,提供時鐘頻率;所述音頻編解碼芯片(106)通過音頻接口與中央處理器(101)相連;所述液晶顯示器(110)通過液晶控制接口與中央處理器(101)相連;所述鍵盤(109)通過輸入接口與與中央處理器(101)相連;所述通用串型總線接口大容量存儲設備(111)通過通用串行總線接口與中央處理器(101)相連;所述話筒(107)、揚聲器(108)通過接口與音頻編解碼芯片(106)相連。
7.根據(jù)權利要求7所述的嵌入式語音情感識別裝置,其特征在于,該裝置包含兩種工作模式,分別為訓練模式和識別模式,兩種工作模式的選擇由權利8所述小鍵盤裝置(109)來控制,整個過程步驟如下 步驟I :接收小鍵盤裝置(109)的按鍵輸入,判斷是否輸入為識別模式,是識別模式則進入步驟2,是訓練模式則進入步驟13 ; 步驟2 :利用話筒107接收語音片斷輸入; 步驟2 :利用音頻編解碼芯片(106)對語音片斷數(shù)字化以提供數(shù)字語音信號; 步驟3 :對數(shù)字語音信號進行預處理,包括預加重、分幀、加窗、端點檢測; 步驟4 :對經(jīng)過預處理的數(shù)字語音提取語音特征參數(shù),該特征參數(shù)為12維美爾頻率倒譜系數(shù); 步驟5 :將提取的語音特征參數(shù)輸入到已經(jīng)訓練好說話人識別模型中,確定哪一個說話人是該語音片斷的一個最佳匹配; 步驟6 :根據(jù)判定結果,來確定哪種情感是該語音片斷的一個最佳匹配。
步驟7 :如識別結果為平靜,首先通過裝置IXD (110)顯示表征結果的圖片及漢字“平靜”,然后揚聲器(108)播放通用串型總線接口大容量存儲設備(111)中對應的音頻文件; 步驟8 :如識別結果為高興,首先通過裝置IXD (110)顯示表征結果的圖片及漢字“高興”,然后揚聲器(108)播放存通用串型總線接口大容量存儲設備(111)中對應的音頻文件; 步驟9:如識別結果為悲傷,首先通過裝置IXD (110)顯示表征結果的圖片及漢字“悲傷”,然后揚聲器(108)播放通用串型總線接口大容量存儲設備(111)中對應的音頻文件; 步驟10 :如識別結果為悲傷,首先通過裝置IXD (110)顯示表征結果的圖片及漢字“生 氣”,然后揚聲器(108)播放通用串型總線接口大容量存儲設備(111)中對應的音頻文件;步驟11 :如識別結果為害怕,首先通過裝置IXD (110)顯示表征結果的圖片及漢字“害怕”,然后揚聲器(108)播放通用串型總線接口大容量存儲設備(111)中對應的音頻文件;步驟12 :接收小鍵盤裝置(109)的按鍵輸入,判斷為哪種訓練模式,為整批訓練模式則進入步驟13,為及時訓練模式則進入步驟14 ; 步驟13 :裝置進入整批訓練流程; 步驟13. I :接收語音片斷輸入,并判斷是否到達整批訓練的數(shù)量設定值,是則進入步驟13. 2,否則重新進入步驟13. I ; 步驟13. 2 :對輸入的語音進行預處理; 步驟13. 3 :對經(jīng)過預處理的語音提取語音特征參數(shù);、 步驟13. 4 :訓練說話人識別模型; 步驟13. 5 :訓練語音情感識別模型庫; 步驟14 :裝置進入即時訓練流程; 步驟14. I :接收I條語音片斷輸入; 步驟14. 2 :對輸入的I條語音進行預處理; 步驟14. 3 :對經(jīng)過預處理的I條語音提取語音特征參數(shù); 步驟13. 4 :訓練說話人識別模型; 步驟13. 5 :訓練語音情感識別模型庫。
全文摘要
本發(fā)明涉及一種嵌入式語音情感識別方法及裝置。所述方法包括特征提取方法、情感模型訓練方法、高斯混合模型、情感識別方法。該方法根據(jù)說話人模塊的識別結果來自適應的調(diào)整語音情感識別模型的參數(shù),將非特定人語音情感識別問題轉(zhuǎn)化為特定人語音情感識別問題。所述裝置包括中央處理器、電源、時鐘發(fā)生器、Nand Flash存儲器、Nor Flash存儲器、音頻編解碼芯片、話筒、揚聲器、鍵盤、LCD顯示器、USB接口存儲器。本發(fā)明在語音情感識別中加入說話人識別模型,解決了語音情感識別在非特定人的情況下識別率急劇下降的問題,同時使裝置具有身份辨識功能。
文檔編號G10L15/00GK102737629SQ20111035867
公開日2012年10月17日 申請日期2011年11月11日 優(yōu)先權日2011年11月11日
發(fā)明者倪道宏, 劉海彬, 祖暉, 章國寶, 董飛, 黃永明 申請人:東南大學