本發(fā)明屬于語音識(shí)別技術(shù)領(lǐng)域,涉及一種語音識(shí)別方法,具體是一種基于用戶行為特征的語音識(shí)別方法。
背景技術(shù):
隨著通信技術(shù)的發(fā)展,終端集成了越來越多的功能,從而使得終端的系統(tǒng)功能列表中包含了越來越多相應(yīng)的應(yīng)用程序,例如,電腦中安裝的應(yīng)用程序,第三方智能手機(jī)中安裝的應(yīng)用程序(App l i cat i on,APP)等。有些應(yīng)用程序中會(huì)涉及一些語音識(shí)別服務(wù),例如,QQ、微信等即時(shí)通信軟件中的語音輸入、百度地圖中的語音輸入等?,F(xiàn)有技術(shù)中,語音處理引擎可以利用所接收到的語音數(shù)據(jù)作為輸入,運(yùn)行語音模型,以獲得識(shí)別結(jié)果。
然而,由于每個(gè)用戶表達(dá)同一件事情的方式和用詞都不一樣,同時(shí)不同用戶的聲音也存在一定的差異性,因此,采用已有的語音模型進(jìn)行語音識(shí)別,會(huì)導(dǎo)致某些用戶的語音識(shí)別準(zhǔn)確率降低,從而導(dǎo)致了語音識(shí)別的可靠性的降低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種對(duì)用戶行為進(jìn)行數(shù)據(jù)采集和分析,進(jìn)一步優(yōu)化語音模型,實(shí)現(xiàn)自學(xué)習(xí)功能的基于用戶行為特征的語音識(shí)別方法。
本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):
一種基于用戶行為特征的語音識(shí)別方法,包括以下步驟:
步驟S1,首先,語音識(shí)別終端使用語音采集設(shè)備采集用戶音頻數(shù)據(jù),上傳至在線語音識(shí)別服務(wù)器;
步驟S2,在線語音識(shí)別服務(wù)器對(duì)用戶的音頻數(shù)據(jù)進(jìn)行處理,結(jié)合該用戶的信息,進(jìn)一步分析得到用戶的行為習(xí)慣和聲音特征;
其中,所述的用戶行為習(xí)慣包括用戶說話的語法習(xí)慣和用詞習(xí)慣;
步驟S3,在線語音識(shí)別服務(wù)器根據(jù)每個(gè)用戶不同的行為習(xí)慣生成更加符合該用戶行為習(xí)慣的語法規(guī)則和命令詞庫,推送給語音識(shí)別終端;
步驟S4,語音識(shí)別終端根據(jù)接收到新的語法規(guī)則和命令詞庫對(duì)現(xiàn)有的語法規(guī)則和命令詞庫進(jìn)行調(diào)整,用戶再次使用時(shí)采用新的語法規(guī)則和命令詞庫;
步驟S5,在線語音識(shí)別服務(wù)器將用戶聲音特征進(jìn)一步轉(zhuǎn)換為用戶的聲音特征模型,推送到語音識(shí)別終端;
步驟S6,語音識(shí)別終端根據(jù)接收到的用戶聲音特征模型對(duì)本地聲音特征模型進(jìn)行更新。
進(jìn)一步地,所述的在線語音識(shí)別服務(wù)器對(duì)用戶音頻數(shù)據(jù)的處理包括對(duì)音頻數(shù)據(jù)的識(shí)別處理和對(duì)音頻數(shù)據(jù)的信號(hào)處理。
進(jìn)一步地,所述的對(duì)音頻數(shù)據(jù)的識(shí)別處理包括以下步驟:
步驟S211,將音頻數(shù)據(jù)通過語音識(shí)別轉(zhuǎn)換為文本信息;
步驟S212,識(shí)別出文本信息中的關(guān)鍵字;
步驟S213,根據(jù)識(shí)別出的關(guān)鍵字,采用預(yù)定策略的方法、神經(jīng)網(wǎng)絡(luò)的方法、模糊查詢的方法或關(guān)聯(lián)分析的方法分析出用戶的行為習(xí)慣信息。
進(jìn)一步地,所述的對(duì)音頻數(shù)據(jù)的信號(hào)處理包括以下步驟:
步驟S221,將音頻數(shù)據(jù)轉(zhuǎn)換成與該音頻對(duì)應(yīng)的數(shù)據(jù)模型;
步驟S222,對(duì)該音頻數(shù)據(jù)模型進(jìn)行分析,抽取形成用戶聲音特征。
本發(fā)明的有益效果:本發(fā)明提供了一種基于用戶行為特征的語音識(shí)別方法,先通過語音識(shí)別終端采集到的用戶語音數(shù)據(jù)并發(fā)送到服務(wù)器進(jìn)行處理分析,結(jié)合該用戶的信息,分析得到用戶的行為習(xí)慣和聲音特征,根據(jù)每個(gè)用戶不同的行為習(xí)慣生成更加符合該用戶行為習(xí)慣的語法規(guī)則和命令詞庫,根據(jù)每個(gè)用戶的聲音特征生成聲音特征模型,對(duì)語音識(shí)別終端的語法規(guī)則、命令詞庫以及聲音特征模型進(jìn)行調(diào)整更新,進(jìn)一步優(yōu)化語音模型,實(shí)現(xiàn)自學(xué)習(xí)功能,使得每個(gè)用戶都有更加個(gè)性化的、符合自己行為習(xí)慣的體驗(yàn),保證語音識(shí)別的準(zhǔn)確率,提高語音識(shí)別的可靠性。
附圖說明
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
圖1是本發(fā)明的流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明提供了一種基于用戶行為特征的語音識(shí)別方法,通過對(duì)用戶行為進(jìn)行數(shù)據(jù)采集和分析,進(jìn)一步優(yōu)化語音模型,實(shí)現(xiàn)自學(xué)習(xí)功能,包括以下步驟:
步驟S1,首先,語音識(shí)別終端使用語音采集設(shè)備采集用戶音頻數(shù)據(jù),上傳至在線語音識(shí)別服務(wù)器;其中,語音采集設(shè)備可使用麥克風(fēng)、語音鼠標(biāo)等,在線語音識(shí)別服務(wù)器使用訊飛在線語音識(shí)別服務(wù)器。
步驟S2,在線語音識(shí)別服務(wù)器對(duì)用戶的音頻數(shù)據(jù)進(jìn)行處理,結(jié)合該用戶的信息,進(jìn)一步分析得到用戶的行為習(xí)慣和聲音特征;其中,用戶行為習(xí)慣包括用戶說話的語法習(xí)慣和用詞習(xí)慣。
在線語音識(shí)別服務(wù)器對(duì)用戶音頻數(shù)據(jù)的處理包括對(duì)音頻數(shù)據(jù)的識(shí)別處理和對(duì)音頻數(shù)據(jù)的信號(hào)處理。
其中,對(duì)音頻數(shù)據(jù)的識(shí)別處理包括:
步驟S211,將音頻數(shù)據(jù)通過語音識(shí)別轉(zhuǎn)換為文本信息。
步驟S212,識(shí)別出文本信息中的關(guān)鍵字。
步驟S213,根據(jù)識(shí)別出的關(guān)鍵字,采用預(yù)定策略的方法、神經(jīng)網(wǎng)絡(luò)的方法、模糊查詢的方法或關(guān)聯(lián)分析的方法分析出用戶的行為習(xí)慣信息。
其中,對(duì)音頻數(shù)據(jù)的信號(hào)處理包括:
步驟S221,將音頻數(shù)據(jù)轉(zhuǎn)換成與該音頻對(duì)應(yīng)的數(shù)據(jù)模型。
步驟S222,對(duì)該音頻數(shù)據(jù)模型進(jìn)行分析,抽取形成用戶聲音特征。
步驟S3,在線語音識(shí)別服務(wù)器根據(jù)每個(gè)用戶不同的行為習(xí)慣生成更加符合該用戶行為習(xí)慣的語法規(guī)則和命令詞庫,推送給語音識(shí)別終端;其中,語法規(guī)則使用BNF或ABNF進(jìn)行描述。
步驟S4,語音識(shí)別終端根據(jù)接收到新的語法規(guī)則和命令詞庫對(duì)現(xiàn)有的語法規(guī)則和命令詞庫進(jìn)行調(diào)整,用戶再次使用時(shí)采用新的語法規(guī)則和命令詞庫,得到更加符合該用戶行為習(xí)慣的結(jié)果。
步驟S5,在線語音識(shí)別服務(wù)器將用戶聲音特征進(jìn)一步轉(zhuǎn)換為用戶的聲音特征模型,推送到語音識(shí)別終端。
步驟S6,語音識(shí)別終端根據(jù)接收到的用戶聲音特征模型對(duì)本地聲音特征模型進(jìn)行更新,語音識(shí)別終端就可以結(jié)合每個(gè)用戶所屬的聲音特征參數(shù)進(jìn)行不同的語音識(shí)別以到達(dá)更加人性化的功能。
步驟S7,返回步驟1,形成良性的循環(huán),使得每個(gè)用戶都有更加個(gè)性化的、符合自己行為習(xí)慣的體驗(yàn),提高語音識(shí)別的可靠性。
本發(fā)明提供了一種基于用戶行為特征的語音識(shí)別方法,先通過語音識(shí)別終端采集到的用戶語音數(shù)據(jù)并發(fā)送到服務(wù)器進(jìn)行處理分析,結(jié)合該用戶的信息,分析得到用戶的行為習(xí)慣和聲音特征,根據(jù)每個(gè)用戶不同的行為習(xí)慣生成更加符合該用戶行為習(xí)慣的語法規(guī)則和命令詞庫,根據(jù)每個(gè)用戶的聲音特征生成聲音特征模型,對(duì)語音識(shí)別終端的語法規(guī)則、命令詞庫以及聲音特征模型進(jìn)行調(diào)整更新,進(jìn)一步優(yōu)化語音模型,實(shí)現(xiàn)自學(xué)習(xí)功能,使得每個(gè)用戶都有更加個(gè)性化的、符合自己行為習(xí)慣的體驗(yàn),保證語音識(shí)別的準(zhǔn)確率,提高語音識(shí)別的可靠性。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“示例”、“具體示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
以上內(nèi)容僅僅是對(duì)本發(fā)明結(jié)構(gòu)所作的舉例和說明,所屬本技術(shù)領(lǐng)域的技術(shù)人員對(duì)所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,只要不偏離發(fā)明的結(jié)構(gòu)或者超越本權(quán)利要求書所定義的范圍,均應(yīng)屬于本發(fā)明的保護(hù)范圍。