一種音頻信號(hào)分類方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開(kāi)了一種音頻信號(hào)分類方法和裝置,用于對(duì)輸入的音頻信號(hào)進(jìn)行分類,該方法包括:根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng);根據(jù)音頻幀是否為敲擊音樂(lè)或歷史音頻幀的活動(dòng)性,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng);根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂(lè)幀。
【專利說(shuō)明】一種音頻信號(hào)分類方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字信號(hào)處理【技術(shù)領(lǐng)域】,尤其是一種音頻信號(hào)分類方法和裝置。
【背景技術(shù)】
[0002] 為了降低視頻信號(hào)存儲(chǔ)或者傳輸過(guò)程中占用的資源,音頻信號(hào)在發(fā)送端進(jìn)行壓縮 處理后傳輸?shù)浇邮斩耍邮斩送ㄟ^(guò)解壓縮處理恢復(fù)音頻信號(hào)。
[0003] 在音頻處理應(yīng)用中,音頻信號(hào)分類是一種應(yīng)用廣泛而重要的技術(shù)。例如,在音頻編 解碼應(yīng)用中,目前比較流行的編解碼器是一種混合編解碼。這種編解碼器通常包含了一個(gè) 基于語(yǔ)音產(chǎn)生模型的編碼器(如CELP)和一個(gè)基于變換的編碼器(如基于MDCT的編碼器)。 在中低碼率下,基于語(yǔ)音產(chǎn)生模型的編碼器可以獲得較好的語(yǔ)音編碼質(zhì)量,但對(duì)音樂(lè)的編 碼質(zhì)量比較差,而基于變換的編碼器能夠獲得較好的音樂(lè)編碼質(zhì)量,對(duì)語(yǔ)音的編碼質(zhì)量又 比較差。因此,混合編解碼器通過(guò)對(duì)語(yǔ)音信號(hào)采用基于語(yǔ)音產(chǎn)生模型的編碼器進(jìn)行編碼,對(duì) 音樂(lè)信號(hào)采用基于變換的編碼器進(jìn)行編碼,從而獲得整體最佳的編碼效果。這里,一個(gè)核心 的技術(shù)就是音頻信號(hào)分類,或具體到這個(gè)應(yīng)用,就是編碼模式選擇。
[0004] 混合編解碼器需要獲得準(zhǔn)確的信號(hào)類型信息,才能獲得最優(yōu)的編碼模式選擇。這 里的音頻信號(hào)分類器也可以被大致認(rèn)為是一種語(yǔ)音/音樂(lè)分類器。語(yǔ)音識(shí)別率和音樂(lè)識(shí)別 率是衡量語(yǔ)音/音樂(lè)分類器性能的重要指標(biāo)。尤其對(duì)于音樂(lè)信號(hào),由于其信號(hào)特征的多樣/ 復(fù)雜性,對(duì)音樂(lè)信號(hào)的識(shí)別通常較語(yǔ)音困難。此外,識(shí)別延時(shí)也是非常重要的指標(biāo)之一。由 于語(yǔ)音/音樂(lè)特征在短時(shí)上的模糊性,通常需要在一段相對(duì)長(zhǎng)的時(shí)間區(qū)間內(nèi)才能夠較準(zhǔn)確 的識(shí)別出語(yǔ)音/音樂(lè)來(lái)。一般來(lái)說(shuō),在同一類信號(hào)中段時(shí),識(shí)別延時(shí)越長(zhǎng),識(shí)別越準(zhǔn)確。但 在兩類信號(hào)的過(guò)渡段時(shí),識(shí)別延時(shí)越長(zhǎng),識(shí)別準(zhǔn)確率反而降低。這在輸入是混合信號(hào)(如有 背景音樂(lè)的語(yǔ)音)的情況下尤為嚴(yán)重。因此,同時(shí)兼具高識(shí)別率和低識(shí)別延時(shí)是一個(gè)高性能 語(yǔ)音/音樂(lè)識(shí)別器的必要屬性。此外,分類的穩(wěn)定性也是影響到混合編碼器編碼質(zhì)量的重 要屬性。一般來(lái)說(shuō),混合編碼器在不同類型編碼器之間切換時(shí)會(huì)產(chǎn)生質(zhì)量下降。如果分類 器在同一類信號(hào)中發(fā)生頻繁的類型切換,對(duì)編碼質(zhì)量的影響是比較大的,這就要求分類器 的輸出分類結(jié)果要準(zhǔn)確而平滑。另外,在一些應(yīng)用中,如通信系統(tǒng)中的分類算法,也要求其 計(jì)算復(fù)雜度和存儲(chǔ)開(kāi)銷(xiāo)要盡可能的低,以滿足商業(yè)需求。
[0005] ITU-T標(biāo)準(zhǔn)G. 720. 1包含有一個(gè)語(yǔ)音/音樂(lè)分類器。這個(gè)分類器以一個(gè)主參數(shù),頻 譜波動(dòng)方差Var_fluX,做為信號(hào)分類的主要依據(jù),并結(jié)合兩個(gè)不同的頻譜峰度參數(shù)pl,p2, 做為輔助依據(jù)。根據(jù)var_f lux對(duì)輸入信號(hào)的分類,是通過(guò)在一個(gè)FIFO的var_f lux buffer 中,根據(jù)var_fluX的局部統(tǒng)計(jì)量來(lái)完成的。具體過(guò)程概述如下。首先對(duì)每一輸入音頻幀提 取頻譜波動(dòng)flux,并緩存在一個(gè)第一buffer中,這里的flux是在包括當(dāng)前輸入巾貞在內(nèi)的最 新的4幀中計(jì)算的,也可以有其它的計(jì)算方法。然后,計(jì)算包括當(dāng)前輸入幀在內(nèi)的N個(gè)最新 中貞的flux的方差,得到當(dāng)前輸入巾貞的var_flux,并緩存在第二buffer中。然后,統(tǒng)計(jì)第二 buffer中包括當(dāng)前輸入巾貞在內(nèi)的M個(gè)最新巾貞的var_flux中大于第一門(mén)限值的巾貞的個(gè)數(shù)K。 如果K與M的比值大于一個(gè)第二門(mén)限值,則判斷當(dāng)前輸入幀為語(yǔ)音幀,否則為音樂(lè)幀。輔助 參數(shù)pl,p2主要用于對(duì)分類的修正,也是對(duì)每一輸入音頻幀計(jì)算的。當(dāng)pi和/或p2大于 某第三門(mén)限和/或第四門(mén)限時(shí),則直接判斷當(dāng)前輸入音頻幀為音樂(lè)幀。
[0006] 這個(gè)語(yǔ)音/音樂(lè)分類器的缺點(diǎn)一方面對(duì)音樂(lè)的絕對(duì)識(shí)別率仍然有待提高,另一方 面,由于該分類器的目標(biāo)應(yīng)用沒(méi)有針對(duì)混合信號(hào)的應(yīng)用場(chǎng)景,所以對(duì)混合信號(hào)的識(shí)別性能 也還有一定的提升空間。
[0007] 現(xiàn)有的語(yǔ)音/音樂(lè)分類器有很多都是基于模式識(shí)別原理設(shè)計(jì)的。這類分類器通常 都是對(duì)輸入音頻幀提取多個(gè)特征參數(shù)(十幾到幾十不等),并將這些參數(shù)饋入一個(gè)或者基于 高斯混合模型,或者基于神經(jīng)網(wǎng)絡(luò),或者基于其它經(jīng)典分類方法的分類器來(lái)進(jìn)行分類的。
[0008] 這類分類器雖然有較高的理論基礎(chǔ),但通常具有較高的計(jì)算或存儲(chǔ)復(fù)雜度,實(shí)現(xiàn) 成本較高。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實(shí)施例的目的在于提供一種音頻信號(hào)分類方法和裝置,在保證混合音頻信 號(hào)分類識(shí)別率的情況下,降低信號(hào)分類的復(fù)雜度。
[0010] 第一方面,提供了一種音頻信號(hào)分類方法,包括:
[0011] 根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻 譜波動(dòng)存儲(chǔ)器中,其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng);
[0012] 根據(jù)音頻幀是否為敲擊音樂(lè)或歷史音頻幀的活動(dòng)性,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ) 的頻譜波動(dòng);
[0013] 根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述 當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂(lè)幀。
[0014] 在第一種可能的實(shí)現(xiàn)方式中,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前 音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括:
[0015] 若當(dāng)前音頻幀為活動(dòng)幀,則將當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
[0016] 在第二種可能的實(shí)現(xiàn)方式中,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前 音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括:
[0017] 若當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀不屬于能量沖擊,則將當(dāng)前音頻幀的頻譜 波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
[0018] 在第三種可能的實(shí)現(xiàn)方式中,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前 音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括:
[0019] 若當(dāng)前音頻幀為活動(dòng)幀,且包含當(dāng)前音頻幀與其歷史幀在內(nèi)的多個(gè)連續(xù)幀都不屬 于能量沖擊,則將音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
[0020] 結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的 實(shí)現(xiàn)方式或第一方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,根據(jù)所述當(dāng) 前音頻幀是否為敲擊音樂(lè),更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)包括:
[0021] 若當(dāng)前音頻幀屬于敲擊音樂(lè),則修改頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的頻譜波動(dòng)的值。
[0022] 結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的 實(shí)現(xiàn)方式或第一方面的第三種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,根據(jù)所述歷 史音頻幀的活動(dòng)性,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)包括:
[0023] 如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且前一幀音頻幀為非 活動(dòng)幀,則將頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的除當(dāng)前音頻幀的頻譜波動(dòng)之外的其他頻譜波動(dòng)的 數(shù)據(jù)修改為無(wú)效數(shù)據(jù);
[0024] 如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且當(dāng)前音頻幀之前連 續(xù)三幀歷史幀不全都為活動(dòng)幀,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第一值;
[0025] 如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且歷史分類結(jié)果為音 樂(lè)信號(hào)且當(dāng)前音頻幀的頻譜波動(dòng)大于第二值,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第二值, 其中,第二值大于第一值。
[0026] 結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的 實(shí)現(xiàn)方式或第一方面的第三種可能的實(shí)現(xiàn)方式或第一方面的第四種可能的實(shí)現(xiàn)方式或第 一方面的第五種可能的實(shí)現(xiàn)方式,在第六種可能的實(shí)現(xiàn)方式中,根據(jù)頻譜波動(dòng)存儲(chǔ)器中存 儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂(lè) 中貞包括:
[0027] 獲得頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的均值;
[0028] 當(dāng)所獲得的頻譜波動(dòng)的有效數(shù)據(jù)的均值滿足音樂(lè)分類條件時(shí),將所述當(dāng)前音頻幀 分類為音樂(lè)幀;否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
[0029] 結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的 實(shí)現(xiàn)方式或第一方面的第三種可能的實(shí)現(xiàn)方式或第一方面的第四種可能的實(shí)現(xiàn)方式或第 一方面的第五種可能的實(shí)現(xiàn)方式,在第七種可能的實(shí)現(xiàn)方式中,該音頻信號(hào)分類方法還包 括:
[0030] 獲得當(dāng)前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度;其 中,頻譜高頻帶峰度表示當(dāng)前音頻幀的頻譜在高頻帶上的峰度或能量銳度;頻譜相關(guān)度表 示當(dāng)前音頻幀的信號(hào)諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;線性預(yù)測(cè)殘差能量?jī)A斜度表示音頻信 號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度;
[0031] 根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述頻譜高頻帶峰度、頻譜相關(guān) 度和線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中;
[0032] 其中,所述根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部數(shù)據(jù)的統(tǒng)計(jì)量, 對(duì)所述音頻幀進(jìn)行分類包括:
[0033] 分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻 譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差;
[0034] 當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將所述當(dāng)前音頻 幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效 數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性 預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
[0035] 第二方面,提供了一種音頻信號(hào)的分類裝置,用于對(duì)輸入的音頻信號(hào)進(jìn)行分類,包 括:
[0036] 存儲(chǔ)確認(rèn)單元,用于根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得并存儲(chǔ)當(dāng) 前音頻幀的頻譜波動(dòng),其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng);
[0037] 存儲(chǔ)器,用于在存儲(chǔ)確認(rèn)單元輸出需要存儲(chǔ)的結(jié)果時(shí)存儲(chǔ)所述頻譜波動(dòng);
[0038] 更新單元,用于根據(jù)語(yǔ)音幀是否為敲擊音樂(lè)或歷史音頻幀的活動(dòng)性,更新存儲(chǔ)器 中存儲(chǔ)的頻譜波動(dòng);
[0039] 分類單元,用于根據(jù)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量, 將所述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂(lè)幀。
[0040] 在第一種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前音頻幀為活 動(dòng)幀時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
[0041] 在第二種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前音頻幀為活 動(dòng)幀,且當(dāng)前音頻幀不屬于能量沖擊時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
[0042] 在第三種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前音頻幀為活 動(dòng)幀,且包含當(dāng)前音頻幀與其歷史幀在內(nèi)的多個(gè)連續(xù)幀都不屬于能量沖擊時(shí),輸出需要存 儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
[0043] 結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能的 實(shí)現(xiàn)方式或第二方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述更新單 元具體用于若當(dāng)前音頻幀屬于敲擊音樂(lè),則修改頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的頻譜波動(dòng)的 值。
[0044] 結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能的 實(shí)現(xiàn)方式或第二方面的第三種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,所述更新單 元具體用于:如果當(dāng)前音頻幀為活動(dòng)幀,且前一幀音頻幀為非活動(dòng)幀時(shí),則將存儲(chǔ)器中已存 儲(chǔ)的除當(dāng)前音頻幀的頻譜波動(dòng)之外的其他頻譜波動(dòng)的數(shù)據(jù)修改為無(wú)效數(shù)據(jù);或
[0045] 如果當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀之前連續(xù)三幀不全都為活動(dòng)幀時(shí),則將 當(dāng)前音頻幀的頻譜波動(dòng)修正為第一值;或
[0046] 如果當(dāng)前音頻幀為活動(dòng)幀,且歷史分類結(jié)果為音樂(lè)信號(hào)且當(dāng)前音頻幀的頻譜波動(dòng) 大于第二值,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第二值,其中,第二值大于第一值。
[0047] 結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能的 實(shí)現(xiàn)方式或第二方面的第三種可能的實(shí)現(xiàn)方式或第二方面的第四種可能的實(shí)現(xiàn)方式或第 二方面的第五種可能的實(shí)現(xiàn)方式,在第六種可能的實(shí)現(xiàn)方式中,所述分類單元包括:
[0048] 計(jì)算單元,用于獲得存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的均值;
[0049] 判斷單元,用于將所述頻譜波動(dòng)的有效數(shù)據(jù)的均值與音樂(lè)分類條件做比較,當(dāng)所 述頻譜波動(dòng)的有效數(shù)據(jù)的均值滿足音樂(lè)分類條件時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀;否 則將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
[0050] 結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能的 實(shí)現(xiàn)方式或第二方面的第三種可能的實(shí)現(xiàn)方式或第二方面的第四種可能的實(shí)現(xiàn)方式或第 二方面的第五種可能的實(shí)現(xiàn)方式,在第七種可能的實(shí)現(xiàn)方式中,該音頻信號(hào)分類裝置還包 括:
[0051] 參數(shù)獲得單元,用于獲得當(dāng)前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度、濁音度參數(shù) 和線性預(yù)測(cè)殘差能量?jī)A斜度;其中,頻譜高頻帶峰度表示當(dāng)前音頻幀的頻譜在高頻帶上的 峰度或能量銳度;頻譜相關(guān)度表示當(dāng)前音頻幀的信號(hào)諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;濁音 度參數(shù)表示當(dāng)前音頻幀與一個(gè)基音周期之前的信號(hào)的時(shí)域相關(guān)度;線性預(yù)測(cè)殘差能量?jī)A斜 度表示音頻信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度;
[0052] 所述存儲(chǔ)確認(rèn)單元還用于,根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述 頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中;
[0053] 所述存儲(chǔ)單元還用于,當(dāng)存儲(chǔ)確認(rèn)單元輸出需要存儲(chǔ)的結(jié)果時(shí)存儲(chǔ)所述頻譜高頻 帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度;
[0054] 所述分類單元具體用于,分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度 和線性預(yù)測(cè)殘差能量?jī)A斜度中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻 幀分類為語(yǔ)音幀或者音樂(lè)幀。
[0055] 結(jié)合第二方面的第七種可能的實(shí)現(xiàn)方式,在第八種可能的實(shí)現(xiàn)方式中,所述分類 單元包括:
[0056] 計(jì)算單元,用于分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效 數(shù)據(jù)的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差;
[0057] 判斷單元,用于當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將 所述當(dāng)前音頻幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高 頻帶峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾 值;或者線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
[0058] 第三方面,提供了一種音頻信號(hào)分類方法,包括:
[0059] 將輸入音頻信號(hào)進(jìn)行分巾貞處理;
[0060] 獲得當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度;所述線性預(yù)測(cè)殘差能量?jī)A斜度表示 音頻信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度;
[0061] 將線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)到存儲(chǔ)器中;
[0062] 根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行分類。
[0063] 在第一種可能的實(shí)現(xiàn)方式中,將線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)到存儲(chǔ)器中之前還 包括:
[0064] 根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述線性預(yù)測(cè)殘差能量?jī)A斜度存 儲(chǔ)于存儲(chǔ)器中;并在確定需要存儲(chǔ)時(shí)將將所述線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中。 [0065] 結(jié)合第三方面的或第三方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式 中,預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量為預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差;所述 根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行分類包括:
[0066] 將預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差與音樂(lè)分類閾值相比較,當(dāng)所述預(yù)測(cè)殘差 能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差小于音樂(lè)分類閾值時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀;否則 將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
[0067] 結(jié)合第三方面的或第三方面的第一種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式 中,該音頻信號(hào)分類方法還包括:
[0068] 獲得當(dāng)前音頻幀的頻譜波動(dòng)、頻譜高頻帶峰度和頻譜相關(guān)度,并存儲(chǔ)于對(duì)應(yīng)的存 儲(chǔ)器中;
[0069] 其中,所述根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀 進(jìn)行分類包括:
[0070] 分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A 斜度中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻幀分類為語(yǔ)音幀或者音 樂(lè)幀;所述有效數(shù)據(jù)的統(tǒng)計(jì)量指對(duì)存儲(chǔ)器中存儲(chǔ)的有效數(shù)據(jù)運(yùn)算操作后獲得的數(shù)據(jù)值。
[0071] 結(jié)合第三方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,分別獲得 存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度中有效數(shù)據(jù)的 統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀包括:
[0072] 分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻 譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差;
[0073] 當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將所述當(dāng)前音頻 幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效 數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性 預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
[0074] 結(jié)合第三方面的或第三方面的第一種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式 中,該音頻信號(hào)分類方法還包括:
[0075] 獲得當(dāng)前音頻幀的頻譜音調(diào)個(gè)數(shù)和頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率,并存儲(chǔ)于對(duì) 應(yīng)的存儲(chǔ)器;
[0076] 其中,所述根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀 進(jìn)行分類包括:
[0077] 分別獲得存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量;
[0078] 根據(jù)所述線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量和頻譜音調(diào) 個(gè)數(shù)在低頻帶上的比率,將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀;所述統(tǒng)計(jì)量指對(duì)存儲(chǔ)器 中存儲(chǔ)的數(shù)據(jù)運(yùn)算操作后獲得的數(shù)據(jù)值。
[0079] 結(jié)合第三方面的第五種可能的實(shí)現(xiàn)方式,在第六種可能的實(shí)現(xiàn)方式中,分別獲得 存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量包括:
[0080] 獲得存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A斜度的方差;
[0081] 獲得存儲(chǔ)的頻譜音調(diào)個(gè)數(shù)的均值;
[0082] 根據(jù)所述線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量和頻譜音調(diào) 個(gè)數(shù)在低頻帶上的比率,將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀包括:
[0083]當(dāng)當(dāng)前音頻幀為活動(dòng)幀,且滿足下列條件之一,則將所述當(dāng)前音頻幀分類為音樂(lè) 幀,否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀:
[0084] 線性預(yù)測(cè)殘差能量?jī)A斜度的方差小于第五閾值;或
[0085] 頻譜音調(diào)個(gè)數(shù)的均值大于第六閾值;或
[0086] 頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率小于第七閾值。
[0087] 結(jié)合第三方面或第三方面的第一種可能的實(shí)現(xiàn)方式或第三方面的第二種可能的 實(shí)現(xiàn)方式或第三方面的第三種可能的實(shí)現(xiàn)方式或第三方面的第四種可能的實(shí)現(xiàn)方式或第 三方面的第五種可能的實(shí)現(xiàn)方式或第三方面的第六種可能的實(shí)現(xiàn)方式,在第七種可能的實(shí) 現(xiàn)方式中,獲得當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度包括:
[0088] 根據(jù)下列公式計(jì)算當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度:
【權(quán)利要求】
1. 一種音頻信號(hào)分類方法,其特征在于,包括: 根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波 動(dòng)存儲(chǔ)器中,其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng); 根據(jù)音頻幀是否為敲擊音樂(lè)或歷史音頻幀的活動(dòng)性,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻 譜波動(dòng); 根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前 音頻幀分類為語(yǔ)音幀或者音樂(lè)幀。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否 獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括: 若當(dāng)前音頻幀為活動(dòng)幀,則將當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否 獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括: 若當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀不屬于能量沖擊,則將當(dāng)前音頻幀的頻譜波動(dòng) 存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否 獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括: 若當(dāng)前音頻幀為活動(dòng)幀,且包含當(dāng)前音頻幀與其歷史幀在內(nèi)的多個(gè)連續(xù)幀都不屬于能 量沖擊,則將音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
5. 根據(jù)權(quán)利要求1至4所述的任一方法,其特征在于,根據(jù)所述當(dāng)前音頻幀是否為敲擊 音樂(lè),更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)包括: 若當(dāng)前音頻幀屬于敲擊音樂(lè),則修改頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的頻譜波動(dòng)的值。
6. 根據(jù)權(quán)利要求1至4所述的任一方法,其特征在于,根據(jù)所述歷史音頻幀的活動(dòng)性, 更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)包括: 如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且前一幀音頻幀為非活動(dòng) 幀,則將頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的除當(dāng)前音頻幀的頻譜波動(dòng)之外的其他頻譜波動(dòng)的數(shù)據(jù) 修改為無(wú)效數(shù)據(jù); 如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且當(dāng)前音頻幀之前連續(xù)三 幀歷史幀不全都為活動(dòng)幀,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第一值; 如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且歷史分類結(jié)果為音樂(lè)信 號(hào)且當(dāng)前音頻幀的頻譜波動(dòng)大于第二值,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第二值,其中, 第二值大于第一值。
7. 根據(jù)權(quán)利要求1-6所述的任一方法,其特征在于,根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻 譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前音頻巾貞分類為語(yǔ)音巾貞或者音樂(lè)巾貞包 括: 獲得頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的均值; 當(dāng)所獲得的頻譜波動(dòng)的有效數(shù)據(jù)的均值滿足音樂(lè)分類條件時(shí),將所述當(dāng)前音頻幀分類 為音樂(lè)幀;否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
8. 根據(jù)權(quán)利要求1-6所述的方法,其特征在于,還包括: 獲得當(dāng)前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度;其中,頻 譜高頻帶峰度表示當(dāng)前音頻幀的頻譜在高頻帶上的峰度或能量銳度;頻譜相關(guān)度表示當(dāng)前 音頻幀的信號(hào)諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;線性預(yù)測(cè)殘差能量?jī)A斜度表示音頻信號(hào)的線 性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度; 根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述頻譜高頻帶峰度、頻譜相關(guān)度和 線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中; 其中,所述根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部數(shù)據(jù)的統(tǒng)計(jì)量,對(duì)所 述音頻幀進(jìn)行分類包括: 分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻譜相 關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差; 當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將所述當(dāng)前音頻幀分 類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效數(shù)據(jù) 的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性預(yù)測(cè) 殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
9. 一種音頻信號(hào)的分類裝置,用于對(duì)輸入的音頻信號(hào)進(jìn)行分類,其特征在于,包括:存儲(chǔ)確認(rèn)單元,用于根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得并存儲(chǔ)當(dāng)前音 頻幀的頻譜波動(dòng),其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng); 存儲(chǔ)器,用于在存儲(chǔ)確認(rèn)單元輸出需要存儲(chǔ)的結(jié)果時(shí)存儲(chǔ)所述頻譜波動(dòng); 更新單元,用于根據(jù)語(yǔ)音幀是否為敲擊音樂(lè)或歷史音頻幀的活動(dòng)性,更新存儲(chǔ)器中存 儲(chǔ)的頻譜波動(dòng); 分類單元,用于根據(jù)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所 述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂(lè)幀。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前 音頻幀為活動(dòng)幀時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
11. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前 音頻幀為活動(dòng)幀,且當(dāng)前音頻幀不屬于能量沖擊時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng) 的結(jié)果。
12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前 音頻幀為活動(dòng)幀,且包含當(dāng)前音頻幀與其歷史幀在內(nèi)的多個(gè)連續(xù)幀都不屬于能量沖擊時(shí), 輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
13. 根據(jù)權(quán)利要求9-12所述的任一裝置,其特征在于,所述更新單元具體用于若當(dāng)前 音頻幀屬于敲擊音樂(lè),則修改頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的頻譜波動(dòng)的值。
14. 根據(jù)權(quán)利要求9-12所述的任一裝置,其特征在于,所述更新單元具體用于:如果當(dāng) 前音頻幀為活動(dòng)幀,且前一幀音頻幀為非活動(dòng)幀時(shí),則將存儲(chǔ)器中已存儲(chǔ)的除當(dāng)前音頻幀 的頻譜波動(dòng)之外的其他頻譜波動(dòng)的數(shù)據(jù)修改為無(wú)效數(shù)據(jù);或 如果當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀之前連續(xù)三幀不全都為活動(dòng)幀時(shí),則將當(dāng)前 音頻幀的頻譜波動(dòng)修正為第一值;或 如果當(dāng)前音頻幀為活動(dòng)幀,且歷史分類結(jié)果為音樂(lè)信號(hào)且當(dāng)前音頻幀的頻譜波動(dòng)大于 第二值,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第二值,其中,第二值大于第一值。
15. 根據(jù)權(quán)利要求9-14所述的任一裝置,其特征在于,所述分類單元包括: 計(jì)算單元,用于獲得存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的均值; 判斷單元,用于將所述頻譜波動(dòng)的有效數(shù)據(jù)的均值與音樂(lè)分類條件做比較,當(dāng)所述頻 譜波動(dòng)的有效數(shù)據(jù)的均值滿足音樂(lè)分類條件時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀;否則將 所述當(dāng)前音頻幀分類為語(yǔ)音幀。
16. 根據(jù)權(quán)利要求9-14所述的任一裝置,其特征在于,還包括: 參數(shù)獲得單元,用于獲得當(dāng)前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度、濁音度參數(shù)和線 性預(yù)測(cè)殘差能量?jī)A斜度;其中,頻譜高頻帶峰度表示當(dāng)前音頻幀的頻譜在高頻帶上的峰度 或能量銳度;頻譜相關(guān)度表示當(dāng)前音頻幀的信號(hào)諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;濁音度參 數(shù)表示當(dāng)前音頻幀與一個(gè)基音周期之前的信號(hào)的時(shí)域相關(guān)度;線性預(yù)測(cè)殘差能量?jī)A斜度表 示音頻信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度; 所述存儲(chǔ)確認(rèn)單元還用于,根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述頻譜 高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中; 所述存儲(chǔ)單元還用于,當(dāng)存儲(chǔ)確認(rèn)單元輸出需要存儲(chǔ)的結(jié)果時(shí)存儲(chǔ)所述頻譜高頻帶峰 度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度; 所述分類單元具體用于,分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度和線 性預(yù)測(cè)殘差能量?jī)A斜度中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻幀分 類為語(yǔ)音巾貞或者音樂(lè)中貞。
17. 根據(jù)權(quán)利要求16所述的任一裝置,其特征在于,所述分類單元包括: 計(jì)算單元,用于分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù) 的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差; 判斷單元,用于當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將所述 當(dāng)前音頻幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶 峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值; 或者線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
18. -種音頻信號(hào)分類方法,其特征在于,包括: 將輸入音頻信號(hào)進(jìn)行分幀處理; 獲得當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度;所述線性預(yù)測(cè)殘差能量?jī)A斜度表示音頻 信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度; 將線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)到存儲(chǔ)器中; 根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行分類。
19. 根據(jù)權(quán)利要求18所述的方法,其特征在于,將線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)到存 儲(chǔ)器中之前還包括: 根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于 存儲(chǔ)器中;并在確定需要存儲(chǔ)時(shí)將將所述線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中。
20. 根據(jù)權(quán)利要求18或19所述的方法,其特征在于,預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的 統(tǒng)計(jì)量為預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差;所述根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部 分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行分類包括: 將預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差與音樂(lè)分類閾值相比較,當(dāng)所述預(yù)測(cè)殘差能量 傾斜度部分?jǐn)?shù)據(jù)的方差小于音樂(lè)分類閾值時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀;否則將所 述當(dāng)前音頻幀分類為語(yǔ)音幀。
21. 根據(jù)權(quán)利要求18或19所述的方法,其特征在于,還包括: 獲得當(dāng)前音頻幀的頻譜波動(dòng)、頻譜高頻帶峰度和頻譜相關(guān)度,并存儲(chǔ)于對(duì)應(yīng)的存儲(chǔ)器 中; 其中,所述根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行 分類包括: 分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度 中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻幀分類為語(yǔ)音幀或者音樂(lè) 幀;所述有效數(shù)據(jù)的統(tǒng)計(jì)量指對(duì)存儲(chǔ)器中存儲(chǔ)的有效數(shù)據(jù)運(yùn)算操作后獲得的數(shù)據(jù)值。
22. 根據(jù)權(quán)利要求21所述的方法,其特征在于,分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶 峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的 統(tǒng)計(jì)量將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀包括: 分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻譜相 關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差; 當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將所述當(dāng)前音頻幀分 類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效數(shù)據(jù) 的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性預(yù)測(cè) 殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
23. 根據(jù)權(quán)利要求18或19所述的方法,其特征在于,還包括: 獲得當(dāng)前音頻幀的頻譜音調(diào)個(gè)數(shù)和頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率,并存儲(chǔ)于對(duì)應(yīng)的 存儲(chǔ)器; 其中,所述根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行 分類包括: 分別獲得存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量; 根據(jù)所述線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量和頻譜音調(diào)個(gè)數(shù) 在低頻帶上的比率,將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀;所述統(tǒng)計(jì)量指對(duì)存儲(chǔ)器中存 儲(chǔ)的數(shù)據(jù)運(yùn)算操作后獲得的數(shù)據(jù)值。
24. 根據(jù)權(quán)利要求23所述的方法,其特征在于,分別獲得存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A 斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量包括: 獲得存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A斜度的方差; 獲得存儲(chǔ)的頻譜音調(diào)個(gè)數(shù)的均值; 根據(jù)所述線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量和頻譜音調(diào)個(gè)數(shù) 在低頻帶上的比率,將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀包括: 當(dāng)當(dāng)前音頻幀為活動(dòng)幀,且滿足下列條件之一,則將所述當(dāng)前音頻幀分類為音樂(lè)幀,否 則將所述當(dāng)前音頻幀分類為語(yǔ)音幀: 線性預(yù)測(cè)殘差能量?jī)A斜度的方差小于第五閾值;或 頻譜音調(diào)個(gè)數(shù)的均值大于第六閾值;或 頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率小于第七閾值。
25. 根據(jù)權(quán)利要求18-24所述的任一方法,其特征在于,獲得當(dāng)前音頻幀的線性預(yù)測(cè)殘 差能量?jī)A斜度包括: 根據(jù)下列公式計(jì)算當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度:
其中,epsP (i)表示當(dāng)前音頻幀第i階線性預(yù)測(cè)的預(yù)測(cè)殘差能量;n為正整數(shù),表示線性 預(yù)測(cè)的階數(shù),其小于等于線性預(yù)測(cè)的最大階數(shù)。
26. 根據(jù)權(quán)利要求23-24所述的任一方法,其特征在于,獲得當(dāng)前音頻幀的頻譜音調(diào)個(gè) 數(shù)和頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率包括: 統(tǒng)計(jì)當(dāng)前音頻幀在〇?8kHz頻帶上頻點(diǎn)峰值大于預(yù)定值的頻點(diǎn)數(shù)量作為頻譜音調(diào)個(gè) 數(shù); 計(jì)算當(dāng)前音頻巾貞在〇?4kHz頻帶上頻點(diǎn)峰值大于預(yù)定值的頻點(diǎn)數(shù)量與0?8kHz頻帶 上頻點(diǎn)峰值大于預(yù)定值的頻點(diǎn)數(shù)量的比值,作為頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率。
27. -種信號(hào)分類裝置,用于對(duì)輸入的音頻信號(hào)進(jìn)行分類,其特征在于,包括: 分幀單元,用于對(duì)輸入音頻信號(hào)進(jìn)行分幀處理; 參數(shù)獲得單元,用于獲得當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度;所述線性預(yù)測(cè)殘差 能量?jī)A斜度表示音頻信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度; 存儲(chǔ)單元,用于存儲(chǔ)線性預(yù)測(cè)殘差能量?jī)A斜度; 分類單元,用于根據(jù)存儲(chǔ)器中預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀 進(jìn)行分類。
28. 根據(jù)權(quán)利要求27所述的裝置,其特征在于,還包括: 存儲(chǔ)確認(rèn)單元,用于根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述線性預(yù)測(cè)殘 差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中; 所述存儲(chǔ)單元具體用于,當(dāng)存儲(chǔ)確認(rèn)單元確認(rèn)需要確定需要存儲(chǔ)時(shí)將將所述線性預(yù)測(cè) 殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中。
29. 根據(jù)權(quán)利要求27或28所述的裝置,其特征在于, 預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的統(tǒng)計(jì)量為預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差; 所述分類單元具體用于將預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差與音樂(lè)分類閾值相比 較,當(dāng)所述預(yù)測(cè)殘差能量?jī)A斜度部分?jǐn)?shù)據(jù)的方差小于音樂(lè)分類閾值時(shí),將所述當(dāng)前音頻幀 分類為音樂(lè)幀;否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
30. 根據(jù)權(quán)利要求27或28所述的裝置,其特征在于,參數(shù)獲得單元還用于:獲得當(dāng)前 音頻幀的頻譜波動(dòng)、頻譜高頻帶峰度和頻譜相關(guān)度,并存儲(chǔ)于對(duì)應(yīng)的存儲(chǔ)器中; 所述分類單元具體用于:分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度和線 性預(yù)測(cè)殘差能量?jī)A斜度中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻幀分 類為語(yǔ)音幀或者音樂(lè)幀;所述有效數(shù)據(jù)的統(tǒng)計(jì)量指對(duì)存儲(chǔ)器中存儲(chǔ)的有效數(shù)據(jù)運(yùn)算操作后 獲得的數(shù)據(jù)值。
31. 根據(jù)權(quán)利要求30所述的裝置,其特征在于,所述分類單元包括: 計(jì)算單元,用于分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù) 的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差; 判斷單元,用于當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂(lè)幀,否則將所述 當(dāng)前音頻幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶 峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值; 或者線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
32. 根據(jù)權(quán)利要求27或28所述的裝置,其特征在于,所述參數(shù)獲得單元還用于:獲得 當(dāng)前音頻幀的頻譜音調(diào)個(gè)數(shù)和頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率,并存儲(chǔ)于存儲(chǔ)器; 所述分類單元具體用于:分別獲得存儲(chǔ)的線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音 調(diào)個(gè)數(shù)的統(tǒng)計(jì)量;根據(jù)所述線性預(yù)測(cè)殘差能量?jī)A斜度的統(tǒng)計(jì)量、頻譜音調(diào)個(gè)數(shù)的統(tǒng)計(jì)量和 頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率,將所述音頻幀分類為語(yǔ)音幀或者音樂(lè)幀;所述有效數(shù)據(jù) 的統(tǒng)計(jì)量指對(duì)存儲(chǔ)器中存儲(chǔ)的數(shù)據(jù)運(yùn)算操作后獲得的數(shù)據(jù)值。
33. 根據(jù)權(quán)利要求32所述的裝置,其特征在于,所述分類單元包括: 計(jì)算單元,用于獲得線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差和存儲(chǔ)的頻譜音調(diào)個(gè)數(shù) 的均值; 判斷單元,用于當(dāng)當(dāng)前音頻幀為活動(dòng)幀,且滿足下列條件之一,則將所述當(dāng)前音頻幀分 類為音樂(lè)幀,否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀:線性預(yù)測(cè)殘差能量?jī)A斜度的方差小于 第五閾值;或頻譜音調(diào)個(gè)數(shù)的均值大于第六閾值;或頻譜音調(diào)個(gè)數(shù)在低頻帶上的比率小于 第七閾值。
34. 根據(jù)權(quán)利要求27-33所述的任一裝置,其特征在于,所述參數(shù)獲得單元根據(jù)下列公 式計(jì)算當(dāng)前音頻幀的線性預(yù)測(cè)殘差能量?jī)A斜度:
其中,epsP (i)表示當(dāng)前音頻幀第i階線性預(yù)測(cè)的預(yù)測(cè)殘差能量;n為正整數(shù),表示線性 預(yù)測(cè)的階數(shù),其小于等于線性預(yù)測(cè)的最大階數(shù)。
35. 根據(jù)權(quán)利要求32-33所述的任一裝置,其特征在于,所述參數(shù)獲得單元用于統(tǒng)計(jì)當(dāng) 前音頻幀在0?8kHz頻帶上頻點(diǎn)峰值大于預(yù)定值的頻點(diǎn)數(shù)量作為頻譜音調(diào)個(gè)數(shù);所述參數(shù) 獲得單元用于計(jì)算當(dāng)前音頻幀在0?4kHz頻帶上頻點(diǎn)峰值大于預(yù)定值的頻點(diǎn)數(shù)量與0? 8kHz頻帶上頻點(diǎn)峰值大于預(yù)定值的頻點(diǎn)數(shù)量的比值,作為頻譜音調(diào)個(gè)數(shù)在低頻帶上的比 率。
【文檔編號(hào)】G10L25/51GK104347067SQ201310339218
【公開(kāi)日】2015年2月11日 申請(qǐng)日期:2013年8月6日 優(yōu)先權(quán)日:2013年8月6日
【發(fā)明者】王喆 申請(qǐng)人:華為技術(shù)有限公司