本發(fā)明涉及基于音樂內(nèi)容檢索領(lǐng)域,尤其涉及基于多特征音樂體載的分類方法及系統(tǒng)。
背景技術(shù):
隨著音樂數(shù)據(jù)庫中音樂數(shù)目的急劇增加,人們?cè)诤A康囊魳沸畔⒅锌焖佾@得自己感興趣的音樂體裁或者對(duì)大數(shù)據(jù)音樂進(jìn)行體裁分類變得越來越困難,這就導(dǎo)致了基于音樂內(nèi)容檢索技術(shù)的興起。音樂體裁的分類作為音樂內(nèi)容檢索技術(shù)中重要的一環(huán),其研究日益引起人們的重視。音樂體裁的分類實(shí)際上就是音樂音頻的分類,音樂的音頻是一個(gè)隨機(jī)的非平穩(wěn)信號(hào),音頻的非語義符號(hào)表示和無結(jié)構(gòu)化組織的特點(diǎn)增加了體裁分類的難度,因此,如何提取音頻中的結(jié)構(gòu)化信息和內(nèi)容語義,使得無序的音頻數(shù)據(jù)變得有序,是解決問題的關(guān)鍵。
音頻分類本質(zhì)上是一個(gè)模式識(shí)別過程,包括特征提取與分類兩個(gè)基本過程。在現(xiàn)有技術(shù)中,大多是基于頻域特征梅爾倒頻譜系數(shù)或者是小波域特征對(duì)音樂題材進(jìn)行分類的,并不能充分利用音樂體裁的特征,因此獲得的分類效率并不是很高。
因此,現(xiàn)有技術(shù)中的技術(shù)缺陷是:基于頻域特征梅爾倒頻譜系數(shù)或者是小波域特征對(duì)音樂題材進(jìn)行分類,對(duì)音樂體載特征的提取不充分,導(dǎo)致分類效率低,分類識(shí)別精度低,效果不理想。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述技術(shù)問題,本發(fā)明提供一種基于多特征音樂體載的分類方法及系統(tǒng),在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征;把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)多維的向量,通過Logistic回歸作為分類器,對(duì)音樂體裁進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度和分類效果。
為解決上述技術(shù)問題,本發(fā)明提供的技術(shù)方案是:
第一方面,本發(fā)明提供一種基于多特征音樂體載的分類方法,包括:
步驟S1,獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;
步驟S2,對(duì)所述每一幀音頻信號(hào)做離散小波變換,提取小波域特征;
步驟S3,將所述頻域特征和所述小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;
步驟S4,將所述統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明基于多特征音樂體載的分類方法,其技術(shù)方案為:獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;對(duì)所述每一幀音頻信號(hào)做離散小波變換,提取小波域特征;將所述頻域特征和所述小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;將所述統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明基于多特征音樂體載的分類方法,在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征;把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)多維的向量,通過Logistic回歸作為分類器,對(duì)音樂體裁進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度和分類效果。
進(jìn)一步地,所述步驟S1中,所述提取每一幀音頻信號(hào)的多個(gè)梅爾倒頻譜系數(shù),具體為:
對(duì)每一幀音頻信號(hào)進(jìn)行快速傅里葉變換,得到所述每一幀音頻信號(hào)的頻譜;
對(duì)所述每一幀音頻信號(hào)的頻譜進(jìn)行濾波,得到頻譜能量;
對(duì)所述頻譜能量取對(duì)數(shù),進(jìn)行離散余弦變換,得到多維梅爾倒頻譜系數(shù)。
進(jìn)一步地,所述步驟S2中,所述提取小波域特征,具體為:
對(duì)每一幀音頻信號(hào)進(jìn)行離散小波域變換,得到小波變換域;
根據(jù)所述小波變換域,提取多維小波域特征。
進(jìn)一步地,所述步驟S3中,所述多個(gè)音樂體裁特征值的構(gòu)造,具體為:
計(jì)算多個(gè)梅爾倒頻譜系數(shù)的平均值;
計(jì)算所述多幀信號(hào)的能量平均值、方差,計(jì)算總的低能量幀的能量數(shù),所述低能量幀為能量小于平均能量0.5倍的幀;
計(jì)算所述多幀信號(hào)的質(zhì)心、帶寬、過零點(diǎn)的均值;
計(jì)算所述多幀信號(hào)的基音變換率和等基音頻率比例;
將上述特征值組成的多維向量,形成統(tǒng)計(jì)特征,所述統(tǒng)計(jì)特征作為所述Logistic回歸分類器的輸入。
進(jìn)一步地,所述步驟S4中,所述統(tǒng)計(jì)特征向量的構(gòu)成,具體為:
在每個(gè)統(tǒng)計(jì)特征上都乘以一個(gè)回歸系數(shù),得到統(tǒng)計(jì)特征向量;
將所述統(tǒng)計(jì)特征向量輸入所述預(yù)先訓(xùn)練好的Logistic回歸分類器,得到一個(gè)范圍在0-1之間的數(shù)值,實(shí)現(xiàn)音樂體載的分類,所述Logistic回歸分類器是利用Sigmoid函數(shù)構(gòu)成的分類器。
第二方面,本發(fā)明提供一種基于多特征音樂體載的分類系統(tǒng),包括:
頻域特征提取模塊,用于獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;
小波域特征提取模塊,用于對(duì)所述每一幀音頻信號(hào)做離散小波變換,提取小波域特征;
統(tǒng)計(jì)特征向量生成模塊,用于將所述頻域特征和所述小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;
音樂分類模塊,用于將所述統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明的基于多特征音樂體載的分類系統(tǒng),其技術(shù)方案為:先通過頻域特征提取模塊,獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;然后通過小波域特征提取模塊,對(duì)所述每一幀音頻信號(hào)做離散小波變換,提取小波域特征;接著通過統(tǒng)計(jì)特征向量生成模塊,將所述頻域特征和所述小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;最后通過音樂分類模塊,將所述統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明的基于多特征音樂體載的分類系統(tǒng),在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征;把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)多維的向量,通過Logistic回歸作為分類器,對(duì)音樂體裁進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度和分類效果。
進(jìn)一步地,所述頻域特征提取模塊中,包括梅爾倒頻譜系數(shù)提取子模塊,用于:
對(duì)每一幀音頻信號(hào)進(jìn)行快速傅里葉變換,得到所述每一幀音頻信號(hào)的頻譜;
對(duì)所述每一幀音頻信號(hào)的頻譜進(jìn)行濾波,得到頻譜能量;
對(duì)所述頻譜能量取對(duì)數(shù),進(jìn)行離散余弦變換,得到多維梅爾倒頻譜系數(shù)。進(jìn)一步地,所述小波域特征提取模塊中,包括小波域特征提取子模塊,用于:
對(duì)每一幀音頻信號(hào)進(jìn)行離散小波域變換,得到小波變換域;
根據(jù)所述小波變換域,提取多維小波域特征。
進(jìn)一步地,所述統(tǒng)計(jì)特征向量生成模塊中,包括特征值構(gòu)造子模塊,用于:
計(jì)算多個(gè)梅爾倒頻譜系數(shù)的平均值;
計(jì)算所述多幀信號(hào)的能量平均值、方差,計(jì)算總的低能量幀的能量數(shù),所述低能量幀為能量小于平均能量0.5倍的幀;
計(jì)算所述多幀信號(hào)的質(zhì)心、帶寬、過零點(diǎn)的均值;
計(jì)算所述多幀信號(hào)的基音變換率和等基音頻率比例;
將上述特征值組成的多維向量,形成統(tǒng)計(jì)特征,所述統(tǒng)計(jì)特征作為所述Logistic回歸分類器的輸入。
進(jìn)一步地,所述音樂分類模塊中,包括統(tǒng)計(jì)特征構(gòu)成子模塊,用于:
在每個(gè)統(tǒng)計(jì)特征上都乘以一個(gè)回歸系數(shù),得到統(tǒng)計(jì)特征向量;
將所述統(tǒng)計(jì)特征向量輸入所述預(yù)先訓(xùn)練好的Logistic回歸分類器,得到一個(gè)范圍在0-1之間的數(shù)值,實(shí)現(xiàn)音樂體載的分類,所述Logistic回歸分類器是利用Sigmoid函數(shù)構(gòu)成的分類器。
附圖說明
為了更清楚地說明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。
圖1示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法的流程圖;
圖2示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法中提取梅爾倒頻譜系數(shù)的流程圖;
圖3示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法中提取小波域特征的流程圖;
圖4示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法中歸一化自相關(guān)函數(shù)的示意圖;
圖5示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法中的統(tǒng)計(jì)特征值向量構(gòu)成示意圖;
圖6示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法中的Logistic回歸分類器示意圖;
圖7示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法中的Sigmoid函數(shù)示意圖;
圖8示出了本發(fā)明第二實(shí)施例所提供的一種基于多特征音樂體載的分類系統(tǒng)的示意圖。
具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明技術(shù)方案的實(shí)施例進(jìn)行詳細(xì)的描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護(hù)范圍。
實(shí)施例一
圖1示出了本發(fā)明第一實(shí)施例所提供的一種基于多特征音樂體載的分類方法的流程圖;如圖1所示,本發(fā)明第一實(shí)施例提供了一種基于多特征音樂體載的分類方法,包括:
步驟S1,獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;
步驟S2,對(duì)每一幀音頻信號(hào)做離散小波變換,提取小波域特征;
步驟S3,將頻域特征和小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;
步驟S4,將統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明基于多特征音樂體載的分類方法,其技術(shù)方案為:獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;對(duì)每一幀音頻信號(hào)做離散小波變換,提取小波域特征;將頻域特征和小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;將統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明基于多特征音樂體載的分類方法,在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征;把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)多維的向量,通過Logistic回歸作為分類器,對(duì)音樂體裁進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度和分類效果。
參見圖2,步驟S1中,提取每一幀音頻信號(hào)的多個(gè)梅爾倒頻譜系數(shù),具體為:
步驟S101,對(duì)每一幀音頻信號(hào)進(jìn)行快速傅里葉變換,得到每一幀音頻信號(hào)的頻譜;
步驟S102,對(duì)每一幀音頻信號(hào)的頻譜進(jìn)行濾波,得到頻譜能量;
步驟S103,對(duì)頻譜能量取對(duì)數(shù),進(jìn)行離散余弦變換,得到多維梅爾倒頻譜系數(shù)。
提取每一幀音頻信號(hào)的多個(gè)梅爾倒頻譜系數(shù)過程:
首先,將每一幀音頻信號(hào)進(jìn)行快速傅里葉變換,得到其頻譜;
然后,通過Mel濾波器組在頻域進(jìn)行帶通濾波,并對(duì)沒個(gè)頻帶的能量疊加得到頻譜能量;
最后,將濾波器組的輸出能量取對(duì)數(shù),做離散余弦變換,得到多個(gè)梅爾倒頻譜系數(shù)。
計(jì)算公式如下:
其中,x(k)為頻譜能量,M為Mel濾波器個(gè)數(shù),j為MFCC維數(shù),本發(fā)明中j取13。
其中,對(duì)信號(hào)進(jìn)行快速傅里葉變換,具體過程如下:
1)、在進(jìn)行快速傅里葉變換之前,要先將音頻信號(hào)s(n)通過高頻濾波器進(jìn)行預(yù)強(qiáng)調(diào),得到預(yù)強(qiáng)調(diào)后的訊號(hào),參見公式(2);
s2(n)s2(n)=s(n)-a*s(n-1) (2)
通過預(yù)強(qiáng)調(diào)處理后的信號(hào),可以消除發(fā)聲過程中聲帶和嘴唇的效應(yīng),來補(bǔ)償語音信號(hào)受到發(fā)音系統(tǒng)所壓抑的高頻部分。
2)、然后再將信號(hào)進(jìn)行分幀處理,每一幀的長(zhǎng)度是256,幀重疊為96。
3)、接著將每一幀乘以漢明窗,以增加音框左端和右端的連續(xù)性。
4)、最后再進(jìn)行快速傅里葉變換,得到音頻信號(hào)在頻譜上的能量分布,即頻譜能量。
經(jīng)過快速傅里葉變換后,還要進(jìn)行離散余弦變換,具體的過程是:
1)、用一組Mel頻標(biāo)上線性分布的三角窗濾波器(共24個(gè)三角窗濾波器),對(duì)信號(hào)的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來模擬人耳的掩蔽效應(yīng);
2)、對(duì)三角窗濾波器組的輸出求取對(duì)數(shù),得到近似于同態(tài)變換的結(jié)果;
3)、最后進(jìn)行離散余弦變換,去除各維信號(hào)之間的相關(guān)性,將信號(hào)映射到低維空間,根據(jù)離散余弦變換提取13維梅爾倒頻譜系數(shù),這樣就得到了梅爾倒頻譜系數(shù)。
優(yōu)選地,由于MFCC是從每個(gè)短時(shí)音頻幀中提取出來的,它們主要反映的是音頻在很短時(shí)間內(nèi)的靜態(tài)特征,音頻信號(hào)的動(dòng)態(tài)特征可以用這些靜態(tài)特征的差分來描述,把前后相鄰幀的MFCC特征相減,就得到一階差分MFCC系數(shù),它可以反映這個(gè)音頻的特征向量空間,能夠相互彌補(bǔ),很大程度上可以提高改善系統(tǒng)的識(shí)別性能。本發(fā)明中,把13維MFCC系數(shù)及13維一階差分MFCC系數(shù)共同作為音頻的頻域特征。
參建圖3,步驟S2中,提取小波域特征,具體為:
步驟S201,對(duì)每一幀音頻信號(hào)進(jìn)行離散小波域變換,得到小波變換域;
步驟S202,根據(jù)小波變換域,提取多維小波域特征。
小波分析方法是一種窗口大小固定但其形狀可改變,時(shí)間窗和頻率窗都可改變的時(shí)頻局部化分析方法,即在低頻部分具有較高的頻率分辨率和較低的時(shí)間分辨率,在高頻部分具有較高的時(shí)間分辨率和較低的頻率分辨率。正是這種特性,使小波變換具有對(duì)信號(hào)的自適應(yīng)性。
音頻信號(hào)是一種頻率隨時(shí)間改變而改變的振動(dòng)波形信號(hào),屬于非平穩(wěn)信號(hào),因此需要從音頻信號(hào)中同時(shí)獲得時(shí)間和頻率信息。小波交換能夠同時(shí)提取時(shí)域和頻域的信息,因此可以作為傅里葉變換的一種替代方法,并且能夠克服傅里葉變換的局限性。音頻信號(hào)在計(jì)算機(jī)上實(shí)現(xiàn)時(shí)必須加以離散化,因此考慮離散小波變換。離散小波變換定義如下:
其中Ψ(·)叫做母小波,x(k)為采樣信號(hào),W(j,k)為離散化小波變換系數(shù)。
在信號(hào)的多分辨分解過程中,首先將原始信號(hào)S分解以后,其系數(shù)分為低頻系數(shù)向量CA1和高頻系數(shù)向量CD1,向量CA1由信號(hào)S與低通分解濾波器卷積運(yùn)算得到,向量CD1由信號(hào)S和高通分解濾波器卷積運(yùn)算得到;用同樣的方法把低頻系數(shù)向量CA1分解為低頻系數(shù)CA2和高頻系數(shù)向量CD2;依次類推,可以對(duì)信號(hào)進(jìn)行多級(jí)分解。低頻部分表征信號(hào)的本身特征,而高頻部分表征信號(hào)的細(xì)微差別,如果只保留低頻信號(hào),仍可以辨別出說話的內(nèi)容,但可能不太容易辨別說話人。但如果去除了低頻部分,就只能聽到一些噪聲圈。因此,經(jīng)過小波變換后,可只保留信號(hào)的低頻部分,即信號(hào)的小波近似系數(shù),這樣即可表征原始信號(hào),又可減少數(shù)據(jù)量。本發(fā)明采用了3層分解,并將近似系數(shù)CA3作為新的信號(hào)來表征原始信號(hào)進(jìn)行處理,得到離散信號(hào)。
優(yōu)選地,采用DB4小波對(duì)離散信號(hào)進(jìn)行處理,由于音頻信號(hào)是非平穩(wěn)的信號(hào),大多數(shù)音頻信號(hào)的能量分布比較集中,音頻信號(hào)重構(gòu)時(shí),應(yīng)該使重構(gòu)信號(hào)的失真較小且比較平滑,因此選取的小波首先必須滿足緊支集、消失矩和正則性。其次也要便于計(jì)算。實(shí)驗(yàn)中發(fā)現(xiàn),應(yīng)用DB4小波對(duì)音頻信號(hào)進(jìn)行處理取得的效果較為理想。根據(jù)DB4小波變換得到的變換域,提取多維小波域特征,多維小波域特征包括過零點(diǎn)、幀能量、質(zhì)心、帶寬、基因頻率等8維小波域特征。
其中,音頻特征提取可以基于兩種不同的時(shí)間長(zhǎng)度,一種是基于音頻幀(audio frame)的特征提取,持續(xù)時(shí)間一般是幾十毫秒;另一種是基于音頻例子(audio clip)的特征提取,持續(xù)時(shí)間一般是幾秒。在音頻分類中,所選取的特征應(yīng)該能夠充分刻畫音頻在時(shí)頻域的重要分類特性,對(duì)環(huán)境的改變具有魯棒性和—般性。本發(fā)明是在小波域中提取音頻例子的統(tǒng)計(jì)特征來進(jìn)行分類,先將音頻例子分為疊加幀,對(duì)每一音頻幀提取特征,然后根據(jù)幀層次上的特征計(jì)算例子層次上的特征。
下面對(duì)過零點(diǎn)、幀能量、質(zhì)心、帶寬、基因頻率做進(jìn)一步說明:
(1)過零點(diǎn)
對(duì)每一幀的低頻系數(shù)(CA3)進(jìn)行特征提取,為了表示方便令CA3=xn,則xn(i)代表第n幀的第i個(gè)系數(shù)。過零點(diǎn)反映的是信號(hào)在經(jīng)過小波變換后,低頻子帶小波系數(shù)的正負(fù)變化。為了防止噪聲干擾,相鄰系數(shù)之間要有一定幅度變化。計(jì)算公式如下:
xn(i)*xn(i+1)<0&&xn(i+1)-xn(i)>0.02 (4)過零點(diǎn)這個(gè)指標(biāo)越小,反映信號(hào)越平穩(wěn),這在音樂風(fēng)格上表現(xiàn)為節(jié)奏平穩(wěn),音頻波動(dòng)越小,反之亦然。
(2)幀能量
在時(shí)域中,音頻信號(hào)的幅度分析可用于估計(jì)音頻信號(hào)的特征,幅度分析包括幅度和能量?jī)煞矫?,由于音頻的時(shí)域特性中的平均幅度與小波系數(shù)的平均幅度相對(duì)應(yīng),因此可以用小波系數(shù)來定義音頻的能量特征。本文中,定義若—個(gè)音頻例子(clip)被分為L(zhǎng)幀,則第n幀(1≤n≤L)的幀能量的表示如下:
式中,K表示每一幀中的小波系數(shù)的個(gè)數(shù),xn(i)表示第n幀的第i個(gè)小波系數(shù)。
(3)質(zhì)心
在小波域中,質(zhì)心定義為能量分布的中心。由于在不同的時(shí)間段內(nèi),音頻信號(hào)的質(zhì)心是不同的,從而質(zhì)心特征可以作為一個(gè)典型的反映音頻信號(hào)非平穩(wěn)性的特征。質(zhì)心定義如下:
(4)帶寬
時(shí)頻域分析中,帶寬是衡量音頻頻域范圍的指標(biāo),而在小波域中,帶寬則反映了平均能量的分布范圍,在不同的時(shí)間段內(nèi),音頻信號(hào)的帶寬是不一樣的,因此帶寬特征可以作為—個(gè)典型的反映音頻信號(hào)非平穩(wěn)性的特征。其定義如下:
(5)基音頻率
基音頻率是衡量音調(diào)高低的單位。音頻信號(hào)S經(jīng)小波變換后取其近似系數(shù)CA3,作為新的信號(hào)xn(i),定義xn(i)的自相關(guān)函數(shù)Rn(m)為:
圖4為本發(fā)明中的歸一化自相關(guān)函數(shù)示意圖。當(dāng)N=60時(shí),自相關(guān)取得最大值,基音頻域等于
參見圖5,步驟S3中,多個(gè)音樂體裁特征值的構(gòu)造,具體為:
步驟S301,計(jì)算多個(gè)梅爾倒頻譜系數(shù)的平均值;
步驟S302,計(jì)算多幀信號(hào)的能量平均值、方差,計(jì)算總的低能量幀的能量數(shù),低能量幀為能量小于平均能量0.5倍的幀;
步驟S303,計(jì)算多幀信號(hào)的質(zhì)心、帶寬、過零點(diǎn)的均值;
步驟S304,計(jì)算多幀信號(hào)的基音變換率和等基音頻率比例;
步驟S305,將上述特征值組成的多維向量,形成統(tǒng)計(jì)特征,統(tǒng)計(jì)特征作為L(zhǎng)ogistic回歸分類器的輸入。
參見圖6和圖7,步驟S4中,統(tǒng)計(jì)特征向量的構(gòu)成,具體為:
步驟S401,在每個(gè)統(tǒng)計(jì)特征上都乘以一個(gè)回歸系數(shù),得到統(tǒng)計(jì)特征向量;
步驟S402,將統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,得到一個(gè)范圍在0-1之間的數(shù)值,實(shí)現(xiàn)音樂體載的分類,Logistic回歸分類器是利用Sigmoid函數(shù)構(gòu)成的分類器。
本申請(qǐng)實(shí)施例提出了一種基于小波變換域的音樂體裁分類方法,在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征。把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)20維的向量,這些特征包括13個(gè)MFCC系數(shù)、過零點(diǎn)數(shù)、能量均值、能量方差、低幀能量比、質(zhì)心、基音頻率、帶寬。
Sigmoid函數(shù)是一個(gè)良好的閾值函數(shù),具有連續(xù),光滑,嚴(yán)格單調(diào)的特性,通過Sigmoid函數(shù)構(gòu)成Logistic回歸分類器,可提高分類精度。
Logistic regression(邏輯回歸),是一種分類方法,用于二分類問題(即輸出只有兩種)。通常兩類使用類別標(biāo)號(hào)0和1表示,0表示不發(fā)生,1表示發(fā)生。例如:有100個(gè)手機(jī),其中有30個(gè)是你喜歡的,70個(gè)是不喜歡的?,F(xiàn)預(yù)測(cè)你對(duì)第101個(gè)手機(jī)的喜好。這是一個(gè)兩類問題,喜歡與不喜歡。
顯然這是一個(gè)二分類問題,我們對(duì)第101個(gè)手機(jī)進(jìn)行預(yù)測(cè)分類,分為喜歡和不喜歡兩個(gè)類別。通過Logistic回歸作為分類器,對(duì)音樂進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度。
實(shí)施例二
圖8示出了本發(fā)明第二實(shí)施例所提供的一種基于多特征音樂體載的分類系統(tǒng)的示意圖。如圖8所示,本發(fā)明第二實(shí)施例提供一種基于多特征音樂體載的分類系統(tǒng)10,包括:
頻域特征提取模塊101,用于獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;
小波域特征提取模塊102,用于對(duì)每一幀音頻信號(hào)做離散小波變換,提取小波域特征;
統(tǒng)計(jì)特征向量生成模塊103,用于將頻域特征和小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;
音樂分類模塊104,用于將統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明的基于多特征音樂體載的分類系統(tǒng)10,其技術(shù)方案為:先通過頻域特征提取模塊101,獲取音樂體載中的多幀音頻信號(hào),提取每一幀音頻信號(hào)頻譜的多個(gè)梅爾倒頻譜系數(shù),得到頻域特征;然后通過小波域特征提取模塊102,對(duì)每一幀音頻信號(hào)做離散小波變換,提取小波域特征;接著通過統(tǒng)計(jì)特征向量生成模塊103,將頻域特征和小波特征相結(jié)合計(jì)算,得到多個(gè)音樂體裁特征值,形成統(tǒng)計(jì)特征向量;最后通過音樂分類模塊104,將統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,對(duì)音樂進(jìn)行分類識(shí)別。
本發(fā)明的基于多特征音樂體載的分類系統(tǒng)10,在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征;把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)多維的向量,通過Logistic回歸作為分類器,對(duì)音樂體裁進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度和分類效果。
具體地,頻域特征提取模塊101中,包括梅爾倒頻譜系數(shù)提取子模塊,用于:
對(duì)每一幀音頻信號(hào)進(jìn)行快速傅里葉變換,得到每一幀音頻信號(hào)的頻譜;
對(duì)每一幀音頻信號(hào)的頻譜進(jìn)行濾波,得到頻譜能量;
對(duì)頻譜能量取對(duì)數(shù),進(jìn)行離散余弦變換,得到多維梅爾倒頻譜系數(shù)。
具體地,小波域特征提取模塊102中,包括小波域特征提取子模塊,用于:
對(duì)每一幀音頻信號(hào)進(jìn)行離散小波域變換,得到小波變換域;
根據(jù)小波變換域,提取多維小波域特征。
具體地,統(tǒng)計(jì)特征向量生成模塊中103,包括特征值構(gòu)造子模塊,用于:
計(jì)算多個(gè)梅爾倒頻譜系數(shù)的平均值;
計(jì)算多幀信號(hào)的能量平均值、方差,計(jì)算總的低能量幀的能量數(shù),低能量幀為能量小于平均能量0.5倍的幀;
計(jì)算多幀信號(hào)的質(zhì)心、帶寬、過零點(diǎn)的均值;
計(jì)算多幀信號(hào)的基音變換率和等基音頻率比例;
將上述特征值組成的多維向量,形成統(tǒng)計(jì)特征,統(tǒng)計(jì)特征作為L(zhǎng)ogistic回歸分類器的輸入。
具體地,音樂分類模塊104中,包括統(tǒng)計(jì)特征構(gòu)成子模塊,用于:
在每個(gè)統(tǒng)計(jì)特征上都乘以一個(gè)回歸系數(shù),得到統(tǒng)計(jì)特征向量;
將統(tǒng)計(jì)特征向量輸入預(yù)先訓(xùn)練好的Logistic回歸分類器,得到一個(gè)范圍在0-1之間的數(shù)值,實(shí)現(xiàn)音樂體載的分類,Logistic回歸分類器是利用Sigmoid函數(shù)構(gòu)成的分類器。
本發(fā)明提出了一種基于小波變換域的音樂體裁分類方法及系統(tǒng),在提取每一幀頻域特征梅爾倒頻譜系數(shù)(MFCC)的同時(shí),也對(duì)每一幀信號(hào)做離散小波變換,提取小波域特征。把頻域特征和小波特征相結(jié)合計(jì)算其統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征融合成一個(gè)20維的向量,這些特征包括13個(gè)MFCC系數(shù)、過零點(diǎn)數(shù)、能量均值、能量方差、低幀能量比、質(zhì)心、基音頻率、帶寬。
Sigmoid函數(shù)是一個(gè)良好的閾值函數(shù),具有連續(xù),光滑,嚴(yán)格單調(diào)的特性,通過Sigmoid函數(shù)構(gòu)成Logistic回歸分類器,可提高分類精度。
Logistic regression(邏輯回歸),是一種分類方法,用于二分類問題(即輸出只有兩種)。通常兩類使用類別標(biāo)號(hào)0和1表示,0表示不發(fā)生,1表示發(fā)生。例如:有100個(gè)手機(jī),其中有30個(gè)是你喜歡的,70個(gè)是不喜歡的?,F(xiàn)預(yù)測(cè)你對(duì)第101個(gè)手機(jī)的喜好。這是一個(gè)兩類問題,喜歡與不喜歡。
顯然這是一個(gè)二分類問題,我們對(duì)第101個(gè)手機(jī)進(jìn)行預(yù)測(cè)分類,分為喜歡和不喜歡兩個(gè)類別。通過Logistic回歸作為分類器,對(duì)音樂進(jìn)行分類識(shí)別,取得了較高的識(shí)別精度。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。