两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

沖擊聲檢測(cè)裝置和沖擊聲檢測(cè)方法

文檔序號(hào):10625476閱讀:722來源:國知局
沖擊聲檢測(cè)裝置和沖擊聲檢測(cè)方法
【專利摘要】本發(fā)明提供沖擊聲檢測(cè)裝置和沖擊聲檢測(cè)方法。該沖擊聲檢測(cè)裝置包括:被構(gòu)造為獲得音頻輸入的單元;被構(gòu)造為從獲得的音頻中提取至少一種特征,并且基于提取的特征,將獲得的音頻分割為至少一個(gè)音頻段的單元;被構(gòu)造為基于預(yù)先生成的聲音模型和提取的特征,從音頻段中識(shí)別第一沖擊聲的單元;被構(gòu)造為在至少一部分音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn),并且輸出起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征的單元;被構(gòu)造為基于預(yù)先生成的起始點(diǎn)模型和起始點(diǎn)的能量相關(guān)特征,確定起始點(diǎn)的至少兩種類型的單元;以及被構(gòu)造為基于識(shí)別的沖擊聲和確定的起始點(diǎn)的類型,從音頻段中確定第二沖擊聲的單元。根據(jù)本發(fā)明,通過使用起始點(diǎn)的信息,能夠改善沖擊聲檢測(cè)性能。
【專利說明】
沖擊聲檢測(cè)裝置和沖擊聲檢測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及聲音檢測(cè),尤其設(shè)及沖擊聲檢測(cè)裝置和沖擊聲檢測(cè)方法。
【背景技術(shù)】
[0002] 現(xiàn)在,聲音檢測(cè)技術(shù)在安全監(jiān)控中得到了廣泛應(yīng)用,例如檢測(cè)給定環(huán)境中的音頻 異常、檢測(cè)在給定設(shè)備(例如多功能打印機(jī)(MFP))正在工作時(shí)產(chǎn)生的音頻異常。
[0003] 通常,聲音檢測(cè)系統(tǒng)包括兩個(gè)主要部分,即分割部分和識(shí)別部分。首先,在分割部 分中,聲音檢測(cè)系統(tǒng)使用本領(lǐng)域技術(shù)人員熟悉的任何種類的語音端點(diǎn)檢測(cè)(VAD)算法,將 音頻輸入分割為音頻段。然后,在識(shí)別部分中,聲音檢測(cè)系統(tǒng)基于由訓(xùn)練數(shù)據(jù)通過使用本 領(lǐng)域技術(shù)人員熟悉的任何監(jiān)督和/或無監(jiān)督方式生成的預(yù)先生成的聲音模型,識(shí)別從分割 部分獲得的音頻段。例如,美國專利申請(qǐng)US2012/0185418公開了一種用于檢測(cè)異常音頻 事件的系統(tǒng)和方法,并且公開了一種用于針對(duì)異常音頻事件檢測(cè)訓(xùn)練聲音模型的無監(jiān)督方 式。該方法主要包括W下兩個(gè)階段:第一階段是學(xué)習(xí)階段,即在諸如聲學(xué)參數(shù)的提取和聲 學(xué)分割的預(yù)處理操作之后,將音頻段分組到各個(gè)類中,然后,基于音頻段的分類學(xué)習(xí)統(tǒng)計(jì)模 型;第二階段是使用階段,即在諸如聲學(xué)參數(shù)的提取和聲學(xué)分割的預(yù)處理操作之后,使用在 第一階段中生成的統(tǒng)計(jì)模型,檢測(cè)異常事件。
[0004] 由于沖擊聲具有W下屬性,即沖擊聲的能量在初始音頻帖中快速增大,而在結(jié)束 音頻帖中緩慢減小,因此,諸如槍擊聲檢測(cè)、玻璃破碎聲檢測(cè)和爆炸聲檢測(cè)的沖擊聲檢測(cè)是 聲音檢測(cè)技術(shù)中的特殊情況。然而,在上面提及的諸如美國專利申請(qǐng)US2012/0185418的相 關(guān)技術(shù)中,識(shí)別部分僅使用從分割部分獲得的音頻段的特征(例如音頻段的邊界信息),而 沒有考慮各個(gè)音頻段的初始音頻帖的屬性。因此,使用現(xiàn)有聲音檢測(cè)方法的沖擊聲檢測(cè)性 能低;尤其由于環(huán)境噪聲,誤警率高。

【發(fā)明內(nèi)容】

[0005] 因此,鑒于上面在【背景技術(shù)】部分中的敘述,本發(fā)明要解決的技術(shù)問題是在檢測(cè)沖 擊聲時(shí),除了使用音頻段的特征之外,充分利用沖擊聲的能量在各個(gè)音頻段的初始音頻帖 中快速增大的信息,使得能夠通過考慮各個(gè)音頻段的初始音頻帖的屬性,來改善沖擊聲檢 測(cè)性能。
[0006] 根據(jù)本發(fā)明,提供一種沖擊聲檢測(cè)裝置,其包括:音頻獲得單元,被構(gòu)造為獲得音 頻輸入;預(yù)處理單元,被構(gòu)造為從所獲得的音頻中提取至少一種特征,并且基于所提取的特 征,將所獲得的音頻分割為至少一個(gè)音頻段;沖擊聲識(shí)別單元,被構(gòu)造為基于預(yù)先生成的聲 音模型和與所述音頻段相對(duì)應(yīng)的所提取的特征,從所述音頻段中識(shí)別第一沖擊聲;起始點(diǎn) 檢測(cè)單元,被構(gòu)造為在至少一部分所述音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn),并且輸出所述起始 點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān)特征;起始點(diǎn)分類單元,被構(gòu)造為基于預(yù)先生成的起始 點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān)特征,確定所述起始點(diǎn)的至少兩種類型;W及沖擊聲 確定單元,被構(gòu)造為基于從所述沖擊聲識(shí)別單元輸出的所述第一沖擊聲和從所述起始點(diǎn)分 類單元輸出的所確定的所述起始點(diǎn)的類型,從所述音頻段中確定第二沖擊聲。
[0007] 如上所述,在檢測(cè)沖擊聲時(shí),除了使用從上述預(yù)處理操作中獲得的音頻段的特征 之外,本發(fā)明還考慮使用音頻段的起始點(diǎn)的信息,例如起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān) 特征。在本發(fā)明中,將起始點(diǎn)視為相應(yīng)的音頻段中的能量變化最大的點(diǎn),其可W提供不同沖 擊聲的特有信息,例如對(duì)于不同的沖擊聲來說,在初始音頻帖中快速增大的沖擊聲的能量 的不同的增大模式。因此,使用起始點(diǎn)的信息能夠改善沖擊聲檢測(cè)性能。
[0008] 通過W下參照附圖的描述,本發(fā)明的其他特征和優(yōu)點(diǎn)將變得清楚。
【附圖說明】
[0009] 包含在說明書中并構(gòu)成說明書的一部分的附圖例示了本發(fā)明的實(shí)施例,并且與文 字說明一起用來解釋本發(fā)明的原理。
[0010] 圖1是示出應(yīng)用根據(jù)本發(fā)明的沖擊聲檢測(cè)技術(shù)的安全監(jiān)控系統(tǒng)的整體構(gòu)成的框 圖。 W11]圖2是例示根據(jù)本發(fā)明的示例性實(shí)施例的沖擊聲檢測(cè)裝置的示例性控制配置的 框圖。
[0012] 圖3是例示根據(jù)本發(fā)明的第一實(shí)施例的沖擊聲檢測(cè)裝置的示例性功能配置的框 圖。
[0013] 圖4示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的檢測(cè)音頻段的起始點(diǎn)的處理 的流程圖。
[0014] 圖5示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的檢測(cè)音頻段的起始點(diǎn)的處理 的另一流程圖。
[0015] 圖6示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的生成起始點(diǎn)模型的方法的流 程圖。
[0016] 圖7示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的生成起始點(diǎn)相關(guān)聲音模型的 方法的流程圖。
[0017] 圖8是例示根據(jù)本發(fā)明的第二實(shí)施例的沖擊聲檢測(cè)裝置的示例性功能配置的框 圖。
[0018] 圖9是例示根據(jù)本發(fā)明的第Ξ實(shí)施例的沖擊聲檢測(cè)裝置的示例性功能配置的框 圖。
[0019] 圖10是例示根據(jù)本發(fā)明的第四實(shí)施例的沖擊聲檢測(cè)裝置的示例性功能配置的框 圖。
[0020] 圖11是例示根據(jù)本發(fā)明的第五實(shí)施例的沖擊聲檢測(cè)裝置的示例性功能配置的框 圖。
[0021] 圖12示意性地示出了根據(jù)本發(fā)明的實(shí)施例的沖擊聲檢測(cè)方法的流程圖。
[0022] 圖13示意性地示出了根據(jù)本發(fā)明的實(shí)施例的沖擊聲檢測(cè)方法的另一流程圖。
【具體實(shí)施方式】
[0023] 下面參照附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例。應(yīng)當(dāng)注意,下面的描述實(shí)質(zhì)上僅 僅是說明性和示例性的,而絕不旨在限制本發(fā)明及其應(yīng)用或用途。除非另外具體說明,否則 在實(shí)施例中陳述的部件和步驟、數(shù)字表達(dá)式和數(shù)值的相對(duì)布置不限制本發(fā)明的范圍。另外, 不詳細(xì)討論本領(lǐng)域技術(shù)人員已知的技術(shù)、方法和設(shè)備,但是在適當(dāng)?shù)那闆r下,運(yùn)些技術(shù)、方 法和設(shè)備旨在作為本說明書的一部分。
[0024] 請(qǐng)注意,在附圖中類似的附圖標(biāo)記和字母指代類似的項(xiàng),因此一旦在一個(gè)圖中定 義了一個(gè)項(xiàng),則不需要針對(duì)下面的圖對(duì)其進(jìn)行討論。 陽0巧](安全監(jiān)控系統(tǒng))
[00%] 圖1是示出應(yīng)用根據(jù)本發(fā)明的沖擊聲檢測(cè)技術(shù)的安全監(jiān)控系統(tǒng)10的整體構(gòu)成的 框圖。
[0027] 如圖1所示,安全監(jiān)控系統(tǒng)10可W包括音頻傳感器11、沖擊聲檢測(cè)裝置100 W及 諸如PC型設(shè)備12和警報(bào)設(shè)備13的警報(bào)裝置。
[0028] 音頻傳感器11接收聲音、存在于要監(jiān)控的區(qū)域中的音頻噪聲、要監(jiān)控的設(shè)備產(chǎn)生 的音頻異?;蛘呦MM(jìn)行可聽事件分析的信息。向沖擊聲檢測(cè)裝置100發(fā)送在音頻傳感器 11上接收到的音頻數(shù)據(jù)。沖擊聲檢測(cè)裝置100根據(jù)下文中將參照?qǐng)D2~13詳細(xì)描述的本 發(fā)明的實(shí)施例,檢測(cè)音頻數(shù)據(jù)內(nèi)的沖擊聲。然后,沖擊聲檢測(cè)裝置100向警報(bào)裝置輸出檢測(cè) 到的沖擊聲,例如經(jīng)由網(wǎng)絡(luò)(未示出)向PC型設(shè)備12輸出檢測(cè)到的沖擊聲,W向用戶和/ 或操作者顯示結(jié)果,或者向警報(bào)設(shè)備13輸出檢測(cè)到的沖擊聲,W向用戶和/或操作者發(fā)出 警報(bào)或者警告有危險(xiǎn)。
[0029] 如上所述,安全監(jiān)控系統(tǒng)10可W用來檢測(cè)諸如超市的給定環(huán)境中的音頻異常,并 且可W用來檢測(cè)在諸如MFP的設(shè)備正在工作時(shí)產(chǎn)生的音頻異常。此外,W MFP為例,當(dāng)使用 安全監(jiān)控系統(tǒng)10監(jiān)控在MFP的工作進(jìn)展期間是否發(fā)生了諸如卡紙的故障時(shí),音頻傳感器11 和警報(bào)設(shè)備13可W是MFP的現(xiàn)有部件,而沖擊聲檢測(cè)裝置100可W通過硬件和/或軟件來 實(shí)現(xiàn)。在一種實(shí)現(xiàn)方式中,可W將能夠執(zhí)行沖擊聲檢測(cè)的功能模塊或者功能裝置并入MFP 中,由此MFP將具有相應(yīng)的安全監(jiān)控功能。在另一種實(shí)現(xiàn)方式中,可W將能夠執(zhí)行沖擊聲檢 測(cè)的軟件程序存儲(chǔ)在MFP的存儲(chǔ)設(shè)備中,由此MFP也將具有相應(yīng)的安全監(jiān)控功能。
[0030] (沖擊聲檢測(cè)裝置)
[0031] 圖2是例示根據(jù)本發(fā)明的示例性實(shí)施例的圖1所示的沖擊聲檢測(cè)裝置100的示例 性控制配置的框圖。沖擊聲檢測(cè)裝置100可W包括中央處理單元(CPU) 101、隨機(jī)存取存儲(chǔ) 器(RAM) 102、只讀存儲(chǔ)器(ROM) 103、硬盤104、輸入設(shè)備105、輸出設(shè)備106和網(wǎng)絡(luò)接口 107, 它們經(jīng)由系統(tǒng)總線108彼此可通信地連接。
[0032] CPU 101可W是任何合適的可編程控制設(shè)備,其通過執(zhí)行存儲(chǔ)在ROM 103或硬盤 104中的各種應(yīng)用程序,能夠執(zhí)行下文中要描述的各種功能。RAM 102用于臨時(shí)存儲(chǔ)從ROM 103或硬盤104載入的程序或數(shù)據(jù),并且還用作CPU 101執(zhí)行各種程序的空間。硬盤104可 W存儲(chǔ)多種信息,例如操作系統(tǒng)(0巧、各種應(yīng)用、控制程序、由用戶、操作者和/或制造商預(yù) 先生成或訓(xùn)練的數(shù)據(jù)和模型,其中,模型例如可W是下文中將詳細(xì)描述的起始點(diǎn)模型、聲音 模型和/或起始點(diǎn)相關(guān)聲音模型。此外,可W將由制造商預(yù)先訓(xùn)練的模型存儲(chǔ)在ROM 103 或硬盤104中。
[0033] 輸入設(shè)備105可W是輸入接口,其可W接收例如從圖1所示的音頻傳感器11輸出 的音頻數(shù)據(jù)。輸出設(shè)備106可W是輸出接口,其可W向警報(bào)裝置輸出檢測(cè)到的沖擊聲,例如 經(jīng)由網(wǎng)絡(luò)(未示出)向PC型設(shè)備12輸出檢測(cè)到的沖擊聲,或者向圖1所示的警報(bào)設(shè)備13 輸出檢測(cè)到的沖擊聲。
[0034] 網(wǎng)絡(luò)接口 107提供用于將沖擊聲檢測(cè)裝置100連接到網(wǎng)絡(luò)(未示出)的接口。例 如,沖擊聲檢測(cè)裝置100經(jīng)由網(wǎng)絡(luò)接口 107與經(jīng)由網(wǎng)絡(luò)連接的其它電子設(shè)備(例如圖1所 示的PC型設(shè)備12)進(jìn)行數(shù)據(jù)通信(例如發(fā)送檢測(cè)到的沖擊聲)。作為另選方案,可W對(duì)沖 擊聲檢測(cè)裝置100設(shè)置無線接口,W進(jìn)行無線數(shù)據(jù)通信。系統(tǒng)總線108可W提供用于向、從 CPU10URAM 102、R0M 103、硬盤104、輸入設(shè)備105、輸出設(shè)備106和網(wǎng)絡(luò)接口 107等或者在 它們之間彼此傳輸數(shù)據(jù)的數(shù)據(jù)傳輸路徑。雖然稱為總線,但是系統(tǒng)總線108不局限于任何 特定數(shù)據(jù)傳輸技術(shù)。 陽03引(第一實(shí)施例)
[0036] 圖3是例示根據(jù)本發(fā)明的第一實(shí)施例的與由沖擊聲檢測(cè)裝置100進(jìn)行的沖擊聲 檢測(cè)相關(guān)的示例性功能配置的框圖。在第一實(shí)施例中,本發(fā)明使用起始點(diǎn)的分類結(jié)果來優(yōu) 化沖擊聲識(shí)別的結(jié)果,其中,起始點(diǎn)被視為相應(yīng)的音頻段中的能量的變化最大的點(diǎn)。當(dāng)CPU 101執(zhí)行存儲(chǔ)在R0M103和/或硬盤104中的程序時(shí),實(shí)現(xiàn)下面的功能單元。
[0037] 如圖3所示,輸入設(shè)備105可W接收例如從圖1所示的音頻傳感器11輸出的音頻 數(shù)據(jù)。
[0038] 音頻獲得單元301獲得來自輸入設(shè)備105的音頻輸入。
[0039] 預(yù)處理單元302首先從所獲得的從音頻獲得單元301輸出的音頻中,提取至少一 種特征。所提取的特征可W是W下本領(lǐng)域技術(shù)人員已知的特征中的至少一個(gè):例如線性 預(yù)測(cè)系數(shù)(LPC)、過零率狂CR)、梅爾頻率倒譜系數(shù)(MFCC)、譜功率、子帶能量、子帶能量的 Teager能量算子(TE0)等。然后,預(yù)處理單元302例如使用本領(lǐng)域技術(shù)人員熟悉的任意種 類的VAD算法,基于所提取的特征,將所獲得的音頻分割為至少一個(gè)音頻段。作為另選方 案,也可W在兩個(gè)單獨(dú)的單元中執(zhí)行上述提取操作和分割操作。
[0040] 沖擊聲識(shí)別單元303從預(yù)處理單元302接收音頻段和提取的特征,并且基于預(yù)先 生成的聲音模型307和與音頻段相對(duì)應(yīng)的提取的特征,從音頻段中識(shí)別沖擊聲(即第一沖 擊聲)。對(duì)于各個(gè)音頻段,沖擊聲識(shí)別單元303計(jì)算其與各個(gè)聲音模型相對(duì)應(yīng)的似然度得 分,并且按照似然度得分的順序選擇聲音。
[0041] 例如,一個(gè)音頻段的似然度得分可W被表示為Pli= P(SMi|feature(l~M)),其 意為該音頻段與第i個(gè)聲音模型相對(duì)應(yīng)的似然度得分為Pli,其中,i是聲音模型的索引, fe£Tture(l~M)是與該音頻段相對(duì)應(yīng)的提取的特征。
[0042] 聲音模型307可W由用戶、操作者和/或制造商,基于已錄音頻和與已錄音頻相對(duì) 應(yīng)的音頻標(biāo)簽預(yù)先生成或訓(xùn)練,并且存儲(chǔ)在圖2中的沖擊聲檢測(cè)裝置100的ROM 103或硬 盤104中。
[0043] 作為優(yōu)選的可選解決方案,聲音模型307可W是根據(jù)下文中將參照?qǐng)D7詳細(xì)描述 的方法生成的起始點(diǎn)相關(guān)聲音模型。
[0044] 起始點(diǎn)檢測(cè)單元304接收從預(yù)處理單元302輸出的所有音頻段,并且檢測(cè)音頻段 的起始點(diǎn)并輸出起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征。在一種實(shí)現(xiàn)方式中,起始點(diǎn)檢測(cè) 單元304檢測(cè)各個(gè)音頻段的起始點(diǎn),并且輸出起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征。作 為優(yōu)選解決方案,下文中將參照?qǐng)D4~5詳細(xì)描述檢測(cè)音頻段的起始點(diǎn)的方法/處理。 陽045] 起始點(diǎn)分類單元305從起始點(diǎn)檢測(cè)單元304接收起始點(diǎn)的能量相關(guān)特征,并且基 于預(yù)先生成的起始點(diǎn)模型308和起始點(diǎn)的能量相關(guān)特征,確定起始點(diǎn)的至少兩種類型。起 始點(diǎn)模型308可W由用戶、操作者和/或制造商,基于已錄音頻和與已錄音頻相對(duì)應(yīng)的音頻 標(biāo)簽預(yù)先生成或訓(xùn)練,并且存儲(chǔ)在圖2中的沖擊聲檢測(cè)裝置100的ROM 103或硬盤104中。 作為優(yōu)選解決方案,起始點(diǎn)模型308可W根據(jù)下文中將參照?qǐng)D6詳細(xì)描述的方法生成。
[0046] 起始點(diǎn)的至少兩種類型可W是沖擊聲相關(guān)類型和非沖擊聲相關(guān)類型。此外,沖擊 聲相關(guān)類型可W包括多于一種,也就是說,沖擊聲相關(guān)類型可W包括多于一個(gè)的特定沖擊 聲相關(guān)類型,例如槍擊聲相關(guān)類型、玻璃破碎聲相關(guān)類型、爆炸聲相關(guān)類型等。類似地,非沖 擊聲相關(guān)類型也可W包括多于一種。應(yīng)當(dāng)注意,只要容易將非沖擊聲相關(guān)類型與沖擊聲相 關(guān)類型區(qū)分,則起始點(diǎn)的類型的種類是多少不重要。
[0047] 同時(shí),對(duì)于各個(gè)音頻段的起始點(diǎn),起始點(diǎn)分類單元305計(jì)算其與各個(gè)起始點(diǎn)模 型相對(duì)應(yīng)的似然度得分。例如,一個(gè)音頻段的起始點(diǎn)的似然度得分可W被表示為P2,= P (SPj I RTE0 (π〇),其意為該起始點(diǎn)與第j個(gè)起始點(diǎn)模型相對(duì)應(yīng)的似然度得分是P2j,其中,j 是起始點(diǎn)模型的索引,RTEOOiO是下文中將參照?qǐng)D4~5詳細(xì)描述的起始點(diǎn)的能量相關(guān)特 征。
[0048] 沖擊聲確定單元306基于從沖擊聲識(shí)別單元303輸出的第一沖擊聲和從起始點(diǎn)分 類單元305輸出的確定的起始點(diǎn)的類型,從音頻段中確定沖擊聲(即第二沖擊聲)。
[0049] 更具體來說,沖擊聲確定單元306通過將由沖擊聲識(shí)別單元303計(jì)算的第一沖擊 聲的似然度得分,與由起始點(diǎn)分類單元305計(jì)算的確定的起始點(diǎn)的類型的似然度得分綜 合,來確定第二沖擊聲。
[0050] 例如,在一種實(shí)現(xiàn)方式中,對(duì)于一個(gè)音頻段,可W根據(jù)方程式:Pi=Wi沖li+聽沖2來 計(jì)算綜合似然度得分,其中,i是聲音模型的索引,和W 2是可W基于統(tǒng)計(jì)信息和/或本領(lǐng) 域中的經(jīng)驗(yàn)設(shè)置的預(yù)先設(shè)置的權(quán)重。另一方面,當(dāng)與似然度得分Pli相對(duì)應(yīng)的聲音模型是沖 擊聲相關(guān)類型時(shí),似然度得分P2可W根據(jù)與沖擊聲相關(guān)類型相對(duì)應(yīng)的似然度得分P2,來確 定,例如,P2是與沖擊聲相關(guān)類型相對(duì)應(yīng)的似然度得分P2,的平均得分,或者P2是與沖擊聲 相關(guān)類型相對(duì)應(yīng)的似然度得分P2,中的最大得分。當(dāng)與似然度得分P1 1相對(duì)應(yīng)的聲音模型 是非沖擊聲相關(guān)類型時(shí),似然度得分P2可W根據(jù)與非沖擊聲相關(guān)類型相對(duì)應(yīng)的似然度得 分P2,來確定。然后,沖擊聲確定單元306根據(jù)綜合似然度得分P 1中的最大得分,確定該音 頻段是否是第二沖擊聲。另一方面,當(dāng)與似然度得分Pli相對(duì)應(yīng)的聲音模型是特定沖擊聲 相關(guān)類型(例如槍擊聲相關(guān)類型)時(shí),似然度得分P2可W根據(jù)與上述特定沖擊聲相關(guān)類型 (即槍擊聲相關(guān)類型)相對(duì)應(yīng)的似然度得分P2,來確定。然后,沖擊聲確定單元306根據(jù)綜 合似然度得分Pi中的最大得分,確定該音頻段的最終特定聲音。
[0051] 另外,對(duì)于一些極端情形,例如音頻段的能量的變化非常小和/或近似為零,起始 點(diǎn)檢測(cè)單元304可能針對(duì)該音頻段檢測(cè)到錯(cuò)誤或者無效的起始點(diǎn),其意為將該音頻段判斷 為沖擊聲的可能性非常小。因此,一方面,沖擊聲確定單元306可W直接確定該音頻段是非 沖擊聲?;蛘吡硪环矫?,如上面所描述的,可W根據(jù)方程式:Pi= W 1沖li+W2沖2來計(jì)算綜合 似然度得分。如果起始點(diǎn)檢測(cè)單元304檢測(cè)到的該音頻段的起始點(diǎn)是錯(cuò)誤的點(diǎn),則根據(jù)與 沖擊聲相關(guān)類型相對(duì)應(yīng)的似然度得分P2,確定的似然度得分P2可能非常小(例如近似為 零),因此綜合似然度得分Pi中的最大得分對(duì)應(yīng)于沖擊聲的可能性非常小,而該音頻段是非 沖擊聲的可能性相對(duì)更大。由此,沖擊聲確定單元306將該音頻段確定為沖擊聲的可能性 非常小。也就是說,在運(yùn)種情形下,基本上確定該音頻段是非沖擊聲。
[0052] 最后,輸出設(shè)備106接收由沖擊聲確定單元306確定的第二沖擊聲,并且向警報(bào)裝 置輸出第二沖擊聲,例如經(jīng)由網(wǎng)絡(luò)(未示出)向PC型設(shè)備12輸出第二沖擊聲,或者向圖1 所示的警報(bào)設(shè)備13輸出第二沖擊聲。 陽〇5引(起始點(diǎn)檢測(cè))
[0054] 如在圖3中所描述的,下面描述上述由圖3中的起始點(diǎn)檢測(cè)單元304操作的檢測(cè) 音頻段的起始點(diǎn)的方法/處理。
[0055] 作為優(yōu)選解決方案,圖4示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的檢測(cè)音頻 段的起始點(diǎn)的處理的流程圖,其中,相應(yīng)的程序存儲(chǔ)在圖2中的ROM 103和/或硬盤104中, 并且當(dāng)CPU 101執(zhí)行相應(yīng)的程序時(shí),在CPU 101中實(shí)現(xiàn)相應(yīng)的程序。
[0056] 對(duì)于從圖3中的預(yù)處理單元302輸出的一個(gè)音頻段,首先,起始點(diǎn)檢測(cè)單元304 針對(duì)該音頻段中的音頻帖,計(jì)算相對(duì)Teager能量算子能量(TE0)能量。在文獻(xiàn)"Voice Activity Detection Based on Noise Feature Space NR and TEO Energy"by Xiao Lei, Journal of Kunming University of Science and Technology(Science and Technology) Vol. 35 No. 3,化n. 2010中,公開了針對(duì)TEO的相應(yīng)描述。下文中將描述針對(duì)相 對(duì)TEO(RTEO)能量的相應(yīng)描述。
[0057] 在一種實(shí)現(xiàn)方式中,RTE0能量可W根據(jù)下面的圖4所示的步驟S410至S430來計(jì) 算。
[0058] 如圖4所示,在子帶能量計(jì)算步驟S410中,起始點(diǎn)檢測(cè)單元304針對(duì)音頻段中的 各個(gè)音頻帖計(jì)算子帶能量。更具體來說,起始點(diǎn)檢測(cè)單元304基于諸如傅立葉變換方法的 現(xiàn)有譜分析方法,計(jì)算子帶能量,并且可W將計(jì)算的子帶能量表示為SBE (m,k),其中,m是 音頻段中的音頻帖的索引,并且k是子帶的索引。子帶的總數(shù)可W根據(jù)本領(lǐng)域中的經(jīng)驗(yàn)和 /或在實(shí)際應(yīng)用中的要求預(yù)先設(shè)置。 陽059] 在TE0能量計(jì)算步驟S420中,起始點(diǎn)檢測(cè)單元304通過計(jì)算相應(yīng)音頻帖的子帶 能量的變化,來計(jì)算各個(gè)音頻帖的TE0能量。由于基于計(jì)算的子帶能量來計(jì)算TE0能量, 因此TE0能量也可W被視為子帶TE0能量。更具體來說,可W將計(jì)算的TE0能量表示為 TE0(m,k),并且起始點(diǎn)檢測(cè)單元304例如可W根據(jù)下面的方程式來計(jì)算TE0能量:
[0060] TE0 (m, k) = SBE2 (m, k) -S邸(m+1,k)巧邸(m-1,k)
[0061] 其中,該方程式意為子帶TE0(m,k)可W通過對(duì)從子帶能量計(jì)算步驟S410輸出的 各個(gè)計(jì)算的子帶能量SBE(m, k)應(yīng)用TE0而獲得。
[0062] 在RTE0能量計(jì)算步驟S430中,起始點(diǎn)檢測(cè)單元304通過計(jì)算相應(yīng)音頻帖的TE0 能量的變化,來計(jì)算各個(gè)音頻帖的RTE0能量。更具體來說,可W將計(jì)算的RTE0能量表示為 RTE0(m,k),其描述在音頻帖(1~M)期間,音頻帖(m)的第k個(gè)子帶TE0能量相對(duì)于其它 音頻帖的子帶TE0能量的相關(guān)突出程度。例如,上述其它音頻帖可W是音頻帖(m)周圍的 所有音頻帖、音頻帖(m)之前的音頻帖等。并且起始點(diǎn)檢測(cè)單元304例如可W根據(jù)下面的 方程式來計(jì)算RTE0能量:
[0063]
[0064] RTE0(m, k) = 0 if RTE0(m, k) < 0
[0M5] 其中,n也是音頻段中的音頻帖的索引,M是音頻段中的音頻帖的總數(shù)。
[0066] 然后,在計(jì)算RTE0能量之后,起始點(diǎn)檢測(cè)單元304基于計(jì)算的RTE0能量,計(jì)算音 頻帖的相對(duì)突出度(relative outstanding metrics)。在一種實(shí)現(xiàn)方式中,如圖4所示,在 距離計(jì)算步驟S440中,起始點(diǎn)檢測(cè)單元304基于從RTE0能量計(jì)算步驟S430輸出的相應(yīng)音 頻帖的計(jì)算的RTE0能量,計(jì)算各個(gè)音頻帖的相對(duì)突出度。更具體來說,可W將計(jì)算的相對(duì) 突出度表示為D(m),并且起始點(diǎn)檢測(cè)單元304可W使用諸如均方根尺度(RM巧的現(xiàn)有模塊 測(cè)量算法,來計(jì)算相對(duì)突出度。例如,起始點(diǎn)檢測(cè)單元304可W根據(jù)下面的方程式來計(jì)算相 對(duì)突出度:
[0067]
[0068] 其中,該方程式指示使用MS模塊來測(cè)量尺度。 W例最后,如圖4所示,在起始點(diǎn)確定步驟S450中,起始點(diǎn)檢測(cè)單元304將相對(duì)突出度 最大的音頻帖的位置確定為該音頻段的起始點(diǎn),并且記錄相應(yīng)音頻帖的位置作為起始點(diǎn)的 位置,并記錄相應(yīng)音頻帖的RTE0能量作為起始點(diǎn)的能量相關(guān)特征,其中,起始點(diǎn)的位置可 W表示為上述m,并且起始點(diǎn)的能量相關(guān)特征可W表示為上述RTEOOiO。
[0070] 應(yīng)當(dāng)注意,可W在圖3中的起始點(diǎn)檢測(cè)單元304中構(gòu)造各個(gè)單元,來進(jìn)行圖4中的 流程圖所示的各個(gè)步驟。例如,起始點(diǎn)檢測(cè)單元304可W包括W下單元: 陽071] RTE0能量計(jì)算單元,被構(gòu)造為計(jì)算音頻段中的音頻帖的RTE0能量;
[0072] 距離計(jì)算單元,被構(gòu)造為基于計(jì)算的RTE0能量,計(jì)算音頻帖的相對(duì)突出度;W及 陽073] 起始點(diǎn)確定單元,被構(gòu)造為將相對(duì)突出度最大的音頻帖的位置確定為起始點(diǎn),并 且記錄相應(yīng)音頻帖的位置作為起始點(diǎn)的位置,并記錄相應(yīng)音頻帖的RTE0能量作為起始點(diǎn) 的能量相關(guān)特征。
[0074] 作為另一優(yōu)選解決方案,圖5示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的檢測(cè) 音頻段的起始點(diǎn)的處理的另一流程圖,其中,相應(yīng)的程序存儲(chǔ)在圖2中的ROM 103和/或硬 盤104中,并且當(dāng)CPU 101執(zhí)行相應(yīng)的程序時(shí),在CPU 101中實(shí)現(xiàn)相應(yīng)的程序。
[00巧]如圖5所示,首先,計(jì)算音頻段中的音頻帖的RTE0能量的步驟(即步驟S410~ S430)與圖4所示的相應(yīng)的步驟相同,因此運(yùn)里不重復(fù)對(duì)步驟S410~S430的詳細(xì)描述。 陽076] 其次,起始點(diǎn)檢測(cè)單元304使用現(xiàn)有特征變換方法,將音頻帖的RTE0能量轉(zhuǎn)換為 關(guān)鍵TE0能量。在一種實(shí)現(xiàn)方式中,如圖5所示,在變換步驟S510中,起始點(diǎn)檢測(cè)單元304 使用諸如主成分分析(PCA)、線性判別分析(LDA)、Relief算法等的現(xiàn)有特征變換方法,將 各個(gè)音頻帖的RTE0能量轉(zhuǎn)換為關(guān)鍵TE0能量。更具體來說,可W將關(guān)鍵TE0能量表示為 RWTEO(m),并且起始點(diǎn)檢測(cè)單元304可W根據(jù)下面的方程式來計(jì)算關(guān)鍵TE0能量:
[0077] RWTE0 (m) = Transfer (RTEO) = W*RTE0 (m)
[0078] 其中,W是根據(jù)上述特征變換方法生成的預(yù)先生成的特征變換矩陣。
[0079] 第Ξ,在計(jì)算關(guān)鍵TE0能量之后,起始點(diǎn)檢測(cè)單元304基于關(guān)鍵TE0能量,計(jì)算音 頻帖的相對(duì)突出度。在一種實(shí)現(xiàn)方式中,如圖5所示,在距離計(jì)算步驟S520中,起始點(diǎn)檢測(cè) 單元304基于相應(yīng)音頻帖的關(guān)鍵TE0能量,計(jì)算各個(gè)音頻帖的相對(duì)突出度。
[0080] 最后,如圖5所示,在起始點(diǎn)確定步驟S530中,起始點(diǎn)檢測(cè)單元304將相對(duì)突出度 最大的音頻帖的位置確定為起始點(diǎn),并且記錄相應(yīng)音頻帖的位置作為起始點(diǎn)的位置,并記 錄相應(yīng)音頻帖的關(guān)鍵TE0能量作為起始點(diǎn)的能量相關(guān)特征,其中,起始點(diǎn)的位置可W表示 為上述m,并且起始點(diǎn)的能量相關(guān)特征可W表示為上述RWTEOOiO。由于步驟S520~S530 與圖4所示的步驟S440~S450類似,因此運(yùn)里不重復(fù)對(duì)步驟S520~S530的詳細(xì)描述。 陽081] 如上所述,應(yīng)當(dāng)注意,可W在圖3中的起始點(diǎn)檢測(cè)單元304中構(gòu)造各個(gè)單元,來進(jìn) 行圖5中的流程圖所示的各個(gè)步驟。例如,除了上述RTE0能量計(jì)算單元、上述距離計(jì)算單 元和上述起始點(diǎn)確定單元之外,起始點(diǎn)檢測(cè)單元304還可W包括W下單元:
[0082] 變換單元,被構(gòu)造為使用現(xiàn)有特征變換方法,將音頻帖的RTE0能量轉(zhuǎn)換為關(guān)鍵 TE0能量;并且其中,
[0083] 上述距離計(jì)算單元基于關(guān)鍵TE0能量,計(jì)算音頻帖的相對(duì)突出度;并且上述起始 點(diǎn)確定單元將相對(duì)突出度最大的音頻帖的位置確定為起始點(diǎn),并且記錄相應(yīng)音頻帖的位置 作為起始點(diǎn)的位置,并記錄相應(yīng)音頻帖的關(guān)鍵TE0能量作為起始點(diǎn)的能量相關(guān)特征。
[0084] (起始點(diǎn)模型生成)
[00化]如在圖3中所描述的,下面描述上述用于生成由圖3中的起始點(diǎn)分類單元305使 用的起始點(diǎn)模型308的方法。
[0086] 作為優(yōu)選解決方案,圖6示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的用于生成 圖3所示的起始點(diǎn)模型308的方法的流程圖,其中,可W將相應(yīng)的程序存儲(chǔ)在圖2中的ROM 103和/或硬盤104中,并且當(dāng)CPU 101執(zhí)行相應(yīng)的程序時(shí),在CPU 101中實(shí)現(xiàn)相應(yīng)的程序。
[0087] 如圖6所示,在步驟S610中,圖2所示的沖擊聲檢測(cè)裝置100的輸入設(shè)備105接 收可W由用戶、操作者和/或制造商輸入的已錄音頻和與已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽,然 后輸入設(shè)備105向CPU 101提供已錄音頻和與已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽。
[0088] 在步驟S620中,CPU 101首先從所獲得的已錄音頻中提取至少一種特征。所提取 的特征可W是上述諸如1?(:、2〇?、1。〇:、譜功率、子帶能量、子帶能量的了60等的特征中的至 少一個(gè)。然后,CPU 101例如使用本領(lǐng)域技術(shù)人員熟悉的任何種類的VAD算法,基于所提取 的特征,將所獲得的已錄音頻分割為至少一個(gè)已錄音頻段。
[0089] 在步驟S630中,CPU 101檢測(cè)已錄音頻段的起始點(diǎn),并且輸出起始點(diǎn)的位置和起 始點(diǎn)的能量相關(guān)特征。在一種實(shí)現(xiàn)方式中,CPU 101檢測(cè)各個(gè)已錄音頻段的起始點(diǎn),并且輸 出起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征。除了將音頻段改變?yōu)橐唁浺纛l段之外,檢測(cè)一 個(gè)已錄音頻段的起始點(diǎn)的詳細(xì)操作與參照上述圖4~5描述的相應(yīng)內(nèi)容相同,因此運(yùn)里不 重復(fù)對(duì)步驟S630的詳細(xì)描述。如上所述,可W將起始點(diǎn)的位置表示為m%并且可W將起始 點(diǎn)的能量相關(guān)特征表示為RTEOOiO或RWTEOOiO。
[0090] 在步驟S640中,CPU 101使用諸如K均值聚類算法的現(xiàn)有聚類算法,基于與對(duì)應(yīng) 于起始點(diǎn)的已錄音頻段相關(guān)的音頻標(biāo)簽和起始點(diǎn)的能量相關(guān)特征,將從步驟S630中檢測(cè) 到的起始點(diǎn)聚類到至少兩種類型中。在聚類操作期間,起始點(diǎn)的至少兩種類型可W是沖擊 聲相關(guān)類型和非沖擊聲相關(guān)類型。此外,如上所述,沖擊聲相關(guān)類型可W包括多于一個(gè)的特 定沖擊聲相關(guān)類型,例如槍擊聲相關(guān)類型、玻璃破碎聲相關(guān)類型、爆炸聲相關(guān)類型等。另外, 對(duì)于一個(gè)特定沖擊聲,起始點(diǎn)的位置和能量相關(guān)特征在不同的環(huán)境下是不同的,因此可W 基于起始點(diǎn)的屬性進(jìn)一步細(xì)分特定沖擊聲相關(guān)類型。W槍擊聲為例,可W將上述槍擊聲相 關(guān)類型進(jìn)一步細(xì)分為與第一種類型的起始點(diǎn)相對(duì)應(yīng)的第一槍擊聲相關(guān)類型、與第二種類型 的起始點(diǎn)相對(duì)應(yīng)的第二槍擊聲相關(guān)類型等。類似地,如上所述,非沖擊聲相關(guān)類型也可W包 括多于一種。應(yīng)當(dāng)注意,只要容易將非沖擊聲相關(guān)類型與沖擊聲相關(guān)類型區(qū)分,則起始點(diǎn)的 類型的種類是多少不重要。
[0091] 然后,在步驟S650中,CPU 101使用諸如期望最大化(EM)算法的現(xiàn)有模型訓(xùn)練方 法,根據(jù)從步驟S630中獲得的起始點(diǎn)的能量相關(guān)特征和從步驟S640中獲得的起始點(diǎn)的聚 類類型,生成起始點(diǎn)模型。例如,生成的起始點(diǎn)模型可W是高斯混合模型(GMM)、隱馬爾可夫 模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)模型或支持向量機(jī)(SVM)模型,起始點(diǎn)的能量相關(guān)特征可 W是上述RTEOOiO或RWTEOOiO,并且起始點(diǎn)的聚類類型可W是上述沖擊聲相關(guān)類型和非 沖擊聲相關(guān)類型。
[0092] 最后,CPU 101可W將生成的起始點(diǎn)模型存儲(chǔ)在圖2中的沖擊聲檢測(cè)裝置100的 ROM 103或硬盤104中。
[0093] (起始點(diǎn)相關(guān)聲音模型生成)
[0094] 如在圖3中所描述的,可W由沖擊聲識(shí)別單元303使用的聲音模型307可W是起 始點(diǎn)相關(guān)聲音模型。下面描述上述生成起始點(diǎn)相關(guān)聲音模型的方法。
[0095] 作為優(yōu)選解決方案,圖7示意性地示出了根據(jù)本發(fā)明的示例性實(shí)施例的生成可W 由圖3中的沖擊聲識(shí)別單元303使用的起始點(diǎn)相關(guān)聲音模型的方法的流程圖,其中,相應(yīng)的 程序存儲(chǔ)在圖2中的ROM 103和/或硬盤104中,并且當(dāng)CPU 101執(zhí)行相應(yīng)的程序時(shí),在 CPU 101中實(shí)現(xiàn)相應(yīng)的程序。
[0096] 如圖7所示,在步驟S710中,圖2所示的沖擊聲檢測(cè)裝置100的輸入設(shè)備105接 收可W由用戶、操作者和/或制造商輸入的已錄音頻和與已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽,然 后輸入設(shè)備105向CPU 101提供已錄音頻和與已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽。
[0097] 在步驟S720中,CPU 101首先從所獲得的已錄音頻中提取至少一種特征。所提取 的特征可W是上述諸如1?(:、2〇?、1。〇:、譜功率、子帶能量、子帶能量的了60等的特征中的至 少一個(gè)。然后,CPU 101例如使用本領(lǐng)域技術(shù)人員熟悉的任何種類的VAD算法,基于所提取 的特征,將所獲得的已錄音頻分割為至少一個(gè)已錄音頻段。 陽09引在步驟S730中,CPU 101檢測(cè)已錄音頻段的起始點(diǎn),并且輸出起始點(diǎn)的位置和起 始點(diǎn)的能量相關(guān)特征。在一種實(shí)現(xiàn)方式中,CPU 101檢測(cè)各個(gè)已錄音頻段的起始點(diǎn),并且輸 出起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征。除了將音頻段改變?yōu)橐唁浺纛l段之外,檢測(cè)一 個(gè)已錄音頻段的起始點(diǎn)的詳細(xì)操作與參照上述圖4~5描述的相應(yīng)內(nèi)容相同,因此運(yùn)里不 重復(fù)對(duì)步驟S730的詳細(xì)描述。如上所述,可W將起始點(diǎn)的位置表示為m%并且可W將起始 點(diǎn)的能量相關(guān)特征表示為RTEOOiO或RWTEOOiO。
[0099] 在步驟S740中,CPU 101基于從步驟S730中獲得的起始點(diǎn)的能量相關(guān)特征和根據(jù) 在圖6中描述的方法生成的預(yù)先生成的起始點(diǎn)模型,確定起始點(diǎn)的至少兩種類型。如上所 述,起始點(diǎn)的至少兩種類型可W是沖擊聲相關(guān)類型和非沖擊聲相關(guān)類型,并且起始點(diǎn)的能 量相關(guān)特征可W是RTEOOif)或RWTEOOiO。此外,如上所述,沖擊聲相關(guān)類型可W包括多于 一個(gè)的特定沖擊聲相關(guān)類型,例如槍擊聲相關(guān)類型、玻璃破碎聲相關(guān)類型、爆炸聲相關(guān)類型 等。另外,對(duì)于一個(gè)特定沖擊聲,起始點(diǎn)的位置和能量相關(guān)特征在不同的環(huán)境下是不同的, 因此可W基于起始點(diǎn)的屬性進(jìn)一步細(xì)分特定沖擊聲相關(guān)類型。W槍擊聲為例,可W將上述 槍擊聲相關(guān)類型進(jìn)一步細(xì)分為與第一種類型的起始點(diǎn)相對(duì)應(yīng)的第一槍擊聲相關(guān)類型、與第 二種類型的起始點(diǎn)相對(duì)應(yīng)的第二槍擊聲相關(guān)類型等。類似地,如上所述,非沖擊聲相關(guān)類型 也可W包括多于一種。應(yīng)當(dāng)注意,只要容易將非沖擊聲相關(guān)類型與沖擊聲相關(guān)類型區(qū)分,貝U 起始點(diǎn)的類型的種類是多少不重要。
[0100] 然后,在步驟S750中,CPU 101使用諸如EM算法的現(xiàn)有模型訓(xùn)練方法,根據(jù)從步驟 S720中提取的特征、從步驟S710中獲得的音頻標(biāo)簽和從步驟S740中獲得的確定的起始點(diǎn) 的類型,生成起始點(diǎn)相關(guān)聲音模型。例如,生成的起始點(diǎn)相關(guān)聲音模型可W是GMM、HMM、ANN 模型或SVM模型,并且確定的起始點(diǎn)的類型至少可W是上述沖擊聲相關(guān)類型和非沖擊聲相 關(guān)類型。 陽101] 最后,CPU 101可朗尋生成的起始點(diǎn)相關(guān)聲音模型存儲(chǔ)在圖2中的沖擊聲檢測(cè)裝 置100的ROM 103或硬盤104中。由于現(xiàn)有技術(shù)僅使用已錄音頻和與已錄音頻相對(duì)應(yīng)的音 頻標(biāo)簽的特征來生成普通聲音模型,而本發(fā)明還使用已錄音頻段的起始點(diǎn)的類型,來生成 起始點(diǎn)相關(guān)聲音模型,因此本領(lǐng)域中的普通聲音模型是在本發(fā)明中生成的起始點(diǎn)相關(guān)聲音 模型的特殊情況。也就是說,如果不進(jìn)行基于起始點(diǎn)的屬性進(jìn)一步細(xì)分起始點(diǎn)的類型,則本 發(fā)明的起始點(diǎn)相關(guān)聲音模型實(shí)際上是本領(lǐng)域中的普通聲音模型。
[0102] 然而,如果基于起始點(diǎn)的屬性進(jìn)一步細(xì)分起始點(diǎn)的類型,則起始點(diǎn)相關(guān)聲音模型 的精度比本領(lǐng)域中的普通聲音模型更準(zhǔn)確。如上所述,W槍擊聲為例,槍擊聲的起始點(diǎn)的類 型可W是與第一種類型的起始點(diǎn)相對(duì)應(yīng)的第一槍擊聲相關(guān)類型和與第二種類型的起始點(diǎn) 相對(duì)應(yīng)的第二槍擊聲相關(guān)類型,由此槍擊聲的起始點(diǎn)相關(guān)聲音模型可W包含與第一種類型 的起始點(diǎn)相對(duì)應(yīng)的第一槍擊聲模型和與第二種類型的起始點(diǎn)相對(duì)應(yīng)的第二槍擊聲模型。 陽103] 如上所述,本發(fā)明的第一實(shí)施例使用起始點(diǎn)的分類結(jié)果,來優(yōu)化沖擊聲識(shí)別的結(jié) 果。也就是說,圖2所示的沖擊聲檢測(cè)裝置100可W通過將第一沖擊聲的似然度得分和所 確定的起始點(diǎn)的類型的似然度得分綜合,來確定第二沖擊聲。因此,本發(fā)明的沖擊聲檢測(cè)性 能能夠得到改善。此外,如上所述,沖擊聲檢測(cè)裝置100還可W使用起始點(diǎn)相關(guān)聲音模型, 來識(shí)別沖擊聲。由于在生成起始點(diǎn)相關(guān)聲音模型時(shí),本發(fā)明考慮使用已錄音頻段的起始點(diǎn) 的信息,例如起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征,因此起始點(diǎn)相關(guān)聲音模型的精度比 本領(lǐng)域中的普通聲音模型更準(zhǔn)確。因此,本發(fā)明的沖擊聲檢測(cè)性能能夠進(jìn)一步得到改善。 [0104](第二實(shí)施例) 陽105] 圖8是例示根據(jù)本發(fā)明的第二實(shí)施例的與由沖擊聲檢測(cè)裝置100進(jìn)行的沖擊聲檢 測(cè)相關(guān)的示例性功能配置的框圖。在第二實(shí)施例中,本發(fā)明使用起始點(diǎn)的分類結(jié)果來驗(yàn)證 沖擊聲識(shí)別的結(jié)果。當(dāng)CPU 101執(zhí)行存儲(chǔ)在ROM 103和/或硬盤104中的程序時(shí),實(shí)現(xiàn)下 面的功能單元。
[0106] 圖8與圖3相比,在圖8所示的沖擊聲檢測(cè)裝置100中存在W下主要不同點(diǎn): 陽107] 起始點(diǎn)檢測(cè)單元304僅在由沖擊聲識(shí)別單元303識(shí)別為第一沖擊聲的音頻段內(nèi), 檢測(cè)音頻段的起始點(diǎn)。也就是說,起始點(diǎn)檢測(cè)單元304可W在至少一部分音頻段內(nèi)檢測(cè)音 頻段的起始點(diǎn),例如在從圖3所示的預(yù)處理單元302輸出的所有音頻段內(nèi)檢測(cè)音頻段的起 始點(diǎn),或者在由圖8所示的沖擊聲識(shí)別單元303識(shí)別為第一沖擊聲的音頻段內(nèi)檢測(cè)音頻段 的起始點(diǎn)。
[0108] 由于對(duì)圖8所示的輸入設(shè)備105、音頻獲得單元301、預(yù)處理單元302、沖擊聲識(shí)別 單元303、起始點(diǎn)檢測(cè)單元304、起始點(diǎn)分類單元305、沖擊聲確定單元306、聲音模型307、起 始點(diǎn)模型308和輸出設(shè)備106的其它詳細(xì)描述與圖3所示的相應(yīng)單元類似,因此運(yùn)里不重 復(fù)詳細(xì)描述。此外,應(yīng)當(dāng)注意,由于起始點(diǎn)檢測(cè)單元304僅在由沖擊聲識(shí)別單元303識(shí)別為 第一沖擊聲的音頻段內(nèi)檢測(cè)各個(gè)音頻段的起始點(diǎn),因此第二實(shí)施例的計(jì)算量比第一實(shí)施例 的計(jì)算量小。 陽1〇9](第S實(shí)施例)
[0110] 圖9是例示根據(jù)本發(fā)明的第Ξ實(shí)施例的與由沖擊聲檢測(cè)裝置100進(jìn)行的沖擊聲檢 測(cè)相關(guān)的示例性功能配置的框圖。在第Ξ實(shí)施例中,本發(fā)明使用起始點(diǎn)的分類結(jié)果來選擇 要在沖擊聲識(shí)別操作中識(shí)別的音頻段,并且本發(fā)明還可W使用檢測(cè)到的起始點(diǎn)的位置,來 優(yōu)化要在沖擊聲識(shí)別操作中識(shí)別的音頻段的起始位置。當(dāng)CPU 101執(zhí)行存儲(chǔ)在ROM 103和 /或硬盤104中的程序時(shí),實(shí)現(xiàn)下面的功能單元。 陽111] 圖9與圖3相比,在圖9所示的沖擊聲檢測(cè)裝置100中存在兩個(gè)主要不同點(diǎn):
[0112] 第一,沖擊聲檢測(cè)裝置100還包括用來優(yōu)化沖擊聲識(shí)別單元303的音頻輸入的音 頻段優(yōu)化單元901。稍后將描述對(duì)音頻段優(yōu)化單元901的詳細(xì)描述。 陽113] 第二,沖擊聲檢測(cè)裝置100不包括圖3所示的沖擊聲確定單元306。輸出設(shè)備106 接收由沖擊聲識(shí)別單元303識(shí)別的沖擊聲,并且可W向警報(bào)裝置輸出沖擊聲,例如經(jīng)由網(wǎng) 絡(luò)(未示出)向PC型設(shè)備12輸出沖擊聲,或者向圖1所示的警報(bào)設(shè)備13輸出沖擊聲。
[0114] 現(xiàn)在,下面描述對(duì)音頻段優(yōu)化單元901的詳細(xì)描述。
[0115] 在一種實(shí)現(xiàn)方式中,音頻段優(yōu)化單元901包括如圖9所示的第一音頻段優(yōu)化單元, 第一音頻段優(yōu)化單元可W選擇從預(yù)處理單元302輸出的、由起始點(diǎn)分類單元305確定的起 始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段。然后,沖擊聲識(shí)別單元303基于預(yù)先生成的聲音 模型307和提取的與所選擇的音頻段相對(duì)應(yīng)的特征,從由第一音頻段優(yōu)化單元選擇的音頻 段中,識(shí)別沖擊聲(即第一沖擊聲)。應(yīng)當(dāng)注意,在運(yùn)種實(shí)現(xiàn)方式中,由于沖擊聲識(shí)別單元 303僅從由第一音頻段優(yōu)化單元選擇的音頻段中識(shí)別沖擊聲,因此第Ξ實(shí)施例的計(jì)算量比 第一實(shí)施例的計(jì)算量小。
[0116] 在另一種實(shí)現(xiàn)方式中,除了上述第一音頻段優(yōu)化單元之外,音頻段優(yōu)化單元901 還可W包括如圖9所示的第二音頻段優(yōu)化單元,第二音頻段優(yōu)化單元可W將由第一音頻段 優(yōu)化單元選擇的音頻段的起始位置,重置為所選擇的從起始點(diǎn)檢測(cè)單元304輸出的音頻段 的起始點(diǎn)的位置。
[0117] 然后,沖擊聲識(shí)別單元303基于預(yù)先生成的聲音模型307和所提取的與起始位置 被重置的音頻段相對(duì)應(yīng)的特征,從起始位置被第二音頻段優(yōu)化單元重置的音頻段中,識(shí)別 沖擊聲(即第一沖擊聲)。應(yīng)當(dāng)注意,在運(yùn)種實(shí)現(xiàn)方式中,由于沖擊聲識(shí)別單元303僅從由 第一音頻段優(yōu)化單元選擇并且起始位置基于所選擇的音頻段的起始點(diǎn)的位置被重置的音 頻段中,識(shí)別沖擊聲,因此第Ξ實(shí)施例的計(jì)算量比第一實(shí)施例的計(jì)算量小,并且第Ξ實(shí)施例 的沖擊聲檢測(cè)性能比第一實(shí)施例的沖擊聲檢測(cè)性能更準(zhǔn)確。
[0118] 對(duì)于本領(lǐng)域技術(shù)人員顯而易見的是,第一音頻段優(yōu)化單元和第二音頻段優(yōu)化單元 可W單獨(dú)構(gòu)成,如圖9所示,或者第一音頻段優(yōu)化單元和第二音頻段優(yōu)化單元可W作為一 個(gè)單元構(gòu)成,只要其能夠?qū)崿F(xiàn)上述功能或者能夠獲得上述效果即可。另外,由于對(duì)圖9所示 的輸入設(shè)備105、音頻獲得單元301、預(yù)處理單元302、沖擊聲識(shí)別單元303、起始點(diǎn)檢測(cè)單元 304、起始點(diǎn)分類單元305、聲音模型307、起始點(diǎn)模型308和輸出設(shè)備106的其它詳細(xì)描述 與圖3所示的相應(yīng)單元類似,因此運(yùn)里不重復(fù)詳細(xì)描述。
[0119] (第四實(shí)施例)
[0120] 圖10是例示根據(jù)本發(fā)明的第四實(shí)施例的與由沖擊聲檢測(cè)裝置100進(jìn)行的沖擊聲 檢測(cè)相關(guān)的示例性功能配置的框圖。在第四實(shí)施例中,除了使用起始點(diǎn)的分類結(jié)果來選擇 要在沖擊聲識(shí)別操作中識(shí)別的音頻段,并且還使用檢測(cè)到的起始點(diǎn)的位置來驗(yàn)證要在沖擊 聲識(shí)別操作中識(shí)別的音頻段的起始位置之外,本發(fā)明還可W使用起始點(diǎn)的分類結(jié)果,來優(yōu) 化沖擊聲識(shí)別的結(jié)果。當(dāng)CPU 101執(zhí)行存儲(chǔ)在ROM 103和/或硬盤104中的程序時(shí),實(shí)現(xiàn) 下面的功能單元。 陽121] 圖10與圖9相比,在圖10所示的沖擊聲檢測(cè)裝置100中僅存在一個(gè)不同點(diǎn),也就 是說,沖擊聲檢測(cè)裝置100還包括沖擊聲確定單元306,沖擊聲確定單元306可W通過將由 沖擊聲識(shí)別單元303計(jì)算的第一沖擊聲的似然度得分,與由起始點(diǎn)分類單元305計(jì)算的確 定的起始點(diǎn)的類型的似然度得分綜合,來確定沖擊聲(即第二沖擊聲)。由于對(duì)圖10所示 的沖擊聲確定單元306的詳細(xì)描述,與圖3所示的沖擊聲確定單元306類似,因此運(yùn)里不重 復(fù)其詳細(xì)描述。 陽122](第五實(shí)施例)
[0123] 如上所述,沖擊聲檢測(cè)裝置100可W使用起始點(diǎn)相關(guān)聲音模型來識(shí)別沖擊聲,并 且相應(yīng)的效果是使用精度比本領(lǐng)域中的普通聲音模型更準(zhǔn)確的起始點(diǎn)相關(guān)聲音模型,能夠 改善沖擊聲檢測(cè)性能。因此,作為起始點(diǎn)相關(guān)聲音模型的簡單應(yīng)用,圖11示出了例示根據(jù) 本發(fā)明的第五實(shí)施例的與由沖擊聲檢測(cè)裝置100進(jìn)行的沖擊聲檢測(cè)相關(guān)的示例性功能配 置的框圖。當(dāng)CPU 101執(zhí)行存儲(chǔ)在ROM 103和/或硬盤104中的程序時(shí),實(shí)現(xiàn)下面的功能 單元。 陽124] 如圖11所示,輸入設(shè)備105可W接收例如從圖1所示的音頻傳感器11輸出的音 頻數(shù)據(jù)。
[01巧]音頻獲得單元301獲得來自輸入設(shè)備105的音頻輸入。
[01%] 預(yù)處理單元302首先從所獲得的從音頻獲得單元301輸出的音頻中,提取至少一 種特征。所提取的特征可W是W下本領(lǐng)域技術(shù)人員已知的特征中的至少一個(gè):例如LPC、 ZCR、MFCC、譜功率、子帶能量、子帶能量的TE0等。然后,預(yù)處理單元302例如使用本領(lǐng)域技 術(shù)人員熟悉的任意種類的VAD算法,基于所提取的特征,將所獲得的音頻分割為至少一個(gè) 音頻段。作為另選方案,也可W在兩個(gè)單獨(dú)的單元中執(zhí)行上述提取操作和分割操作。
[0127] 沖擊聲識(shí)別單元303從預(yù)處理單元302接收音頻段和提取的特征,并且基于預(yù)先 生成的起始點(diǎn)相關(guān)聲音模型1104和與音頻段相對(duì)應(yīng)的提取的特征,從音頻段中識(shí)別沖擊 聲,其中,起始點(diǎn)相關(guān)聲音模型1104由用戶、操作者和/或制造商根據(jù)參照?qǐng)D7詳細(xì)描述的 方法預(yù)先生成或訓(xùn)練,并且可W將其存儲(chǔ)在圖2中的沖擊聲檢測(cè)裝置100的ROM 103或硬 盤104中。
[0128] 最后,輸出設(shè)備106接收由沖擊聲識(shí)別單元303識(shí)別的沖擊聲,并且向警報(bào)裝置輸 出沖擊聲,例如經(jīng)由網(wǎng)絡(luò)(未示出)向PC型設(shè)備12或者向圖1所示的警報(bào)設(shè)備13輸出沖 擊聲。
[0129] (沖擊聲檢測(cè)方法) 陽130] 應(yīng)當(dāng)注意,圖3和圖8~11所示的沖擊聲檢測(cè)裝置100的各個(gè)單元可W被構(gòu)造為 進(jìn)行將在圖12~13所示的流程圖中描述的沖擊聲檢測(cè)方法的各個(gè)步驟。 陽131] 圖12示意性地示出了根據(jù)本發(fā)明的實(shí)施例的沖擊聲檢測(cè)方法的流程圖,相應(yīng)的 程序存儲(chǔ)在圖2中的ROM 103和/或硬盤104中。當(dāng)CPU 101將存儲(chǔ)在ROM 103和/或硬 盤104中的相應(yīng)的程序加載到RAM 102中,并且執(zhí)行相應(yīng)的程序時(shí),實(shí)現(xiàn)下面的各個(gè)步驟的 操作。 陽132] 如圖12所示,在音頻獲得步驟S1210中,圖2所示的沖擊聲檢測(cè)裝置100的CPU 101獲得來自沖擊聲檢測(cè)裝置100的輸入設(shè)備105的音頻輸入(對(duì)應(yīng)于圖3中的音頻獲得 單元301)。
[0133] 在預(yù)處理步驟S1220中,CPU 101首先從自音頻獲得步驟S1210中輸出的獲得的 音頻中提取至少一種特征。所提取的特征可W是W下本領(lǐng)域技術(shù)人員已知的特征中的至少 一個(gè):例如1?(:、20?、1。0:、譜功率、子帶能量、子帶能量的了60等。然后,〔?1]101例如使用 本領(lǐng)域技術(shù)人員熟悉的任意種類的VAD算法,基于提取的特征,將獲得的音頻分割為至少 一個(gè)音頻段(對(duì)應(yīng)于圖3中的預(yù)處理單元302)。
[0134] 在沖擊聲識(shí)別步驟S1230中,CPU 101基于預(yù)先生成的聲音模型和與音頻段相對(duì) 應(yīng)的提取的特征,從音頻段中識(shí)別沖擊聲(即第一沖擊聲)(對(duì)應(yīng)于圖3中的沖擊聲識(shí)別單 元303)。作為優(yōu)選的可選解決方案,預(yù)先生成的聲音模型可W是根據(jù)參照?qǐng)D7詳細(xì)描述的 方法生成的起始點(diǎn)相關(guān)聲音模型。
[0135] 然后,CPU 101在至少一部分音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn),并且輸出起始點(diǎn)的位 置和起始點(diǎn)的能量相關(guān)特征(對(duì)應(yīng)于圖3中的起始點(diǎn)檢測(cè)單元304)。檢測(cè)音頻段的起始點(diǎn) 的詳細(xì)處理可W參照?qǐng)D4~5。 陽136] 在一種實(shí)現(xiàn)方式中,如圖12所示,在起始點(diǎn)檢測(cè)步驟S1240中,CPU101可W在從 預(yù)處理步驟S1220中輸出的所有音頻段內(nèi),檢測(cè)音頻段的起始點(diǎn)(對(duì)應(yīng)于圖3所示的第一 實(shí)施例)。 陽137] 在另一種實(shí)現(xiàn)方式中,在起始點(diǎn)檢測(cè)步驟(在圖12中未示出)中,CPU 101可W 在沖擊聲識(shí)別步驟S1230中被識(shí)別為第一沖擊聲的音頻段內(nèi),檢測(cè)音頻段的起始點(diǎn)(對(duì)應(yīng) 于圖8所示的第二實(shí)施例)。
[013引然后,如圖12所示,在起始點(diǎn)分類步驟S1250中,CPU 101基于預(yù)先生成的起始點(diǎn) 模型和起始點(diǎn)的能量相關(guān)特征,確定起始點(diǎn)的至少兩種類型(對(duì)應(yīng)于圖3所示的起始點(diǎn)分 類單元305)。作為優(yōu)選解決方案,預(yù)先生成的起始點(diǎn)模型可W根據(jù)參照?qǐng)D6詳細(xì)描述的方 法生成。 陽139] 最后,在沖擊聲確定步驟S1260中,CPU 101基于從沖擊聲識(shí)別步驟S1230中輸出 的識(shí)別的沖擊聲和從起始點(diǎn)分類步驟S1250中輸出的確定的起始點(diǎn)的類型,從音頻段中確 定沖擊聲(即第二沖擊聲)(對(duì)應(yīng)于圖3所示的沖擊聲確定單元306)。
[0140] 在一種實(shí)現(xiàn)方式中,在沖擊聲確定步驟S1260中,CPU 101可W通過將從沖擊聲識(shí) 別步驟S1230中輸出的第一沖擊聲的似然度得分和從起始點(diǎn)分類步驟S1250中輸出的確定 的起始點(diǎn)的類型的似然度得分綜合,來確定第二沖擊聲(對(duì)應(yīng)于圖3所示的第一實(shí)施例)。 陽141] 在另一種實(shí)現(xiàn)方式中,在沖擊聲確定步驟S1260中,當(dāng)在沖擊聲識(shí)別步驟S1230中 被識(shí)別為第一沖擊聲的音頻段的起始點(diǎn)的類型是沖擊聲相關(guān)類型時(shí),CPU 101將相應(yīng)的第 一沖擊聲確定為第二沖擊聲(對(duì)應(yīng)于圖8所示的第二實(shí)施例)。 陽142] 作為優(yōu)選解決方案,圖12所示的沖擊聲檢測(cè)方法還包括第一音頻段優(yōu)化步驟(未 示出)。在第一音頻段優(yōu)化步驟中,CPU 101選擇從預(yù)處理步驟S1220中輸出的、在起始點(diǎn) 分類步驟S1250中確定的起始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段。并且在沖擊聲識(shí)別步 驟S1230中,CPU 101基于預(yù)先生成的聲音模型和與所選擇的音頻段相對(duì)應(yīng)的提取的特征, 從在第一音頻段優(yōu)化步驟中選擇的音頻段中,識(shí)別沖擊聲(即第一沖擊聲)(對(duì)應(yīng)于圖10 所示的第四實(shí)施例)。 陽143] 作為另一優(yōu)選解決方案,除了上述第一音頻段優(yōu)化步驟之外,圖12所示的沖擊聲 檢測(cè)方法還可W包括第二音頻段優(yōu)化步驟(未示出)。在第二音頻段優(yōu)化步驟中,CPU 101 基于所選擇的音頻段的起始點(diǎn)的位置,重置在第一音頻段優(yōu)化步驟中選擇的音頻段的起始 位置。并且在沖擊聲識(shí)別步驟S1230中,CPU 101基于預(yù)先生成的聲音模型和與重置了起 始位置的音頻段相對(duì)應(yīng)的提取的特征,從在第二音頻段優(yōu)化步驟中重置了起始位置的音頻 段中,識(shí)別沖擊聲(即第一沖擊聲)(對(duì)應(yīng)于圖10所示的第四實(shí)施例)。
[0144]圖13示意性地示出了根據(jù)本發(fā)明的實(shí)施例的沖擊聲檢測(cè)方法的另一流程圖,其 中,相應(yīng)的程序存儲(chǔ)在圖2中的ROM 103和/或硬盤104中。當(dāng)CPU 101將存儲(chǔ)在ROM 103 和/或硬盤104中的相應(yīng)的程序加載到RAM 102中,并且執(zhí)行相應(yīng)的程序時(shí),實(shí)現(xiàn)下面的各 個(gè)步驟的操作。 陽145] 如圖13所示,在音頻獲得步驟S1310中,圖2所示的沖擊聲檢測(cè)裝置100的CPU 101獲得來自沖擊聲檢測(cè)裝置100的輸入設(shè)備105的音頻輸入(對(duì)應(yīng)于圖9中的音頻獲得 單元301)。 陽146] 在預(yù)處理步驟S1320中,CPU 101首先從自音頻獲得步驟S1210中輸出的獲得的 音頻中提取至少一種特征。所提取的特征可W是W下本領(lǐng)域技術(shù)人員已知的特征中的至少 一個(gè):例如1?(:、20?、1。0:、譜功率、子帶能量、子帶能量的了60等。然后,〔?1]101例如使用 本領(lǐng)域技術(shù)人員熟悉的任意種類的VAD算法,基于提取的特征,將獲得的音頻分割為至少 一個(gè)音頻段(對(duì)應(yīng)于圖9中的預(yù)處理單元302)。 陽147] 在起始點(diǎn)檢測(cè)步驟S1330中,CPU 101在從預(yù)處理步驟S1320中輸出的所有音頻 段內(nèi),檢測(cè)音頻段的起始點(diǎn),并且輸出起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征(對(duì)應(yīng)于圖9 中的起始點(diǎn)檢測(cè)單元304)。檢測(cè)音頻段的起始點(diǎn)的詳細(xì)處理可W參照?qǐng)D4~5。
[0148] 在起始點(diǎn)分類步驟S1340中,CPU 101基于預(yù)先生成的起始點(diǎn)模型和起始點(diǎn)的能 量相關(guān)特征,確定起始點(diǎn)的至少兩種類型(對(duì)應(yīng)于圖9所示的起始點(diǎn)分類單元305)。作為 優(yōu)選解決方案,預(yù)先生成的起始點(diǎn)模型可W根據(jù)參照?qǐng)D6詳細(xì)描述的方法生成。
[0149] 在第一音頻段優(yōu)化步驟S1350中,CPU 101選擇從預(yù)處理步驟S1320中輸出的、在 起始點(diǎn)分類步驟S1340中確定的起始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段(對(duì)應(yīng)于圖9所 示的音頻段優(yōu)化單元901)。 陽150] 最后,在沖擊聲識(shí)別步驟S1360中,CPU 101基于預(yù)先生成的聲音模型和與所選擇 的音頻段相對(duì)應(yīng)的提取的特征,從在第一音頻段優(yōu)化步驟S1350中選擇的音頻段中,識(shí)別 沖擊聲(即第一沖擊聲)(對(duì)應(yīng)于圖9所示的沖擊聲識(shí)別單元303)。 陽151] 作為優(yōu)選解決方案,圖13所示的沖擊聲檢測(cè)方法還可W包括第二音頻段優(yōu)化步 驟(未示出)。在第二音頻段優(yōu)化步驟中,CPU 101基于所選擇的音頻段的起始點(diǎn)的位置, 重置在第一音頻段優(yōu)化步驟S1350中選擇的音頻段的起始位置。并且在沖擊聲識(shí)別步驟 S1360中,CPU 101基于預(yù)先生成的聲音模型和與重置了起始位置的音頻段相對(duì)應(yīng)的提取 的特征,從在第二音頻段優(yōu)化步驟中重置了起始位置的音頻段中,識(shí)別沖擊聲(即第一沖 擊聲)(對(duì)應(yīng)于圖9所示的沖擊聲識(shí)別單元303)。 陽152] 利用上面描述的示例性沖擊聲檢測(cè)裝置和沖擊聲檢測(cè)方法,在檢測(cè)沖擊聲時(shí),除 了使用從上述預(yù)處理操作中獲得的音頻段的特征之外,本發(fā)明還考慮使用音頻段的起始點(diǎn) 的信息,例如起始點(diǎn)的位置和起始點(diǎn)的能量相關(guān)特征;其中,起始點(diǎn)的能量相關(guān)特征可W是 相對(duì)TEO能量和/或關(guān)鍵TEO能量。在本發(fā)明中,將起始點(diǎn)視為相應(yīng)的音頻段中的能量變 化最大的點(diǎn),其可W提供不同沖擊聲的特有信息,例如對(duì)于不同的沖擊聲來說,在初始音頻 帖中快速增大的沖擊聲的能量的不同的增大模式。因此,使用起始點(diǎn)的信息能夠改善沖擊 聲檢測(cè)性能。 陽153] 上面描述的所有單元是示例性的,和/或是用于實(shí)現(xiàn)在本公開中描述的處理的優(yōu) 選模塊。運(yùn)些單元可W是硬件單元(例如現(xiàn)場(chǎng)可編程口陣列(FPGA)、數(shù)字信號(hào)處理器、專用 集成電路等)和/或軟件模塊(例如計(jì)算機(jī)可讀程序)。上面沒有窮盡地描述用于實(shí)現(xiàn)各 個(gè)步驟的單元。然而,在存在進(jìn)行特定處理的步驟的情況下,可能存在用于實(shí)現(xiàn)相同的處理 的相應(yīng)的功能模塊或單元(用硬件和/或軟件實(shí)現(xiàn))。只要所描述的步驟和與運(yùn)些步驟相 對(duì)應(yīng)的單元的所有組合的技術(shù)方案是完整的并且是可應(yīng)用的,則它們構(gòu)成的技術(shù)方案都包 含在本申請(qǐng)的公開中。
[0154] 能夠W許多方式來實(shí)現(xiàn)本發(fā)明的方法和裝置。例如,能夠通過軟件、硬件、固件或 其任意組合來實(shí)現(xiàn)本發(fā)明的方法和裝置。上面描述的方法的步驟的順序僅旨在是說明性 的,除非另外具體指出,否則本發(fā)明的方法的步驟不局限于上面具體描述的順序。此外,在 一些實(shí)施例中,本發(fā)明還可W作為用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的、包括機(jī)器可讀指令的記 錄在記錄介質(zhì)中的程序來實(shí)施。因此,本發(fā)明還覆蓋存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的程 序的記錄介質(zhì)。
[0K5] 雖然通過示例詳細(xì)闡述了本發(fā)明的一些具體實(shí)施例,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理 解,上面的示例僅旨在是說明性的,而不限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可 W對(duì)上面的實(shí)施例進(jìn)行變型,而不脫離本發(fā)明的范圍和精神。本發(fā)明的范圍由所附權(quán)利要 求限定。
【主權(quán)項(xiàng)】
1. 一種沖擊聲檢測(cè)裝置,其包括: 首頻獲得單7Π ,被構(gòu)造為獲得首頻輸入; 預(yù)處理單元,被構(gòu)造為從所獲得的音頻中提取至少一種特征,并且基于所提取的特征, 將所獲得的音頻分割為至少一個(gè)音頻段; 沖擊聲識(shí)別單元,被構(gòu)造為基于預(yù)先生成的聲音模型和與所述音頻段相對(duì)應(yīng)的所提取 的特征,從所述音頻段中識(shí)別第一沖擊聲; 起始點(diǎn)檢測(cè)單元,被構(gòu)造為在至少一部分所述音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn),并且輸 出所述起始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān)特征; 起始點(diǎn)分類單元,被構(gòu)造為基于預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān) 特征,確定所述起始點(diǎn)的至少兩種類型;以及 沖擊聲確定單元,被構(gòu)造為基于從所述沖擊聲識(shí)別單元輸出的所述第一沖擊聲和從所 述起始點(diǎn)分類單元輸出的所確定的所述起始點(diǎn)的類型,從所述音頻段中確定第二沖擊聲。2. 根據(jù)權(quán)利要求1所述的沖擊聲檢測(cè)裝置,其中,所述起始點(diǎn)檢測(cè)單元在從所述預(yù)處 理單元輸出的所有音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn)。3. 根據(jù)權(quán)利要求1所述的沖擊聲檢測(cè)裝置,其中,所述起始點(diǎn)檢測(cè)單元在被所述沖擊 聲識(shí)別單元識(shí)別為所述第一沖擊聲的音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn)。4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的沖擊聲檢測(cè)裝置,其中,所述起始點(diǎn)檢測(cè)單元包 括: 相對(duì)Teager能量算子能量計(jì)算單元,被構(gòu)造為計(jì)算所述音頻段中的音頻幀的相對(duì) Teager能量算子能量; 距離計(jì)算單元,被構(gòu)造為基于所計(jì)算的相對(duì)Teager能量算子能量,計(jì)算所述音頻幀的 相對(duì)突出度;以及 起始點(diǎn)確定單元,被構(gòu)造為將相對(duì)突出度最大的音頻幀的位置確定為起始點(diǎn),并且記 錄相應(yīng)音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)音頻幀的相對(duì)Teager能量算子 能量作為所述起始點(diǎn)的所述能量相關(guān)特征。5. 根據(jù)權(quán)利要求4所述的沖擊聲檢測(cè)裝置,其中,所述起始點(diǎn)檢測(cè)單元還包括: 變換單元,被構(gòu)造為使用特征變換方法,將所述音頻幀的所述相對(duì)Teager能量算子能 量轉(zhuǎn)換為關(guān)鍵Teager能量算子能量;并且其中, 所述距離計(jì)算單元基于所述關(guān)鍵Teager能量算子能量,計(jì)算所述音頻幀的所述相對(duì) 突出度;并且 所述起始點(diǎn)確定單元將相對(duì)突出度最大的音頻幀的位置確定為起始點(diǎn),并且記錄相應(yīng) 音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)音頻幀的關(guān)鍵Teager能量算子能量作 為所述起始點(diǎn)的所述能量相關(guān)特征。6. 根據(jù)權(quán)利要求2所述的沖擊聲檢測(cè)裝置,所述沖擊聲檢測(cè)裝置還包括: 第一音頻段優(yōu)化單元,被構(gòu)造為選擇從所述預(yù)處理單元輸出的、由所述起始點(diǎn)分類單 元確定的起始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段;并且其中, 所述沖擊聲識(shí)別單元基于所述預(yù)先生成的聲音模型和與所選擇的音頻段相對(duì)應(yīng)的所 提取的特征,從由所述第一音頻段優(yōu)化單元選擇的所述音頻段中,識(shí)別所述第一沖擊聲。7. 根據(jù)權(quán)利要求6所述的沖擊聲檢測(cè)裝置,所述沖擊聲檢測(cè)裝置還包括: 第二音頻段優(yōu)化單元,被構(gòu)造為將由所述第一音頻段優(yōu)化單元選擇的所述音頻段的起 始位置,重置為所選擇的音頻段的起始點(diǎn)的位置;并且其中, 所述沖擊聲識(shí)別單元基于所述預(yù)先生成的聲音模型和與起始位置被重置的所述音頻 段相對(duì)應(yīng)的所提取的特征,從起始位置被所述第二音頻段優(yōu)化單元重置的音頻段中,識(shí)別 所述第一沖擊聲。8. 根據(jù)權(quán)利要求1所述的沖擊聲檢測(cè)裝置,其中,所述沖擊聲確定單元通過將從所述 沖擊聲識(shí)別單元輸出的所述第一沖擊聲的似然度得分與從所述起始點(diǎn)分類單元輸出的所 確定的起始點(diǎn)的類型的似然度得分綜合,來確定所述第二沖擊聲。9. 根據(jù)權(quán)利要求1所述的沖擊聲檢測(cè)裝置,其中,由所述沖擊聲識(shí)別單元使用的所述 預(yù)先生成的聲音模型是起始點(diǎn)相關(guān)聲音模型,并且所述起始點(diǎn)相關(guān)聲音模型通過如下步驟 生成: 獲得已錄音頻和與所述已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽; 從所述已錄音頻中提取至少一種特征,并且基于所提取的特征,將所述已錄音頻分割 為至少一個(gè)已錄音頻段; 檢測(cè)所述已錄音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān) 特征; 基于所述預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān)特征,確定所述起始點(diǎn) 的至少兩種類型;以及 根據(jù)所提取的特征、所獲得的音頻標(biāo)簽和所確定的所述起始點(diǎn)的類型,生成所述起始 點(diǎn)相關(guān)聲音模型。10. 根據(jù)權(quán)利要求1或9所述的沖擊聲檢測(cè)裝置,其中,所述預(yù)先生成的起始點(diǎn)模型通 過如下步驟生成: 獲得已錄音頻和與所述已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽; 從所述已錄音頻中提取至少一種特征,并且基于所提取的特征,將所述已錄音頻分割 為至少一個(gè)已錄音頻段; 檢測(cè)所述已錄音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān) 特征; 基于與對(duì)應(yīng)于所述起始點(diǎn)的所述已錄音頻段相關(guān)的所述音頻標(biāo)簽和所述起始點(diǎn)的所 述能量相關(guān)特征,將所述起始點(diǎn)聚類到至少兩種類型中;以及 根據(jù)所述起始點(diǎn)的所述能量相關(guān)特征和所聚類的所述起始點(diǎn)的類型,生成所述起始點(diǎn) 模型。11. 根據(jù)權(quán)利要求10所述的沖擊聲檢測(cè)裝置,其中,檢測(cè)一個(gè)已錄音頻段的起始點(diǎn)的 步驟包括: 相對(duì)Teager能量算子能量計(jì)算步驟,計(jì)算所述已錄音頻段中的已錄音頻幀的相對(duì) Teager能量算子能量; 距離計(jì)算步驟,基于所計(jì)算的相對(duì)Teager能量算子能量,計(jì)算所述已錄音頻幀的相對(duì) 突出度;以及 起始點(diǎn)確定步驟,將相對(duì)突出度最大的已錄音頻幀的位置確定為起始點(diǎn),并且記錄相 應(yīng)已錄音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)已錄音頻幀的相對(duì)Teager能量 算子能量作為所述起始點(diǎn)的所述能量相關(guān)特征。12. 根據(jù)權(quán)利要求11所述的沖擊聲檢測(cè)裝置,其中,檢測(cè)一個(gè)已錄音頻段的起始點(diǎn)的 所述步驟還包括: 變換步驟,使用特征變換方法,將所述已錄音頻幀的所述相對(duì)Teager能量算子能量轉(zhuǎn) 換為關(guān)鍵Teager能量算子能量;并且其中, 所述距離計(jì)算步驟基于所述關(guān)鍵Teager能量算子能量,計(jì)算所述已錄音頻幀的所述 相對(duì)突出度;并且 所述起始點(diǎn)確定步驟將相對(duì)突出度最大的已錄音頻幀的位置確定為起始點(diǎn),并且記錄 相應(yīng)已錄音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)已錄音頻幀的關(guān)鍵Teager能 量算子能量作為所述起始點(diǎn)的所述能量相關(guān)特征。13. -種沖擊聲檢測(cè)裝置,其包括: 首頻獲得單7Π ,被構(gòu)造為獲得首頻輸入; 預(yù)處理單元,被構(gòu)造為從所獲得的音頻中提取至少一種特征,并且基于所提取的特征, 將所獲得的音頻分割為至少一個(gè)音頻段; 起始點(diǎn)檢測(cè)單元,被構(gòu)造為檢測(cè)所述音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和 所述起始點(diǎn)的能量相關(guān)特征; 起始點(diǎn)分類單元,被構(gòu)造為基于預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān) 特征,確定所述起始點(diǎn)的至少兩種類型; 第一音頻段優(yōu)化單元,被構(gòu)造為選擇從所述預(yù)處理單元輸出的、由所述起始點(diǎn)分類單 元確定的起始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段;以及 沖擊聲識(shí)別單元,被構(gòu)造為基于預(yù)先生成的聲音模型和與所選擇的音頻段相對(duì)應(yīng)的所 提取的特征,從由所述第一音頻段優(yōu)化單元選擇的所述音頻段中,識(shí)別沖擊聲。14. 根據(jù)權(quán)利要求13所述的沖擊聲檢測(cè)裝置,所述沖擊聲檢測(cè)裝置還包括: 第二音頻段優(yōu)化單元,被構(gòu)造為將由所述第一音頻段優(yōu)化單元選擇的所述音頻段的起 始位置,重置為所選擇的音頻段的起始點(diǎn)的位置;并且其中, 所述沖擊聲識(shí)別單元基于所述預(yù)先生成的聲音模型和與起始位置被重置的所述音頻 段相對(duì)應(yīng)的所提取的特征,從起始位置被所述第二音頻段優(yōu)化單元重置的音頻段中,識(shí)別 所述沖擊聲。15. 根據(jù)權(quán)利要求13或14所述的沖擊聲檢測(cè)裝置,其中,所述起始點(diǎn)檢測(cè)單元包括: 相對(duì)Teager能量算子能量計(jì)算單元,被構(gòu)造為計(jì)算所述音頻段中的音頻幀的相對(duì) Teager能量算子能量; 距離計(jì)算單元,被構(gòu)造為基于所計(jì)算的相對(duì)Teager能量算子能量,計(jì)算所述音頻幀的 相對(duì)突出度;以及 起始點(diǎn)確定單元,被構(gòu)造為將相對(duì)突出度最大的音頻幀的位置確定為起始點(diǎn),并且記 錄相應(yīng)音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)音頻幀的相對(duì)Teager能量算子 能量作為所述起始點(diǎn)的所述能量相關(guān)特征。16. 根據(jù)權(quán)利要求15所述的沖擊聲檢測(cè)裝置,其中,所述起始點(diǎn)檢測(cè)單元還包括: 變換單元,被構(gòu)造為使用特征變換方法,將所述音頻幀的所述相對(duì)Teager能量算子能 量轉(zhuǎn)換為關(guān)鍵Teager能量算子能量;并且其中, 所述距離計(jì)算單元基于所述關(guān)鍵Teager能量算子能量,計(jì)算所述音頻幀的所述相對(duì) 突出度;并且 所述起始點(diǎn)確定單元將相對(duì)突出度最大的音頻幀的位置確定為起始點(diǎn),并且記錄相應(yīng) 音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)音頻幀的關(guān)鍵Teager能量算子能量作 為所述起始點(diǎn)的所述能量相關(guān)特征。17. 根據(jù)權(quán)利要求13或14所述的沖擊聲檢測(cè)裝置,其中,由所述沖擊聲識(shí)別單元使用 的所述預(yù)先生成的聲音模型是起始點(diǎn)相關(guān)聲音模型,并且所述起始點(diǎn)相關(guān)聲音模型通過如 下步驟生成: 獲得已錄音頻和與所述已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽; 從所述已錄音頻中提取至少一種特征,并且基于所提取的特征,將所述已錄音頻分割 為至少一個(gè)已錄音頻段; 檢測(cè)所述已錄音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān) 特征; 基于所述預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān)特征,確定所述起始點(diǎn) 的至少兩種類型;以及 根據(jù)所提取的特征、所獲得的音頻標(biāo)簽和所確定的所述起始點(diǎn)的類型,生成所述起始 點(diǎn)相關(guān)聲音模型。18. 根據(jù)權(quán)利要求13或14所述的沖擊聲檢測(cè)裝置,其中,所述預(yù)先生成的起始點(diǎn)模型 通過如下步驟生成: 獲得已錄音頻和與所述已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽; 從所述已錄音頻中提取至少一種特征,并且基于所提取的特征,將所述已錄音頻分割 為至少一個(gè)已錄音頻段; 檢測(cè)所述已錄音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān) 特征; 基于與對(duì)應(yīng)于所述起始點(diǎn)的所述已錄音頻段相關(guān)的所述音頻標(biāo)簽和所述起始點(diǎn)的所 述能量相關(guān)特征,將所述起始點(diǎn)聚類到至少兩種類型中;以及 根據(jù)所述起始點(diǎn)的所述能量相關(guān)特征和所聚類的所述起始點(diǎn)的類型,生成所述起始點(diǎn) 模型。19. 根據(jù)權(quán)利要求18所述的沖擊聲檢測(cè)裝置,其中,檢測(cè)一個(gè)已錄音頻段的起始點(diǎn)的 步驟包括: 相對(duì)Teager能量算子能量計(jì)算步驟,計(jì)算所述已錄音頻段中的已錄音頻幀的相對(duì) Teager能量算子能量; 距離計(jì)算步驟,基于所計(jì)算的相對(duì)Teager能量算子能量,計(jì)算所述已錄音頻幀的相對(duì) 突出度;以及 起始點(diǎn)確定步驟,將相對(duì)突出度最大的已錄音頻幀的位置確定為起始點(diǎn),并且記錄相 應(yīng)已錄音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)已錄音頻幀的相對(duì)Teager能量 算子能量作為所述起始點(diǎn)的所述能量相關(guān)特征。20. 根據(jù)權(quán)利要求19所述的沖擊聲檢測(cè)裝置,其中,檢測(cè)一個(gè)已錄音頻段的起始點(diǎn)的 所述步驟還包括: 變換步驟,使用特征變換方法,將所述已錄音頻幀的所述相對(duì)Teager能量算子能量轉(zhuǎn) 換為關(guān)鍵Teager能量算子能量;并且其中, 所述距離計(jì)算步驟基于所述關(guān)鍵Teager能量算子能量,計(jì)算所述已錄音頻幀的所述 相對(duì)突出度;并且 所述起始點(diǎn)確定步驟將相對(duì)突出度最大的已錄音頻幀的位置確定為起始點(diǎn),并且記錄 相應(yīng)已錄音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)已錄音頻幀的關(guān)鍵Teager能 量算子能量作為所述起始點(diǎn)的所述能量相關(guān)特征。21. -種聲音模型生成方法,其包括: 獲得已錄音頻和與所述已錄音頻相對(duì)應(yīng)的音頻標(biāo)簽; 從所述已錄音頻中提取至少一種特征,并且基于所提取的特征,將所述已錄音頻分割 為至少一個(gè)已錄音頻段; 檢測(cè)所述已錄音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān) 特征; 基于預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān)特征,確定所述起始點(diǎn)的至 少兩種類型;并且 根據(jù)所提取的特征、所獲得的音頻標(biāo)簽和所確定的所述起始點(diǎn)的類型,生成起始點(diǎn)相 關(guān)聲音模型。22. 根據(jù)權(quán)利要求21所述的聲音模型生成方法,其中,檢測(cè)一個(gè)已錄音頻段的起始點(diǎn) 的步驟包括: 相對(duì)Teager能量算子能量計(jì)算步驟,計(jì)算所述已錄音頻段中的已錄音頻幀的相對(duì) Teager能量算子能量; 距離計(jì)算步驟,基于所計(jì)算的相對(duì)Teager能量算子能量,計(jì)算所述已錄音頻幀的相對(duì) 突出度;以及 起始點(diǎn)確定步驟,將相對(duì)突出度最大的已錄音頻幀的位置確定為起始點(diǎn),并且記錄相 應(yīng)已錄音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)已錄音頻幀的相對(duì)Teager能量 算子能量作為所述起始點(diǎn)的所述能量相關(guān)特征。23. 根據(jù)權(quán)利要求22所述的聲音模型生成方法,其中,檢測(cè)一個(gè)已錄音頻段的起始點(diǎn) 的所述步驟還包括: 變換步驟,使用特征變換方法,將所述已錄音頻幀的所述相對(duì)Teager能量算子能量轉(zhuǎn) 換為關(guān)鍵Teager能量算子能量;并且其中, 所述距離計(jì)算步驟基于所述關(guān)鍵Teager能量算子能量,計(jì)算所述已錄音頻幀的所述 相對(duì)突出度;并且 所述起始點(diǎn)確定步驟將相對(duì)突出度最大的已錄音頻幀的位置確定為起始點(diǎn),并且記錄 相應(yīng)已錄音頻幀的位置作為所述起始點(diǎn)的位置,并記錄相應(yīng)已錄音頻幀的關(guān)鍵Teager能 量算子能量作為所述起始點(diǎn)的所述能量相關(guān)特征。24. -種沖擊聲檢測(cè)裝置,其包括: 首頻獲得單7Π ,被構(gòu)造為獲得首頻輸入; 預(yù)處理單元,被構(gòu)造為從所獲得的音頻中提取至少一種特征,并且基于所提取的特征, 將所獲得的音頻分割為至少一個(gè)音頻段;以及 沖擊聲識(shí)別單元,被構(gòu)造為基于根據(jù)權(quán)利要求21至23中任一項(xiàng)生成的聲音模型和與 所述音頻段相對(duì)應(yīng)的所提取的特征,從所述音頻段中識(shí)別沖擊聲。25. -種沖擊聲檢測(cè)方法,其包括: 音頻獲得步驟,獲得音頻輸入; 預(yù)處理步驟,從所獲得的音頻中提取至少一種特征,并且基于所提取的特征,將所獲得 的音頻分割為至少一個(gè)音頻段; 沖擊聲識(shí)別步驟,基于預(yù)先生成的聲音模型和與所述音頻段相對(duì)應(yīng)的所提取的特征, 從所述音頻段中識(shí)別第一沖擊聲; 起始點(diǎn)檢測(cè)步驟,在至少一部分所述音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn),并且輸出所述起 始點(diǎn)的位置和所述起始點(diǎn)的能量相關(guān)特征; 起始點(diǎn)分類步驟,基于預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān)特征,確 定所述起始點(diǎn)的至少兩種類型;以及 沖擊聲確定步驟,基于從所述沖擊聲識(shí)別步驟輸出的所述第一沖擊聲和從所述起始點(diǎn) 分類步驟輸出的所確定的所述起始點(diǎn)的類型,從所述音頻段中確定第二沖擊聲。26. 根據(jù)權(quán)利要求25所述的沖擊聲檢測(cè)方法,其中,所述起始點(diǎn)檢測(cè)步驟在從所述預(yù) 處理步驟輸出的所有音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn)。27. 根據(jù)權(quán)利要求25所述的沖擊聲檢測(cè)方法,其中,所述起始點(diǎn)檢測(cè)步驟在所述沖擊 聲識(shí)別步驟中識(shí)別為所述第一沖擊聲的音頻段內(nèi)檢測(cè)音頻段的起始點(diǎn)。28. 根據(jù)權(quán)利要求26所述的沖擊聲檢測(cè)方法,所述沖擊聲檢測(cè)方法還包括: 第一音頻段優(yōu)化步驟,選擇從所述預(yù)處理步驟輸出的、在所述起始點(diǎn)分類步驟中確定 的起始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段;并且其中, 所述沖擊聲識(shí)別步驟基于所述預(yù)先生成的聲音模型和與所選擇的音頻段相對(duì)應(yīng)的所 提取的特征,從在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段中,識(shí)別所述第一沖擊聲。29. 根據(jù)權(quán)利要求28所述的沖擊聲檢測(cè)方法,所述沖擊聲檢測(cè)方法還包括: 第二音頻段優(yōu)化步驟,將在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段的起始位 置,重置為所選擇的音頻段的起始點(diǎn)的位置;并且其中, 所述沖擊聲識(shí)別步驟基于所述預(yù)先生成的聲音模型和與起始位置被重置的所述音頻 段相對(duì)應(yīng)的所提取的特征,從起始位置在所述第二音頻段優(yōu)化步驟中重置的音頻段中,識(shí) 別所述第一沖擊聲。30. 根據(jù)權(quán)利要求25所述的沖擊聲檢測(cè)方法,其中,所述沖擊聲確定步驟通過將從所 述沖擊聲識(shí)別步驟輸出的所述第一沖擊聲的似然度得分與從所述起始點(diǎn)分類步驟輸出的 所確定的起始點(diǎn)的類型的似然度得分綜合,來確定所述第二沖擊聲。31. -種沖擊聲檢測(cè)方法,其包括: 音頻獲得步驟,獲得音頻輸入; 預(yù)處理步驟,從所獲得的音頻中提取至少一種特征,并且基于所提取的特征,將所獲得 的音頻分割為至少一個(gè)音頻段; 起始點(diǎn)檢測(cè)步驟,檢測(cè)所述音頻段的起始點(diǎn),并且輸出所述起始點(diǎn)的位置和所述起始 點(diǎn)的能量相關(guān)特征; 起始點(diǎn)分類步驟,基于預(yù)先生成的起始點(diǎn)模型和所述起始點(diǎn)的所述能量相關(guān)特征,確 定所述起始點(diǎn)的至少兩種類型; 第一音頻段優(yōu)化步驟,選擇從所述預(yù)處理步驟輸出的、在所述起始點(diǎn)分類步驟中確定 的起始點(diǎn)的類型是沖擊聲相關(guān)類型的音頻段;以及 沖擊聲識(shí)別步驟,基于所述預(yù)先生成的聲音模型和與所選擇的音頻段相對(duì)應(yīng)的所提取 的特征,從在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段中,識(shí)別沖擊聲。32.根據(jù)權(quán)利要求31所述的沖擊聲檢測(cè)方法,所述沖擊聲檢測(cè)方法還包括: 第二音頻段優(yōu)化步驟,將在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段的起始位 置,重置為所選擇的音頻段的起始點(diǎn)的位置;并且其中, 所述沖擊聲識(shí)別步驟基于所述預(yù)先生成的聲音模型和與起始位置被重置的所述音頻 段相對(duì)應(yīng)的所提取的特征,從起始位置在所述第二音頻段優(yōu)化步驟中重置的音頻段中,識(shí) 別所述沖擊聲。
【文檔編號(hào)】G10L25/78GK105989854SQ201510090001
【公開日】2016年10月5日
【申請(qǐng)日】2015年2月27日
【發(fā)明人】胡偉湘
【申請(qǐng)人】佳能株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
个旧市| 四平市| 泰兴市| 阳朔县| 泸溪县| 靖西县| 永兴县| 个旧市| 沙洋县| 宁海县| 宝鸡市| 崇州市| 汪清县| 青龙| 津市市| 文山县| 宁都县| 南澳县| 阳山县| 民丰县| 抚顺县| 汝州市| 吴旗县| 通化县| 天峻县| 苍南县| 邓州市| 千阳县| 防城港市| 安庆市| 临颍县| 顺平县| 当雄县| 疏勒县| 伽师县| 建德市| 杭州市| 衡东县| 和静县| 萝北县| 紫阳县|