本發(fā)明屬于計算機視覺領(lǐng)域,具體涉及一種目標(biāo)檢測模型構(gòu)建方法。
背景技術(shù):
目標(biāo)檢測是計算機視覺中的經(jīng)典問題之一,也是基于視覺的模式識別應(yīng)用的一個重要研究方向。它需要對任意畫面進行搜索,對畫面中存在的目標(biāo)進行有效的標(biāo)注以及外接矩形框提取。由于需要對畫面中呈現(xiàn)出多樣性姿態(tài)的目標(biāo)進行有效檢出,因此需要目標(biāo)的特征表示具有極強的表達(dá)能力和判別力。而傳統(tǒng)的基于圖像局部統(tǒng)計特性表達(dá)的手工設(shè)計特征難以區(qū)分目標(biāo)的多樣性、復(fù)雜性,其難以在一般性的目標(biāo)檢測問題上達(dá)到較好的效果。
深度學(xué)習(xí)是近年來機器學(xué)習(xí)領(lǐng)域一個熱門研究方向,已經(jīng)在計算機視覺、自然語言處理等領(lǐng)域獲得了巨大的成功。尤其是深度卷積神經(jīng)網(wǎng)絡(luò),憑借局部感受野、共享權(quán)值以及空間或時序下采樣這三大結(jié)構(gòu)特點,能夠從二維圖像中提取出語義信息豐富和判別力強的特征,在大規(guī)模圖像分類和檢索任務(wù)中均表現(xiàn)出優(yōu)越的性能。近兩年,已經(jīng)出現(xiàn)一些將深度學(xué)習(xí)應(yīng)用于專用的目標(biāo)檢測的技術(shù),如cn104537647a利用深度學(xué)習(xí)模型的最后一層隱節(jié)點的狀態(tài)值訓(xùn)練分類器,用于改善行人檢測問題;cn105718912a采用傳統(tǒng)方法和深度學(xué)習(xí)方法相結(jié)合的方式進行車輛檢測,其利用傳統(tǒng)方法提取目標(biāo)候選區(qū)域,并在候選區(qū)域的基礎(chǔ)上利用深度學(xué)習(xí)模型進行后續(xù)的特征提取以及目標(biāo)類別判別。
現(xiàn)有的基于深度學(xué)習(xí)的一般性目標(biāo)檢測技術(shù)尚有以下不足:首先,一般的檢測方法在其前端、或后端均結(jié)合了傳統(tǒng)方法進行輔助,其采用的深度神經(jīng)網(wǎng)絡(luò)難以實現(xiàn)端到端的設(shè)計,從而提高了深度學(xué)習(xí)模型的訓(xùn)練難度,使得模型難以收斂;其次,由于圖像中一般性目標(biāo)的姿態(tài)呈現(xiàn)出多樣性,如在一幅圖像中可能出現(xiàn)一個人躺在沙發(fā)上看電視的場景,該圖中人、沙發(fā)、電視分別呈現(xiàn)出截然不同的長寬比例、外觀表現(xiàn)等形式,采用如行人、車輛等固定比例框的方式對目標(biāo)外接矩形框進行預(yù)測難以有效的對目標(biāo)的緊致位置表達(dá);另外,圖像中存在的不同類物體,由于其姿態(tài)、尺度的巨大差異,可能呈現(xiàn)出巨大的外觀差異,如一幅圖像中出現(xiàn)一個人彎腰撿起地下瓶子的場景,瓶子相對于圖像尺寸呈現(xiàn)出非常小的尺度,由于深度神經(jīng)網(wǎng)絡(luò)具有層級卷積下采樣的特性,其在處理小目標(biāo)時采用單級判別的方式難以對小目標(biāo)進行有效地提取。因此,上述已有的針對特定目標(biāo)的檢測方法在處理一般性目標(biāo)檢測問題難以同時處理目標(biāo)外觀、比例、尺度差異較大等問題,在進行一般性目標(biāo)檢測時判別力較為不足。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的上述問題,本發(fā)明提出了一種目標(biāo)檢測模型構(gòu)建方法,有效提升目標(biāo)檢測準(zhǔn)確度。
該構(gòu)建方法包括以下步驟:
步驟1,選取包含有待檢測目標(biāo)的圖片,對各待檢測目標(biāo)在圖片中的進行位置標(biāo)注,記錄各待檢測目標(biāo)的坐標(biāo)信息構(gòu)成目標(biāo)檢測定位數(shù)據(jù)集;所述位置標(biāo)注為在所述圖片中繪制包含各待檢測目標(biāo)的最小矩形框;所述目標(biāo)檢測定位數(shù)據(jù)集中各待檢測目標(biāo)的坐標(biāo)信息為各最小矩形框的左上角坐標(biāo)信息和右下角坐標(biāo)信息;
步驟2,根據(jù)所述目標(biāo)檢測定位數(shù)據(jù)集對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練;
步驟3,輸出訓(xùn)練完成后的目標(biāo)檢測模型。
優(yōu)選地,所述深度卷積神經(jīng)網(wǎng)絡(luò)為輸入原始圖像,輸出圖像中目標(biāo)定位矩形框左上角和右下角坐標(biāo)及其對應(yīng)的目標(biāo)類別的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
優(yōu)選地,所述步驟2包括:
步驟21,根據(jù)所述目標(biāo)檢測定位數(shù)據(jù)集做卷積特征和反卷積特征提取,得到圖像稠密特征;
步驟22,對所述圖像稠密特征進行物體性目標(biāo)提取,得到物體性檢測結(jié)果;
步驟23,利用非極大抑制處理對所述物體性檢測結(jié)果進行重復(fù)過濾;
步驟24,利用自適應(yīng)尺度選擇對過濾后的物體性檢測結(jié)果做自動特征尺度映射處理,得到不同尺度的物體性目標(biāo);
步驟25,根據(jù)感興趣區(qū)域池化操作,在所述不同尺度的物體性目標(biāo)中提取具有固定維度的目標(biāo)特征;
步驟26,利用自適應(yīng)空間仿射變換層對所述具有固定維度的目標(biāo)特征進行標(biāo)準(zhǔn)化映射;
步驟27,根據(jù)不同維度的目標(biāo)特征對不同尺度的物體性目標(biāo)進行外接矩形框坐標(biāo)回歸處理;
步驟28,根據(jù)不同維度的目標(biāo)特征和所述圖像稠密特征對所述待檢測目標(biāo)類別進行判別。
優(yōu)選地,所述步驟21具體為:
對所述目標(biāo)檢測定位數(shù)據(jù)集做圖片的高分辨率特征提取,將卷積特征、反卷積特征進行采樣串聯(lián)得到圖像的稠密特征。
優(yōu)選地,所述步驟22具體為:
在進行物體性目標(biāo)提取時,對物體性目標(biāo)檢測輸出特征圖的預(yù)測結(jié)果進行篩選,選取和待檢測目標(biāo)真實坐標(biāo)重合度最大、且分類得分最高的預(yù)測結(jié)果組成困難樣本集。
優(yōu)選地,所述步驟24具體為:
對物體性檢測結(jié)果進行尺度自適應(yīng)映射,將不同尺度目標(biāo)映射至不同深度特征中,得到不同尺度的物體性目標(biāo)。
優(yōu)選地,
所述外接矩形坐標(biāo)回歸處理中的外接矩形坐標(biāo)回歸特征由不同尺度對應(yīng)深度學(xué)習(xí)特征層構(gòu)成;
目標(biāo)類別判別中的目標(biāo)類別判別特征由對應(yīng)層深度學(xué)習(xí)特征同物體性判別對應(yīng)特征串聯(lián)組成。
優(yōu)選地,將所述步驟27的回歸處理和步驟28的類別判別處理做聯(lián)合優(yōu)化處理,所述優(yōu)化處理具體為輸入單張圖片,在線選取分類和坐標(biāo)回歸損失最大的目標(biāo)樣本參與多個損失計算,并針對每張圖片將其在多個損失中對應(yīng)的梯度累加,并進行一次梯度反傳。
與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下優(yōu)點:
通過本發(fā)明中目標(biāo)檢測模型的構(gòu)建設(shè)計,有效地提升了對目標(biāo)檢測的準(zhǔn)確度。
附圖說明
圖1為本發(fā)明所提供的目標(biāo)檢測模型構(gòu)建方法的流程示意圖;
圖2為本發(fā)明所提供的目標(biāo)檢測深度神經(jīng)網(wǎng)絡(luò)總體結(jié)構(gòu)示意圖;
圖3為本發(fā)明所提供的目標(biāo)檢測深度神經(jīng)網(wǎng)絡(luò)子網(wǎng)絡(luò)示意圖。
具體實施方式
下面參照附圖來描述本發(fā)明的優(yōu)選實施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護范圍。
本發(fā)明實施例包括目標(biāo)檢測模型構(gòu)建方法,如圖1所示,該方法包括以下步驟:
步驟a1,圖片中待檢測目標(biāo)的位置標(biāo)注。
選取包含有待檢測目標(biāo)的圖片,對各待檢測目標(biāo)的圖片進行目標(biāo)位置標(biāo)注,具體為繪制圖片中包含各待檢測目標(biāo)的最小矩形框,記錄該矩形框的左上角和右下角坐標(biāo)信息,形成目標(biāo)檢測定位數(shù)據(jù)集。
其中,目標(biāo)圖片的來源可以有很多種方式,比如從網(wǎng)絡(luò)上收集或自行拍攝,目標(biāo)圖片需要包含目標(biāo)的50%以上;本實施例中采用手工標(biāo)注的方式對圖片進行目標(biāo)位置標(biāo)注,當(dāng)然這只是其中一種標(biāo)注方式,其它任意能夠?qū)崿F(xiàn)在圖片中對待檢測目標(biāo)進行標(biāo)注的方式均包含在本發(fā)明的范圍之內(nèi)。
步驟a2,對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。
利用目標(biāo)檢測定位數(shù)據(jù)集,訓(xùn)練用于目標(biāo)檢測深度卷積神經(jīng)網(wǎng)絡(luò),并輸出訓(xùn)練好的用于目標(biāo)檢測的深度卷積神經(jīng)網(wǎng)絡(luò)。其中,所述深度卷積神經(jīng)網(wǎng)絡(luò)具有端到端的特點,其輸入為原始圖像,輸出為圖像中目標(biāo)定位矩形框左上角和右下角坐標(biāo)以及其對應(yīng)的目標(biāo)類別。
在步驟a2中深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的損失分別有多級采用分類損失以及平滑1-范數(shù)(l1)損失加權(quán)組成;所述深度卷積神經(jīng)網(wǎng)絡(luò)由級聯(lián)的多層監(jiān)督組成,不同的網(wǎng)絡(luò)監(jiān)督層對應(yīng)輸出分類損失以及平滑l1損失,不同的網(wǎng)絡(luò)輸出層共同組成深度神經(jīng)網(wǎng)絡(luò)最終的檢測損失。
為了加快用于目標(biāo)檢測的深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,在步驟a2中利用在線困難樣本挖掘策略和一種改進的端到端的梯度反傳優(yōu)化算法來加快用于目標(biāo)檢測的深度卷積神經(jīng)網(wǎng)絡(luò)的收斂。
本實施案例所涉及的用于目標(biāo)檢測的深度卷積神經(jīng)網(wǎng)絡(luò)總體結(jié)構(gòu)示意圖如圖1所示,由卷積子網(wǎng)絡(luò)和后續(xù)的多層特征提取、物體性目標(biāo)判別、尺度自適應(yīng)、仿射變換校正、感興趣區(qū)域池化、目標(biāo)分類回歸、非極大抑制等部分組成。其中物體性目標(biāo)判別、以及目標(biāo)分類、坐標(biāo)回歸等網(wǎng)絡(luò)輸出分別接分類損失以及平滑1范數(shù)回歸損失,圖2為了簡潔,只畫出了接在網(wǎng)絡(luò)最后的損失層。
目標(biāo)檢測流程中的卷積網(wǎng)絡(luò)具體結(jié)構(gòu)示意圖如圖3所示,其中卷積子網(wǎng)絡(luò)由1個輸入層,15個卷積層、4個最大值池化層(分別用p1、p2、p3、p4表示)組成。具體來說,4個最大值池化層分別接在第3、6、9、12個卷積層之后,其池化核均為2×2。15個卷積層的卷積核均為3×3,卷積層的通道個數(shù)分別為64,64,64,128,128,128,256,256,256,512,512,512,512,512,512。
卷積子網(wǎng)絡(luò)后面分別接2個反卷積層(通道數(shù)均為512)、1個特征串聯(lián)層、以及10個卷積核為1×1的卷積層(fc1,fc3,fc5,fc7,fc9通道數(shù)分均512,fc2,fc4,fc6,fc8,fc10通道數(shù)均為5)。其后接尺度選擇層、空間仿射變換層、感興趣區(qū)域池化層(池化核為7×7)、4個平滑l1回歸損失層以及2個分類損失層。
卷積子網(wǎng)絡(luò)的15個卷積層輸出均需要經(jīng)過一個批規(guī)范化(batchnormalization,bn)處理,這一處理具體是由一個批歸一化(batchnorm)步驟和一個尺度處理(scale)步驟組成的。batchnorm負(fù)責(zé)對輸入數(shù)據(jù)進行均值為0方差為1的歸一化,scale負(fù)責(zé)對輸入數(shù)據(jù)進行縮放和平移。batchnorm的均值和方差來自于輸入數(shù)據(jù),scale的縮放平移參數(shù)需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。bn處理通過對網(wǎng)絡(luò)輸入做歸一化,有效消除了網(wǎng)絡(luò)內(nèi)部的協(xié)變量轉(zhuǎn)移,加快了網(wǎng)絡(luò)收斂,有效防止了網(wǎng)絡(luò)過擬合。bn處理之后再輸入激活函數(shù)(rectifiedlinearunits,relu),該激活函數(shù)是一種常用的有效的非線性激活函數(shù)。
本發(fā)明考慮了一般目標(biāo)在圖片中呈現(xiàn)多姿態(tài)、多尺度等特點,將深度卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)分為了層次化的遞進的損失計算過程,以及端到端的一體化的梯度反傳參數(shù)學(xué)習(xí)過程。故此將步驟a2拆分為以下步驟:
步驟a21,根據(jù)所述目標(biāo)檢測定位數(shù)據(jù)集做卷積特征和反卷積特征提取,得到圖像稠密特征。
對于輸入層對應(yīng)的不限定大小的原始目標(biāo)圖片和相應(yīng)的目標(biāo)外接矩形框、目標(biāo)類別標(biāo)簽,通過粗略的物體性檢測過程提取粗略目標(biāo)定位信息。對于步驟a2中的網(wǎng)絡(luò),將第15層卷積層及其后2個反卷積層(反卷積層1、反卷積層2)的輸出作為目標(biāo)圖片的高分辨率特征提取。將第15個卷積層、第2個反卷積層分別上采樣和下采樣至第1個反卷積層大小后,將三層特征輸出進行串聯(lián),得到圖像的稠密特征表達(dá)。
步驟a22,對所述圖像稠密特征進行物體性目標(biāo)提取,得到物體性檢測結(jié)果;具體為在進行物體性目標(biāo)提取時,對物體性目標(biāo)檢測輸出特征圖的預(yù)測結(jié)果進行篩選,選取和待檢測目標(biāo)真實坐標(biāo)重合度最大、且分類得分最高的預(yù)測結(jié)果組成困難樣本集。
額外接2個1×1的卷積層,來對特征圖上的每個位置進行目標(biāo)粗略判別。對于特征圖上的每個點,預(yù)先定義多個不同尺度(scale)、不同比例(ratio)目標(biāo)參考輸出結(jié)果:
scale=2,4,8,16
ratio=0.5,1,2(1)
其中,scale代表目標(biāo)在特征圖上可能的尺度大小,其對應(yīng)的實際目標(biāo)在原圖中的尺寸大小(用像素數(shù)量,area表示)計算為:
area=2scale*stride(2)
其中,stride為特征圖相對于原始圖像的下采樣比例。在本發(fā)明樣例中,stride=16。目標(biāo)比例ratio代表參考目標(biāo)的實際高寬比。對于特征圖上每一個點,均產(chǎn)生scale*ratio個目標(biāo)參考輸出結(jié)果,該參考輸出結(jié)果通過卷積操作進行目標(biāo)外接矩形框的粗略預(yù)測。
對于步驟a22,1×1卷積層輸出特征圖中每個特征點的對應(yīng)目標(biāo)參考輸出的分類判別結(jié)果,以及相應(yīng)的參考坐標(biāo)擬合輸出結(jié)果。該分類判別以及坐標(biāo)擬合輸出結(jié)果粗略地對目標(biāo)參考輸出進行判別,將可能的目標(biāo)從背景中分離出來,該分類判別過程以及相應(yīng)的參考坐標(biāo)擬合輸出結(jié)果不對不同目標(biāo)之間的類別進行區(qū)分,僅對目標(biāo)與背景進行區(qū)分。
在本發(fā)明實施例中,該模型在訓(xùn)練階段粗略物體性檢測結(jié)果中的判別結(jié)果后面連接交叉熵分類損失,坐標(biāo)擬合結(jié)果后面連接平滑l1損失,通過網(wǎng)絡(luò)初始輸入的目標(biāo)類別、以及目標(biāo)真實坐標(biāo)值進行損失計算。物體性檢測損失如下表達(dá)式所示:
l(p,k*,t,t*)=lcls(p,k*)+λ[k*≥1]lloc(t,t*)(3)
這里k*為預(yù)測框的真實類標(biāo),代表其是否為目標(biāo)物體之一,
為了加速上述物體性檢測網(wǎng)絡(luò)訓(xùn)練過程的收斂性,對上述物體性目標(biāo)檢測輸出特征圖的預(yù)測結(jié)果進行篩選,選取和目標(biāo)真實坐標(biāo)重合度最大、且分類得分最高的部分預(yù)測結(jié)果組成困難樣本集,用于計算損失以及網(wǎng)絡(luò)參數(shù)更新。
步驟a23,利用非極大抑制處理對所述物體性檢測結(jié)果進行重復(fù)過濾。
該結(jié)果輸出為額外卷積層在目標(biāo)圖片特征圖每一個點上進行多尺度、多比例的目標(biāo)判別輸出,輸出的物體性檢測結(jié)果包括物體性判別得分和物體的左上角和右下角坐標(biāo)輸出結(jié)果。
優(yōu)選地,在步驟a23中對目標(biāo)圖片特征圖的每一個點進行多尺度、多比例的目標(biāo)判別時,針對每個特征點預(yù)先定義多個不同尺度、不同長寬比例的參考輸出結(jié)果,初始檢測結(jié)果中的坐標(biāo)輸出為在該參考輸出結(jié)果上的坐標(biāo)偏差預(yù)測。
優(yōu)選地,上述物體性目標(biāo)檢測過程不區(qū)分不同目標(biāo)之間的類別差異性,該物體性類別判別輸出僅區(qū)分該物體是否為目標(biāo)或背景。
優(yōu)選地,該物體性判別輸出結(jié)果后面接分類損失,在目標(biāo)坐標(biāo)擬合結(jié)果輸出接平滑l1損失,通過網(wǎng)絡(luò)初始輸入的目標(biāo)類別、以及目標(biāo)真實坐標(biāo)值進行物體性目標(biāo)檢測判別監(jiān)督。
優(yōu)選地,為了加速上述物體性檢測網(wǎng)絡(luò)訓(xùn)練過程的收斂性,對上述物體性目標(biāo)檢測輸出特征圖的預(yù)測結(jié)果進行篩選,選取和目標(biāo)真實坐標(biāo)重合度最大、且分類得分最高的部分預(yù)測結(jié)果組成困難樣本集,用于計算損失以及網(wǎng)絡(luò)參數(shù)更新。
步驟a24,利用自適應(yīng)尺度選擇對過濾后的物體性檢測結(jié)果做自動特征尺度映射處理,得到不同尺度的物體性目標(biāo)。
尺寸較大的目標(biāo)映射到分辨率較低的第15層卷積層中,一般尺寸目標(biāo)映射到第1層反卷積層,尺寸較小的目標(biāo)映射到第2層反卷積層。
對于物體性檢測得到的粗略目標(biāo)外接矩形框,輸入自適應(yīng)尺度選擇層,將不同目標(biāo)映射到不同特征圖中進行特征提取。
對于步驟a24中的尺度選擇層,預(yù)先對訓(xùn)練樣本中的目標(biāo)標(biāo)注矩形框的尺度進行聚類,確定尺度變化范圍。對于一幅圖像,其給定的目標(biāo)標(biāo)注信息為[x,y,w,h],其中(x,y)為標(biāo)注框左上角坐標(biāo),(w,h)為標(biāo)注框?qū)捄透?,則目標(biāo)尺度定義為
同過對標(biāo)注樣本的尺度進行k均值聚類,得到n個聚類中心,自適應(yīng)尺度判別層通過對物體性矩形框尺度歸類為最近鄰聚類中心來進行尺度判別,進而將物體性檢測結(jié)果映射至更合適的特征層進行特征提取。在本實施例中,取尺度聚類中心n=3,分別對應(yīng)特征映射為第15層卷積層(大尺度目標(biāo))、第1層卷積層(中等尺度目標(biāo))以及第2層卷積層(小尺度目標(biāo))。對于第i個物體性目標(biāo),其坐標(biāo)映射特征圖fi對應(yīng)為:
其中,ssmall,smiddle,slarge分別為三個聚類中心對應(yīng)的目標(biāo)尺度。
步驟a25,根據(jù)感興趣區(qū)域池化操作,在所述不同尺度的物體性目標(biāo)中提取具有固定維度的目標(biāo)特征。
將映射后的目標(biāo)框及其對應(yīng)特征圖輸入感興趣區(qū)域池化層,提取固定維度的特征表達(dá)。將映射后的目標(biāo)框劃分為p×p個均勻的目標(biāo)框,將每個框內(nèi)的特征進行最大化池化提取操作,得到寬高固定的特征表達(dá)。在本實施例中,p=7。
步驟a26,利用自適應(yīng)空間仿射變換層對所述具有固定維度的目標(biāo)特征進行標(biāo)準(zhǔn)化映射。
對于固定寬高的目標(biāo)特征表達(dá),將其輸入空間仿射變換層進行形態(tài)校正,輔助提高特征判別力。對于圖片中的待檢測目標(biāo),其姿態(tài)呈現(xiàn)出多樣性,這里我們定義目標(biāo)具有一個“標(biāo)準(zhǔn)形態(tài)”,標(biāo)準(zhǔn)形態(tài)下的目標(biāo)能夠更加合理地展現(xiàn)出目標(biāo)表觀特性,從而能夠有效提升目標(biāo)特征判別力。對于原始特征表達(dá)中的每一個坐標(biāo)點
其中,
其中,
近似空間仿射變換矩陣參數(shù)的求解如下:
其中,
由近似仿射變換矩陣
其中,
步驟a27,根據(jù)不同維度的目標(biāo)特征對不同尺度的物體性目標(biāo)進行外接矩形框坐標(biāo)回歸處理。
所述外接矩形坐標(biāo)回歸處理中的外接矩形坐標(biāo)回歸特征由不同尺度對應(yīng)深度學(xué)習(xí)特征層構(gòu)成;在空間仿射變換后的目標(biāo)特征層后接1×1卷積層,進行不同尺度目標(biāo)外接矩形框預(yù)測,預(yù)測結(jié)果后面接平滑1范數(shù)損失。
步驟a28,根據(jù)不同維度的目標(biāo)特征和所述圖像稠密特征對所述待檢測目標(biāo)類別進行判別。
目標(biāo)類別判別中的目標(biāo)類別判別特征由對應(yīng)層深度學(xué)習(xí)特征同物體性判別對應(yīng)特征串聯(lián)組成;將空間仿射變換后的目標(biāo)特征同步驟a22中物體性檢測層提取的特征進行串聯(lián),得到目標(biāo)類別判別的特征表達(dá),其后接1×1卷積層進行目標(biāo)類別預(yù)測,預(yù)測結(jié)果后接softmax分類損失。
目標(biāo)類別判別與外接矩形框預(yù)測的聯(lián)合損失定義為:
其中,lobjcls為物體類別判別交叉熵?fù)p失,lobjloc(ti,ti*)為不同尺度對應(yīng)的平滑1范數(shù)回歸損失。
將所述步驟27的回歸處理和步驟28的類別判別處理做聯(lián)合優(yōu)化處理,所述優(yōu)化處理具體為輸入單張圖片,在線選取分類和坐標(biāo)回歸損失最大的目標(biāo)樣本參與多個損失計算,并針對每張圖片將其在多個損失中對應(yīng)的梯度累加,并進行一次梯度反傳。
優(yōu)選地,在進行第二級目標(biāo)判別損失計算時,選取損失最大的前n個樣本作為困難樣本,其計算得到的損失加入最終的損失計算和網(wǎng)絡(luò)參數(shù)更新。
優(yōu)選地,所述的網(wǎng)絡(luò)訓(xùn)練過程中采用一種改進的梯度反傳優(yōu)化算法,具體為:輸入單張圖片,在線選取分類和坐標(biāo)回歸損失最大的目標(biāo)樣本參與上述的6個損失計算,并針對每張圖片將其在多個損失中對應(yīng)的梯度累加,并進行一次梯度反傳。
步驟a3,輸出目標(biāo)檢測模型。
本發(fā)明通過所涉及的一種深層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用層級的檢測流程,聯(lián)合使用多級分類損失和利用不同層級特性的多級平滑l1回歸損失來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練,并提出了一種在線困難樣本挖掘策略和改進的一體化梯度反傳優(yōu)化算法來加快網(wǎng)絡(luò)收斂。本發(fā)明方法通過將目標(biāo)檢測過程分為多級、多尺度的檢測流程,使得訓(xùn)練的到的深層卷積神經(jīng)網(wǎng)絡(luò)能夠從輸入圖片中提取出的目標(biāo)語義信息更豐富,對小尺寸目標(biāo)提取判別力更強的特征表達(dá),從而使得在目標(biāo)檢測時有效提升目標(biāo)檢測和定位精度。
本領(lǐng)域技術(shù)人員應(yīng)該能夠意識到,結(jié)合本文中所公開的實施例描述的各示例的方法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明電子硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以電子硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。本領(lǐng)域技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
術(shù)語“包括”或者任何其它類似用語旨在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備/裝置不僅包括那些要素,而且還包括沒有明確列出的其它要素,或者還包括這些過程、方法、物品或者設(shè)備/裝置所固有的要素。
至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護范圍顯然不局限于這些具體實施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對相關(guān)技術(shù)特征做出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護范圍之內(nèi)。