本發(fā)明涉及人類視覺模擬技術領域,具體地講是利用機器學習實時在線建模,構建一種完全數據驅動的視覺顯著性自動檢測方法。
背景技術:
視覺顯著性是構成視覺注意的基礎。視覺顯著性檢測是當今計算機視覺研究領域的熱點問題。如何模擬人類腦-眼系統(tǒng),實現仿真人類視覺的機器視覺,一直是研究者們的探索方向。自然圖像是典型的非結構化數據,而機器學習適合對非結構化數據開展建模。近年來,由淺層和深層神經網絡構造的機器學習算法、基于自底向上和自頂向下框架,已被應用于解決視覺顯著性檢測等問題。自底向上框架可采用數據驅動的方法來建模,然而算法通常受一些先驗知識的限制約束,且由于訓練樣本常不準確,模型容易出偏差。自頂向下框架中,深度學習已成功地用于圖像分割和顯著性檢測;到目前為止,深度學習為基礎的算法在許多應用中都反映了最好性能,但其缺陷也明顯:深度學習需要大量已標記的樣本數據,深層網絡往往需要手工設計,相比于淺層神經網絡,其訓練需要更高的硬件資源,目前無法實時在線進行。
顯然,如果實踐中沒有合適的先驗知識和足夠的有效樣本,現有方法可能會無法實施。此外,我們注意到目前大多數顯著性檢測方法中,信息往往是單向映射的,缺乏動態(tài)反饋過程,與人類視覺系統(tǒng)存在很大差別,這可能是當前機器視覺與人類視覺相去甚遠的原因之一。
技術實現要素:
有鑒于此,本發(fā)明要解決的技術問題是:借助機器學習手段,構建一種模擬人眼視覺過程的算法框架。通過在線學習自動應對實際場景變化,借助背景抑制技術減少學習過程中的樣本誤差,利用感知正反饋實現顯著性檢測。
本發(fā)明的技術解決方案是,提供以下步驟的顯著性檢測方法,包括:
1)輸入圖像。只需將圖像邊框區(qū)域一定寬度范圍作為非注視區(qū)(負樣本候選區(qū)),而居中的余下區(qū)域為注視區(qū)(正樣本候選區(qū))。
2)模擬人眼微跳視,通過集成的pelm(調和極限學習機)學習得到粗顯著度圖。
①對正樣本候選區(qū)域內的高梯度值像素(大于該區(qū)域平均梯度的像素)隨機抽樣n個像素;對負樣本區(qū)域內所有像素,進行等量的隨機采樣。采樣過程可重復3-5次。
②利用樣本像素及其8鄰域像素的rgb特征(共27維),構成正負樣本集;重復采樣可形成多個樣本集。分別利用這些樣本集,進行pelm(調和極限學習機)學習建模。
③通過pelm模型對所有像素進行二值分類。每個pelm的二值圖可被視為一種視覺刺激,將多個pelm的二值刺激圖進行疊加可以形成粗顯著圖。
3)利用rbd(魯棒的背景檢測算法),通過檢測背景區(qū)域,對其加以抑制,來減少粗顯著圖中的背景噪聲,以降低噪聲樣本影響。
4)通過正反饋迭代循環(huán)來強化目標,生成細化的新顯著圖;
①閾值化優(yōu)化后的粗顯著圖,得到新的二值化注視區(qū)域(bw_i);
②如果前一個注視區(qū)域bw_i-1已經存在,則判斷bw_i-1是否足夠接近bw_i。若為真,則表明視覺感知連續(xù)相同(已達到感知飽和),迭代中斷;否則,bw_i-1=bw_i,繼續(xù)下一步;
③通過集成pelm神經網絡學習,進行顯著性檢測(與步驟2)類同)。每個pelm的二值分類結果進行疊加形成新的顯著性圖;
④返回步驟①,構成正反饋循環(huán)。
5)迭代結束。得到新顯著圖和二值分割結果bw_i。
本發(fā)明是一種仿真人眼微跳視機制的顯著性檢測方法,具有以下特點:首先,原圖像的居中區(qū)域和邊框區(qū)域被直接地、粗略劃分為注視區(qū)和非注視區(qū);通過對注視區(qū)高梯度像素的隨機抽樣,來模擬人眼微跳視對注視區(qū)的重復掃描。多個樣本集經學習構建出多pelm模型,多個分類模型的二值分類結果疊加構成了粗顯著圖,用來模擬人腦并行處理視覺數據和產生初步感知。為了進一步降低背景噪聲影響,粗顯著圖通過rbd算法抑制背景像素。針對注視區(qū)重復學習的正反饋循環(huán)過程,是借助人眼對重復的類同刺激很快形成感知衰退的機制構造的一種感知生成方法。綜上,本發(fā)明中顯著目標的檢測是由粗到細、逐步求精的過程。與現有的算法相比,該算法完全是數據驅動的,不需要任何先驗知識和事先標記的樣本。
附圖說明
圖1為本發(fā)明基于機器學習、背景抑制與感知正反饋的顯著性檢測方法系統(tǒng)框圖。
具體實施方式
下面就具體實施例對本發(fā)明作進一步說明,但本發(fā)明并不僅僅限于這些實施例。
本發(fā)明涵蓋任何在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。為了使公眾對本發(fā)明有徹底的了解,在以下本發(fā)明優(yōu)選實施例中詳細說明了具體的細節(jié),而對本領域技術人員來說沒有這些細節(jié)的描述也可以完全理解本發(fā)明。此外,本發(fā)明之附圖中為了示意的需要,并沒有完全精確地按照實際比例繪制,在此予以說明。
人類視覺系統(tǒng)可以檢測到顯著物體,并將注意力集中在當前視覺任務相關的區(qū)域。神經心理學實驗顯示,這些能力都歸功于視覺注意機制,而視覺注意是通過眼動來實現的。人類眼動可分為兩種:跳視和微跳視。(1)跳視階段,人眼尋找場景中特征突出的候選目標,并使得視網膜中央凹朝向目標,從而形成注視。(2)當注視目標時,人眼會不自主顫動,稱為微跳視。微跳視會維持視覺感知、導致感知衰退、使得注視切換到跳視階段,尋找新目標。人眼跳視和微跳視有助于人類視覺感知的快速、高效。
為了模擬上述人類視覺,本發(fā)明構建了一個系統(tǒng)框架,使用調和極限學習機(pelm)算法構建的分類模型仿真人腦神經網絡,利用其二值分類結果模擬人腦神經發(fā)放。通過學習算法先提取粗略注視區(qū),隨后用rbd算法抑制注視區(qū)噪聲,再進行視覺感知正反饋過程,最終得到更精確顯著圖。如圖1所示。本發(fā)明的機器學習、背景抑制與感知正反饋的顯著性檢測方法,包括以下各步驟:
1)將輸入圖像的邊框區(qū)域一定寬度范圍作為非注視區(qū)(負樣本候選區(qū)),而余下的矩形區(qū)域為注視區(qū)(正樣本候選區(qū))。
2)利用集成的pelm(調和極限學習機)模擬人腦神經網絡,“采樣-學習”得到粗顯著度圖。
①對正樣本候選區(qū)域內的高梯度值像素(大于該區(qū)域平均梯度的像素)隨機抽樣n個像素;對負樣本區(qū)域內所有像素,進行等量的隨機抽樣。采樣過程可重復3-5次,模擬人眼微跳視對注視區(qū)的重復微掃描。
②利用樣本像素和其8鄰域像素的rgb特征,構成正負樣本集。重復采樣可形成多個樣本集。分別利用這些樣本集,進行pelm(調和極限學習機)學習建模。
③通過pelm模型對所有像素進行二值分類。每個pelm的二值圖被視為一種視覺刺激,多個視覺刺激圖進行疊加,歸一化后可以形成粗顯著圖。
3)用rbd算法(魯棒的背景檢測算法),先檢測圖像背景;然后對粗顯著圖中相應背景區(qū)域像素進行抑制,以降低噪聲樣本干擾。
4)通過正反饋迭代循環(huán)來強化感興趣目標;
①閾值化rbd后的粗顯著性圖,得到新的二值化注視區(qū)域(bw_i);
②如果舊注視區(qū)域bw_i-1已經存在,判斷bw_i-1是否足夠接近bw_i。若為真,則表明視覺感知連續(xù)相同(表明已達到感知飽和),迭代中斷;否則,bw_i-1=bw_i,繼續(xù)下一步;
③通過集成pelm神經網絡學習,進行顯著性檢測。pelm的每個二值分類結果疊加形成新的顯著性圖;
④返回步驟①,構成正反饋循環(huán)。
5)迭代結束。得到疊加形成的新顯著圖。
rbd(出現于cvpr’2014)是一種顯著目標檢測算法。其通過對背景的檢測和抑制,來突出圖像中的顯著目標。本發(fā)明先將圖像中心區(qū)域作為初始正樣本候選區(qū),而將圖像邊框區(qū)域作為負樣本候選區(qū),與人類觀察一幅圖像的習慣類似。然而,由于初始注視區(qū)域定位過于隨意粗糙,像素抽樣后,不可避免地在正負樣本中存在很多噪聲樣本,因此學習得到的pelm模型也不精確。雖然采用集成策略,綜合多個pelm模型能夠減少分類誤差,但為了進一步降低噪聲樣本影響,學習得到的粗顯著圖仍有必要通過抑制背景像素,來得到進一步優(yōu)化。因此,本發(fā)明借助rbd算法來降低背景噪聲對顯著圖的影響。具體做法是:
1)將原圖像中的像素利用快速聚類策略超像素化;
2)利用rbd算法檢測原圖像的超像素背景區(qū)域;
3)將粗顯著圖中對應于超像素背景區(qū)域的所有像素位置,賦予很小的權值,實現粗顯著圖中背景像素的抑制處理。
圖1中的分類器建模采用調和極限學習機(polyharmonicextremelearningmachine,pelm)。這是一種單隱層前饋網絡,在人臉識別等領域應用中效果良好。pelm的調和機制是一種有效的方式,適合用來擬合快速變化和緩慢變化兩類數據。不同于傳統(tǒng)基于梯度下降法的學習算法,pelm的內權隨機賦值,無需迭代訓練,小樣本集時可實時在線訓練,幾乎不需要調整參數。
對于一個給定的訓練樣本集
其中ai和bi是輸入節(jié)點對隱藏節(jié)點的權值,βi是隱節(jié)點輸出節(jié)點的權值。在這個模型中的內部權值隨機分配。g(ai,bi,x)是i的隱層節(jié)點輸出。p(x)是一個低階多項式,稱為調和項,用于應對具有緩慢變化的數據類型。輸出權值β可以通過以下公式計算:
其中h+是隱層輸出矩陣的moorepenrose偽逆。t=[t1,t2,...tn]t。
為了克服pelm的隨機性,可用集成方式提高其性能,見公式(3),稱為epelm(ensembleofpoiyharmonicextremeleamingmachine,epelm)。參數p表示其中pelm個數。(圖1中p=3)
本發(fā)明中所述的視覺感知正反饋過程,是通過重復的機器學習構建針對注視區(qū)域的感知正反饋;借此疊加二值分類結果生成新的視覺感知圖。循環(huán)迭代中的視覺刺激不斷疊加,使得圖中顯著目標區(qū)域的顯著度能夠迅速提升并達到飽和。對新顯著圖二值化即可得到與人類感知類似的圖像分割結果。
以上僅就本發(fā)明較佳的實施例作了說明,但不能理解為是對權利要求的限制。本發(fā)明不僅局限于以上實施例,其具體結構允許有變化??傊苍诒景l(fā)明獨立權利要求的保護范圍內所作的各種變化均在本發(fā)明的保護范圍內。