引言
行人檢測任務的目標是在圖像中檢測行人并確定行人的位置。隨著人工智能技術的發(fā)展,越來越多的研究人員關注這項任務并且做了很多相關的研究工作。準確的行人檢測方法可以應用于很多領域,例如智能輔助駕駛,智能視頻監(jiān)控和智能機器人等。
近年來,區(qū)域卷積神經(jīng)網(wǎng)絡(R-CNN)模型被廣泛應用于通用類物體檢測任務。有相關文獻提出了一種快速區(qū)域卷積神經(jīng)網(wǎng)絡(FastR-CNN)模型,在21類的物體檢測任務中取得了顯著的效果。這種模型首先使用候選區(qū)域框方法SelectiveSearch去預測物體可能存在的位置,然后再使用卷積神經(jīng)網(wǎng)絡對候選區(qū)域框進行進一步的精細分類和定位。受這種模型在通用類檢測中的啟發(fā),我們試圖將這種方法應用于行人檢測。但是SelectiveSearch方法不是針對單一類的候選框提取方法,它會預測所有種類物體的可能位置,包括車輛,建筑等。因此生成的候選區(qū)域框存在很多的冗余,降低訓練的分類器的質(zhì)量。同時冗余的候選區(qū)域框會消耗較多的計算資源,降低卷積神經(jīng)網(wǎng)絡的訓練和測試的速度。在行人檢測中,只對行人類別生成候選區(qū)域框,并使用這種候選框訓練和測試卷積神經(jīng)網(wǎng)絡,理論上可以取得很好的檢測效果。
候選區(qū)域框提取在一定程度可以看作對物體的粗糙檢測。我們可以對圖像提取特征,并訓練一個判別行人的簡單分類器,使用分類器去生成候選區(qū)域框。這樣就可以實現(xiàn)只針對行人類別提取候選區(qū)域框的目的。基于這個思想,本文提出了一種適用于行人檢測的候選框提取方法。我們將這種候選框提取方法與卷積神經(jīng)網(wǎng)絡模型結合起來,并應用于行人檢測。這種檢測方法主要分為兩步:1)使用候選框提取方法為每張圖像生成候選區(qū)域框;2)將圖像和它的候選區(qū)域框輸入到卷積神經(jīng)網(wǎng)絡中。網(wǎng)絡包含兩個輸出層。一個輸出行人類別的概率估計,另一個輸出四個實數(shù)表示行人邊界框的位置。
本文的模型和其他行人檢測方法相比取得了很好的檢測效果。在INRIA,PKU和ETH數(shù)據(jù)集上分別實現(xiàn)了14.1%,15.3%和45.6%的漏檢率。實驗結果表明,在行人檢測任務中我們的候選框提取方法要比SelectiveSearch更有效。同時,我們的方法去除了冗余的候選區(qū)域框,提高了卷積神經(jīng)網(wǎng)絡訓練和測試的速度。
背景
1.現(xiàn)有行人檢測算法的分類
現(xiàn)有的行人檢測算法通常會被分為兩類。第一類稱為傳統(tǒng)算法,這類方法從圖像中提取手工設計特征并訓練一個支持向量機(SVM)或增強(boosting)作為分類器。這些手工設計特征包括哈爾,梯度直方圖和局部二值模式等,在行人檢測表現(xiàn)出很好的性能。DPM在檢測中考慮了局部的區(qū)域特征以及區(qū)域間的形變。有相關文獻將上下文信息加入到模型中。另外,聚合通道特征將梯度直方圖和LUV顏色空間特征融合到一起用于行人檢測。文獻提出了一種有效的特征變換方法去除了局部特征間的關聯(lián)。
另一類行人檢測方法是采樣深度模型。深度模型可以從原圖像中學習特征,極大地提高了行人檢測算法的性能。從行人的不同身體部門學習特征來處理行人間的遮擋問題,卷積網(wǎng)絡方法采用卷積稀疏編碼無監(jiān)督地預訓練卷積神經(jīng)網(wǎng)絡,通過語義的特征優(yōu)化行人檢測效果。
2.候選框提取方法
由于物體可能是任意尺寸并且可能出現(xiàn)在圖像的任一位置,因此需要搜索整幅圖像來完成分類和定位?;瑒哟翱诜椒梢垣@得所有可能的物體位置,但是計算復雜度很高。最近,研究人員提出了其他幾種候選框提取方法,例如selectivesearch,bing和edgeboxes。Selectivesearch通過分割和相似度計算的方式提取候選區(qū)域框,區(qū)域框的質(zhì)量較好但是速度很慢。Bing使用正則梯度信息和二分操作生成候選區(qū)域框,速度較快但是質(zhì)量很差。Edgeboxes是在質(zhì)量和速度之間折中的一種算法。
這類方法生成的候選區(qū)域框包含了所有的種類,適用于通用類的檢測,但無法完成單一類的候選框提取。冗余的候選區(qū)域框會降低卷積神經(jīng)網(wǎng)絡的性能,并消耗更多的計算資源。行人檢測問題只需要針對行人類別生成候選區(qū)域框而無需其它物體的冗余信息,本文實現(xiàn)了一種基于行人檢測算法的候選區(qū)域框提取方法。我們將這種優(yōu)化的候選區(qū)域框提取方法和卷積神經(jīng)網(wǎng)絡結合起來,并將其應用于行人檢測。
提出的方法
1.方法概述
本文所提出的方法包括兩部分。第一部分是候選區(qū)域框的提取,第二部分是卷積神經(jīng)網(wǎng)絡模型。其中候選框提取方法采用聚合通道特征(ACF),卷積神經(jīng)網(wǎng)絡模型基于文獻中的深度網(wǎng)絡結構。網(wǎng)絡的輸入是原始的圖像和候選區(qū)域框。模型首先通過卷積和池化提取圖像的卷積特征,經(jīng)由興趣區(qū)域池化(RoI)層將候選區(qū)域框的卷積特征映射為固定長度的特征向量并被傳入全連接層。全連接層后面有兩個平行的輸出層,輸出行人檢測框的置信分數(shù)和坐標。
2.候選區(qū)域框提取
該候選區(qū)域框算法從圖像中提取10個通道的手工設計特征并訓練一個AdaBoost分類器。通道特征包括歸一化的梯度幅值,梯度方向(6bins)和LUV顏色通道。算法通過計算不同尺度下的通道特征構建特征金字塔。不同尺寸下的特征不是直接計算,而是通過相鄰尺寸的特征近似計算獲得,其詳細過程如下文所述。
對于圖像I,設為任意低層次旋轉不變特征計算方法,圖像的一個通道計算方法為。通道C是像素級別的特征,C中每個像素都是從對應圖像I的圖像塊計算而來。設表示圖像I在s尺寸下的重采樣,,R表示采樣函數(shù)。當計算多尺寸圖像特征時,首先將圖像I在尺寸s下重采樣,之后通過近似計算得到的通道特征。近似計算方法如下:
是不同尺寸間的變換因子,每種通道。征類型對應一個。通用的特征金字塔方法通常是在每一個尺寸計算。這種近似計算的方法在框的提取速度。在候選區(qū)域框提取過程中,本文首先對圖像提取10通道的特征,然后使用近似計算得到不同圖像尺寸下的特征構建特征金字塔。最后訓練了一個由2048個深度為2的分類樹組成的Adaboost分類器生成候選區(qū)域框。為了獲得足夠的候選區(qū)域框,我們降低了檢測的閾值。
圖1.卷積神經(jīng)網(wǎng)絡結構
網(wǎng)絡結構
在這一部分,我們首先介紹采用的深度網(wǎng)絡模型的結構,然后說明模型的損失函數(shù)。
本文的網(wǎng)絡結構如圖1所示。網(wǎng)絡包含5個卷積層。每個卷積層分別有96,256,384,384和256個核函數(shù)。采用線性整流函數(shù)(ReLU)作為網(wǎng)絡的激活函數(shù)。每個卷積層后面連接了一個空間最大池化層。網(wǎng)絡可以輸入任意尺寸的圖像。經(jīng)過卷積和池化,得到圖像的卷積特征。在卷積特征傳入全連接層之前,興趣區(qū)域池化層會將卷積特征映射為固定長度的特征向量。分別使用標準差為0.01和0.001的高斯分布初始化用于分類和邊界框回歸的全連接層權重(weights)。偏置(bias)初始化為0。網(wǎng)絡的每一層權重的學習率為0.001,偏置的學習率為0.002。
全連接層后面連接了兩個平行輸出層。第一個輸出層輸出在行人和背景類上的概率值,用表示。其中和分別表示物體是背景和行人的概率值。通常,p通過在全連接層的兩個輸出加上softmax計算得到。第二個輸出層是在行人類上的邊界框回歸補償,使用表示。每個訓練的候選區(qū)域框都有一個類別標定u和邊界框目標v。我們使用了多任務損失函數(shù)L同時訓練分類和邊界框回歸:
其中是類別u的對數(shù)損失函數(shù)。第二個任務的損失函數(shù)是在類別u的邊界框上定義的,。當時,艾弗森括號指示函數(shù)值為1,其他值為0。按照慣例,通用背景類被標記為u=0。由于背景類的候選區(qū)域框沒有特定的標注,此時在損失函數(shù)中就將背景類的忽略不計。對于行人類的邊界回歸,使用如下?lián)p失函數(shù):
其中參數(shù)控制兩個任務損失之間的平衡。標注的回歸目標v被歸一化為零均值和單位方差。在所有的實驗中,本文都設置。本文使用隨機梯度下降的方法最小化損失函數(shù)。
結束語
本文提出了一種單一類候選框提取方法與卷積神經(jīng)網(wǎng)絡結合的模型。該候選框提取算法從圖像中提取手工設計特征,并訓練AdaBoost分類器。本文所提出的方法不同于通用的候選框提取方法,可以只為行人類別生成候選區(qū)域框。本文還闡述了候選框提取算法的具體細節(jié)以及網(wǎng)絡的結構。實驗的結果表明,本文的方法提高了候選框提取的質(zhì)量,在行人檢測上取得了很好的效果,同時縮短了網(wǎng)絡訓練和測試的時間。
中傳動網(wǎng)版權與免責聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(u63ivq3.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。
關注伺服與運動控制公眾號獲取更多資訊
關注直驅(qū)與傳動公眾號獲取更多資訊
關注中國傳動網(wǎng)公眾號獲取更多資訊
- 運動控制
- 伺服系統(tǒng)
- 機器視覺
- 機械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機器人
- 低壓電器
- 機柜