知識文章
你的姿訊 AI搞定-行人姿態辨識技術
車輛中心 研究發展處 林義傑
在自動駕駛領域中,行人是智慧感測系統與道路環境的主要參與者,亦是交通事故中的主要受害者之一。因此行人之偵測及其動作姿態的判識技術一直是國內外學者與廠商開發研究的重點,車輛中心(ARTC)已透過行人姿態辨識技術,克服不同用路人的外貌特徵及不同場景的複雜影響,在用路人與車用攝影機之間的動態變化下達到即時且穩定的辨識能力,亦為自駕車與用路人之間,連結為可互動之功能。
行人姿態辨識技術介紹
目前行人姿態辨識技術主要基於深度學習進行RGB影像應用開發,主要分成物件偵測技術與行人姿態估計。
1.物件偵測技術
物件偵測技術的主要功能為在一張影像上同時定位物件的座標並進行分類。基於深度學習應用開發是先對影像進行含有物件的區域提取,並在其區域上進行深度學習模型訓練與判別。根據效能與功能分為兩種演算法。
?二階段物件偵測:
針對影像進行可能包含物件的區域進行劃分,並在其區域上進行深度學習模型的特徵提取演算,並從其產出的特徵圖進行分類任務訓練。在多個可能包含物件的區域進行特徵提取,有效掌握物件特徵資訊,此設計可達到高精準度要求,但運算資源要求高,進而影響物件偵測速度。以R-CNN為例,具體步驟如圖1。
1. 在原圖中找出2,000個可能有物件的區域
2. 在該區域變更尺寸,並經由卷積神經網絡(Conv Net)擷取特徵
3. 在其輸出層分別預測類別(SVMs)以及預測框修正(Bbox reg)
圖1. 二階段物件偵測R-CNN
圖片來源: R-CNN, Fast R-CNN, Faster R-CNN, YOLO-
Object Detection Algorithms
?一階段物件偵測:
以預先設定的預測框設計取代在二階段物件偵測技術中的可能包含物件的區域劃分,透過深度學習模型直接進行預測框之位置回歸計算信心水準估計與分類任務。此設計可有效提升物件偵測速度,但是對於小物件偵測之精準度需要加強。圖2為一階段物件偵測改良方式,可兼容高精度與運算即時性。
圖2. 一階段物件偵測改良方式
2.行人姿態估計
行人姿態估計是以輸入影像來定位人體部分,根據關節點位置評估進而建立其骨骼連動形式。在多人姿態估計方法中,根據演算設計分為Top-Down與Bottom-Up兩種方法:前者先從影像中偵測出所有可能的人體之邊界框,並在每一邊界框內定位其骨架關鍵點,將關鍵點進行順序相連得到人體骨骼連動;後者則是定位出所有可能骨架關節點,接著將每一關節點關連性進行分組到每一人體,最後形成各自人體骨骼連動。圖3為使用Bottom-UP方法中的OpenPose模型進行姿態估計之示意圖。
圖3. 行人姿態估計示意
ARTC目前技術發展
為了達到即時與穩健性的行人姿態的辨識推論,ARTC建立深度學習模型應用的高度整合系統,在高效的影像數據流處理進行下,達到用路人身分辨識以及其姿態動作推論。
整體系統演算法設計流程如圖4所示,行人類別偵測模組以一階段物件偵測技術為基礎進行客製化影像數據學習。針對行人類別影像進行遷移學習模式的行人特徵擷取,以及人體姿態估計技術之骨架關節點評估,進行多重影像數據強化與融合。針對時序性之動作預測將以注意力機制與循環神經網絡為基礎,進行連續融合影像數據流之學習模式,有效提升行人連續姿態預測能力。
圖4. 演算法流程圖
具體功能實現如圖5所示,首先由影像感測器偵測道路資訊,透過行人辨識功能計算其類別與位置,並整合深度學習模型的功能性分析,如行人類別判定,RGB影像的特徵強化與骨架姿態的連動估計,以深度學習模型進行特徵融合達到連續行人動作推論,在容許的反應時間與有效的偵測範圍下,為自動駕駛帶來預防性的行人姿態辨識資訊,亦建置用路人姿態推論之事件任務,包含乘客招車、追車辨識與交通警察指揮手勢判斷,其準確率可達92%以上。
圖5. 行人姿態辨識系統架構圖
ARTC已結合不同深度學習模型下的特徵解析,描述特定用路人在不同分析角度下的有效資訊,並在系統運算資源的有效利用下,可即時(Real-Time)達到不同場景下的行人姿態辨識;利用行人姿態辨識技術來達到行人的預防保護與生命安全,是ARTC發展自動駕駛的歷程中不可缺少的核心,也是未來智慧運輸於人車互動情境與應用中的關鍵技術。
---
相關可移轉技術:
?智慧定點裝置人流估測系統
?基於影像的動態人流分析系統
?行人姿態辨識技術