當前位置：首頁 > 新聞資訊 > 機器人開發(fā) > 基于深度學習和傳統(tǒng)算法的人體姿態(tài)估計，技術(shù)細節(jié)都講清楚了

基于深度學習和傳統(tǒng)算法的人體姿態(tài)估計，技術(shù)細節(jié)都講清楚了

來源：AI科技大本營編輯：創(chuàng)澤時間：2020/5/29 主題：其他 [加盟]

計算機視覺的一大研究熱點是人體姿態(tài)估計，還有很多問題急需解決，比如遮擋，交互等等。在最近的CVPR2020里邊也有很多這方面的工作。本文站長主要是想談?wù)劵谏疃葘W習的實時多人姿態(tài)估計。

人體姿態(tài)估計要干嘛？

關(guān)于人類活動規(guī)律的研究，必定是計算機視覺領(lǐng)域首要關(guān)注的內(nèi)容。其中，人體姿態(tài)估計便是計算機視覺領(lǐng)域現(xiàn)有的熱點問題，其主要任務(wù)是讓機器自動地檢測場景中的人“在哪里”和理解人在“干什么”。

隨著信息化時代的迅速發(fā)展，人類每時每刻都在通過多種多樣的手段和途徑獲得海量的可視化圖像數(shù)據(jù)，這使得基于自然場景圖像的人姿態(tài)估計研究在現(xiàn)實生活中擁有很多潛在的應(yīng)用價值。圖1展示了自然場景圖像中人體姿態(tài)估計的研究應(yīng)用。

Fig.1: 自然場景圖像人體姿態(tài)估計的研究應(yīng)用

在信息化的時代，視頻監(jiān)控正在銀行、超市以及公安機關(guān)等關(guān)乎人民財產(chǎn)、人身安全的重要場所發(fā)揮著舉足輕重的角色。面對海量的視頻圖像序列，為了及時地制止現(xiàn)場事故的進一步發(fā)生，工作人員必須長時間且精神高度集中地觀察視頻監(jiān)控畫面并對異常事件作出處理。

除了工作人員很難長時間地保持高度警惕外，長期投入大量的人力來監(jiān)測小概率發(fā)生的事件也不是單位機構(gòu)提倡的做法。因此，實現(xiàn)視頻監(jiān)控的智能化成為一種互聯(lián)網(wǎng)時代的必然趨勢。但是，實現(xiàn)智能視頻監(jiān)控的前提條件是讓機器自動地識別視頻圖像序列中的人體姿態(tài)，從而進一步分析視頻圖像中人類的行為活動。

這就涉及到了我們下面所要說的人體行為分析了。

人體行為分析又為那般？

人體行為分析理解成為了近幾年研究的熱點之一。在人體行為分析理解的發(fā)展過程中，研究人員攻克了很多技術(shù)上的難關(guān)，并形成了一些經(jīng)典算法，但仍有很多尚未解決的問題。從研究的發(fā)展趨勢來看，人體行為分析的研究正由采用單一特征、單一傳感器向采用多特征、多傳感器的方向發(fā)展。而人體姿態(tài)估計作為人體行為識別的一個重要特征，是進行人體行為分析的基礎(chǔ)，是人體行為分析領(lǐng)域備受關(guān)注的研究方向之一。

人體姿態(tài)估計是指從圖像中檢測人體各部分的位置并計算其方向和尺度信息。人體行為分析是基于多幀圖像的前后關(guān)系進行分析理解，而人體姿態(tài)識別是針對單幀靜態(tài)圖像進行處理。正確識別出多幀連續(xù)的靜態(tài)圖像的姿態(tài)信息，為實現(xiàn)正確的行為分析理解提供了可能。因此，人體姿態(tài)估計的準確性與實時性直接影響人體行為分析的準確性和實時性，確保實時準確的姿態(tài)識別是進行下一步行為分析的基礎(chǔ)。

現(xiàn)在，我們的人體姿態(tài)估計課題的發(fā)展已越來越貼近實際，例如在步態(tài)分析、人機交互以及視頻監(jiān)控等領(lǐng)域，人體姿態(tài)估計均具有廣泛的應(yīng)用前景。所以呢，研究人體姿態(tài)估計還是蠻有意思的，好玩 !

當前姿態(tài)估計算法有哪些？

目前主流的人體姿態(tài)估計算法可以劃分為傳統(tǒng)方法和基于深度學習的方法。

基于傳統(tǒng)方法的人體姿態(tài)估計

傳統(tǒng)方法一般是基于圖結(jié)構(gòu)和形變部件模型，設(shè)計2D人體部件檢測器，使用圖模型建立各部件的連通性，并結(jié)合人體運動學的相關(guān)約束不斷優(yōu)化圖結(jié)構(gòu)模型來估計人體姿態(tài)。

其缺點是什么？

First，傳統(tǒng)方法雖然擁有較高的時間效率，但是由于其提取的特征主要是人工設(shè)定的HOG和SHIFT特征，無法充分利用圖像信息，導致算法受制于圖像中的不同外觀、視角、遮擋和固有的幾何模糊性。同時，由于部件模型的結(jié)構(gòu)單一，當人體姿態(tài)變化較大時，部件模型不能精確地刻畫和表達這種形變，同一數(shù)據(jù)存在多個可行的解，即姿態(tài)估計的結(jié)果不唯一，導致傳統(tǒng)方法適用范圍受到很大限制。
Second，另一方面，傳統(tǒng)方法很多是基于深度圖等數(shù)字圖像提取姿態(tài)特征的算法，但是由于采集深度圖像需要使用專業(yè)的采集設(shè)備，成本較高，所以很難適用于所有的應(yīng)用場景，而且采集過程需要同步多個視角的深度攝像頭以減小遮擋問題帶來的影響，導致人體姿態(tài)數(shù)據(jù)的獲取過程復雜困難。因此這種傳統(tǒng)的基于手工提取特征，并利用部件模型建立特征之間聯(lián)系的方法大多數(shù)是昂貴和低效的。
基于深度學習的人體姿態(tài)估計算法

隨著大數(shù)據(jù)時代的到來，深度學習在計算機視覺領(lǐng)域得到了成功的應(yīng)用。因此，考慮如何將深度學習用于解決人體姿態(tài)估計問題，是人體姿態(tài)估計領(lǐng)域的學者們繼圖結(jié)構(gòu)模型后所要探索的另一個重點。早期利用深度學習估計人體姿態(tài)的方法，都是通過深度學習網(wǎng)絡(luò)直接回歸出輸入圖像中關(guān)節(jié)點的坐標。

總結(jié)

六階段雙分支網(wǎng)絡(luò)結(jié)構(gòu)在關(guān)節(jié)點預(yù)測精度上略高于現(xiàn)有傳統(tǒng)的的人體姿態(tài)估計算法。本次站長采用的算法利用自底向上的思想，首先預(yù)測出所有骨點位置，并將骨點連接形成圖結(jié)構(gòu)，通過圖優(yōu)化實現(xiàn)多人體姿態(tài)估計。算法運行效率方面，由于網(wǎng)絡(luò)同時預(yù)測出關(guān)節(jié)點位置和關(guān)節(jié)點之間的空間關(guān)系，為多人姿態(tài)估計算法提供更加稀疏的二分圖，降低二分圖優(yōu)化復雜度而達到了實時的效果。

基于深度學習和傳統(tǒng)算法的人體姿態(tài)估計，技術(shù)細節(jié)都講清楚了

傳統(tǒng)目標檢測算法對比

基于深度學習目標檢測模型優(yōu)缺點對比

如何更高效地壓縮時序數(shù)據(jù)？基于深度強化學習的探索

滴滴機器學習平臺調(diào)度系統(tǒng)的演進與K8s二次開發(fā)

人工智能和機器學習之間的差異及其重要性

面向動態(tài)記憶和學習功能的神經(jīng)電晶體可塑性研究

CVPOS自助收銀的挑戰(zhàn)以及商品識別算法工程落地方法和經(jīng)驗

內(nèi)容流量管理的關(guān)鍵技術(shù)：多任務(wù)保量優(yōu)化算法實踐

百變應(yīng)用場景下，優(yōu)酷基于圖執(zhí)行引擎的算法服務(wù)框架筑造之路

餓了么推薦算法的演進及在線學習實踐

拯救渣畫質(zhì)，馬賽克圖秒變高清，杜克大學提出AI新算法

如何搭建一個GPU加速的分布式機器學習系統(tǒng)，遇到的問題和解決方法

服務(wù)機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發(fā)平臺

基于深度學習和傳統(tǒng)算法的人體姿態(tài)估計，技術(shù)細節(jié)都講清楚了

服務(wù)機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發(fā)平臺

基于深度學習和傳統(tǒng)算法的人體姿態(tài)估計，技術(shù)細節(jié)都講清楚了

服務(wù)機器人(迎賓、講解、導診...)