快手上線手部姿態(tài)估計功能,官方揭秘秒變閃電手背后的奧秘
轉(zhuǎn)動一下手指和手掌,鋼鐵俠迅速就完成了戰(zhàn)甲制作,這種神技能讓屏幕外的粉絲們一秒跪服。鋼鐵俠的“純手勢感應(yīng)”也成為一個被科技行業(yè)頻繁討論的話題。
那普通人是否也能獲得這種狂拽酷炫吊炸天的操作技能呢?
可以。快手給出了答案。
快手上線“裝X神器“:秒變閃電手
隨著技術(shù)的發(fā)展,研發(fā)人員越來越希望尋找一些不同的人機交互方式,其中實時手部姿態(tài)估計就是科學家們重點關(guān)注的研究方向之一 。簡單的說,手部姿態(tài)估計是讓計算機理解人體肢體語言的一種手段。通過該技術(shù),人機交互不再限于文字接口或者鼠標鍵盤控制的用戶圖像界面。
近日,快手上線了手部姿態(tài)估計功能,成為行業(yè)首家。這個功能給普通人賦予了“裝X神器”:動動手,就可以實現(xiàn)酷炫的特效。
用戶只要按照說明做出相應(yīng)的手勢,就可以被加上各種有意思的特效。比如,用戶可以在視頻中當一回真正的“奧特曼”,發(fā)射出動感光波球。還可以秒變狼爪、閃電手。展示童年時傾慕的漫威形象用的大招,通通不是問題。
用戶在使用這款產(chǎn)品拍攝時,算法會自動識別出手型類別,并估計手部關(guān)鍵點位置。根據(jù)關(guān)鍵點位置和手型類別,可以產(chǎn)生不同的特效效果或者跟畫面內(nèi)容進行人機交互。用戶既可以通過手型觸發(fā)相應(yīng)的特效效果,也可以實現(xiàn)指節(jié)級精準控制。
這個功能上線后,有大量的用戶嘗試這些新奇的玩法。
揭秘手勢識別,快手解決了哪些問題?
手勢識別技術(shù)由快手2016年組建的Y-Lab團隊手勢研發(fā)小組研發(fā)。這一年,為了研發(fā)出更多能給用戶帶來新奇體驗的新技術(shù),快手組建了一支由高學歷研發(fā)人員組成的隊伍,研究領(lǐng)域涉及人工智能、機器學習、計算機視覺、計算機圖形學和增強現(xiàn)實 等。2018年,為了讓技術(shù)能更好的和產(chǎn)品結(jié)合,快手將Y-Lab更名為Y-tech。
據(jù)Y-tech手勢研發(fā)組負責人介紹,手勢識別技術(shù)是指檢測圖片或視頻中的人手,并預(yù)測檢出人手的手型以及關(guān)鍵點位置的技術(shù)。
常見的手勢識別技術(shù)包括:手型識別、二維手部姿態(tài)估計和三維手部姿態(tài)估計。從手型識別到三維手部姿態(tài)估計,需要識別的信息越來越多,研發(fā)困難指數(shù)級增加。在上面演示的功能里,就包含了:人手檢測、手型識別和二維手部姿態(tài)估計。
目前手型識別在業(yè)界已比較成熟,而二維手部姿態(tài)估計目前還不是很成熟,據(jù)介紹,快手應(yīng)該是業(yè)界首家在移動端上應(yīng)用該技術(shù)的公司。而三維手部姿態(tài)估計技術(shù)難度較大,目前只能通過特殊的硬件,比如雙目和深度攝像頭才能實現(xiàn)。
研發(fā)手勢識別過程中,Y-tech團隊積累了很多技術(shù)和解決方案,包括算法策略、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、模型優(yōu)化和底層加速等,這些經(jīng)驗也完全可以復用到其他場景中。
相比于目前人工智能領(lǐng)域落地比較廣泛的人臉識別,手勢識別技術(shù)存在著一些技術(shù)難點,Y-tech手勢研發(fā)負責人表示:“手部的自由度很高,自遮擋嚴重,特征不明顯,相對人臉會更難一些。”
以快手為例,目前這一功能可同時檢測多手,支持多達17種手型識別,并能夠識別21個手部二維關(guān)鍵點。為了實現(xiàn)這些功能,研發(fā)團隊克服了不少難題:
• 人手在相機中的占比較小,高效的進行小目標檢測目前在業(yè)界是很難的問題;
• 人手自遮擋嚴重、關(guān)節(jié)活動自由度高;
• 用戶手機只有單目圖像,需純靠視覺算法實現(xiàn);
• 用戶手機攝像頭拍攝質(zhì)量不同,用戶在擺同樣手型時方式多樣。
該負責人表示,團隊先是改進了檢測算法的框架,提高了小目標的檢測能力,并且根據(jù)人手的特點,融合先驗知識,降低問題復雜度,達到了提升預(yù)測效果。
由于不同用戶手機的運算能力是不同的,而同一款軟件要想被更多用戶使用,就要兼顧各種機型的情況,快手AI實驗室通過兩方面解決了這一難題:
一、在算法層面,研發(fā)人員設(shè)計了高效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且在不同的機型上采用了不同算法策略;
二、在工程實現(xiàn)上,通過快手自研的YCNN對不同手機的硬件架構(gòu)做了高度的適配和性能優(yōu)化,能夠使用CPU、GPU、NPU、DSP等多種運行模式,解決了AI技術(shù)運行受限于用戶設(shè)備計算量的問題。
下一步:未來將嘗試三維手部重建
對于快手來說,在手機應(yīng)用中增加手勢識別功能是一項嘗試,功能上肯定是有不少需要完善的地方,研發(fā)團隊告訴我們,目前該產(chǎn)品算法對運動模糊和手部重疊的處理還不完善,是接下來需要重點解決的問題,并且未來團隊會嘗試在端上進行三維手部重建,為更精確的動作識別和交互做技術(shù)儲備。除了在短視頻領(lǐng)域有所應(yīng)用,在游戲、增強現(xiàn)實、直播、教育等領(lǐng)域應(yīng)用手勢識別技術(shù)也將成為一種趨勢,同樣也是快手探索的方向。
手勢識別技術(shù)發(fā)展至今,已經(jīng)有不少企業(yè)在不同的領(lǐng)域進行過嘗試,未來手勢識別的應(yīng)用場景也是十分廣闊的,除了小手識別和運動模糊等傳統(tǒng)問題之外,如何結(jié)合端上雙目攝像頭和深度攝像頭信息提升手勢識別效果也將是行業(yè)重點關(guān)注的問題。