1.3 人工智能中的3D行為識別及其商業化
我于1997~2000年在微軟工作,后來去硅谷創業,開辦了一家做壓縮芯片的公司,2008年這家公司被收購。回國后我又創辦了一家VR公司,于2013年被收購。2014年我創辦了皓圖智能科技,研究“3D行為識別”。
從1997年到2008年,我一直在視頻領域工作,2004年開始進入3D領域,那時電腦芯片開始加入圖形處理器(Graphics Processing Unit, GPU),我是交互式網絡電視(IPTV)芯片負責GPU的設計師。所以在3D行業里,我們有13年的經驗積累,而從創辦VR公司到現在,在行為視頻領域,我們有近十年的經驗積累。
視頻領域的兩個派別:2D派與3D派
人類在視頻領域能夠發展到何種地步?這個問題的答案有很大的想象空間。人眼能夠判斷物體的前后關系,但不具備精確測量距離的能力,只能靠疊加關系來了解整個三維空間。現在視覺領域里有兩個派別,一個派別使用2D信息,比如2D人臉識別,另一個派別使用3D信息,比如3D行為識別。
人類希望用立體視覺觀察世界。只有X軸和Y軸組成坐標系的空間,即二維空間,包含的信息量很少,所以人們需要的是對三維空間的觀察和理解。用2D攝像頭拍攝三維空間所呈現出的畫面,其實是一種變形空間,我們的世界是三維世界,只有對三維世界進行三維采集、三維分割,才能觀察到并理解真實的空間,進而解決真實的空間中存在的問題。因此,我對使用2D信息的派別持悲觀態度。舉個例子,一個人經過正在拍攝的攝像頭時可能在低頭,也可能在做其他動作,有時這個人被攝像頭拍攝到的角度很特殊,面部只露出一部分,在這種情況下攝像頭很難利用2D信息進行人臉識別。
3D行為識別:一種與眾不同的識別方法
皓圖的技術為什么叫“3D行為識別”?在判定一個人的行為時,皓圖沒有使用常規方法,而是通過加入3D技術,使用了一種全三維的方法,這種方法也可以被稱為數學空間、幾何空間方法。到目前為止,公司80%的精力都放在從數學層面上描述這個世界。
3D行為識別的研發具有一定難度。以前皓圖做線下消費行為識別的項目時就覺得非常難,因為動態識別需要對人的動作進行跟蹤,而跟蹤是一件很不容易的事情,憑借單個攝像頭進行跟蹤并不現實。在把整個三維空間全部矢量化后,這項工作就變得簡單一些了。首先把空間和人矢量化,某人進入一個場景后,設備會對他進行軌跡跟蹤,然后對他全身的骨骼動作進行精確的分析和判斷,他的手指做了什么運動,碰到了哪些地方,所有軌跡設備都可以進行跟蹤和識別。這項技術不屬于機器學習的范疇,而屬于幾何計算的范疇。
目前皓圖的3D識別技術每秒需要處理3.4G數據,雖然數據量很大,但海量數據也帶來了更多信息。面對一個面積一萬平方米、能容納十萬人的場景,皓圖的算法依然能夠完成行為識別。現在,皓圖在技術上已經可以做到在任意復雜的環境里面100%跟蹤并識別任意多人,可以記錄每個人進出監控區域的時間,并重現其運動軌跡。不管這些人是抬頭還是低頭,即便只能看到半個耳朵或一只手,皓圖同樣可以實現對這些人的識別與跟蹤。體積很小的物體也可以被精確跟蹤,動態軌跡可以精確到厘米。
皓圖智能目前主要針對兩類行為進行識別,一類是異常行為的識別,另一類是日常狀態的識別。異常行為目前皓圖只能識別出三種:倒地、撞墻、打架。可能很多人覺得識別“倒地”這個動作很簡單,很多公司都可以做出來。其實到目前為止,幾乎沒有哪家公司檢測倒地行為可以實現100%的準確率,能夠達到40%的準確率就很不錯了。但皓圖檢測的準確率是100%,因為皓圖依靠的是對每個人骨骼特征和軌跡的分析和判斷,并且掌握了地面的平面方程,因此可以做到精確計算。當某人倒地時,他身上每一個肢體部位的速度都能被皓圖完全掌握。可能有些人會對100%的準確率持懷疑態度,實際上這個準確率不需要測試,因為這就是數學的特點,在幾何空間內,數據完全可以被計算出來。
3D行為識別的落地
目前皓圖的技術已經落地,主要場景在監獄和派出所。在一個可以容納12人的監舍里,安裝四臺設備,警察就能夠完全掌握監舍內所有犯人的行為軌跡,完成異常行為的識別和提示,比如犯人在衛生間里停留的時間超過一個標準,機器會自動報警。
我對人工智能的發展持悲觀態度。人工智能需要和一些垂直領域進行聯合,比如在語音識別領域,除了識別講話內容,機器能否把講話者的微表情或是肢體動作識別出來?能否把微表情或是動作同樣轉換為文字?這種技術的研發可能需要十年甚至更長時間,研發難度非常大。
熊效李 皓圖智能科技創始人兼CEO,電子科技大學特聘教授,國家“千人計劃”專家。畢業于美國伯克利大學,曾在美國Microsoft、WISchip/Micronas等多家跨國公司擔任高級管理職位。