官术网_书友最值得收藏!

  • 中國創投地圖2
  • 鄭靈輝 阮聿泓編著
  • 2376字
  • 2019-02-28 10:08:50

1.1 計算機視覺發展仍有巨大空間,視頻理解難于圖片理解

■ 梅濤(微軟亞洲研究院資深研究員)

我在微軟待了十余年,一直在做計算機視覺和多媒體分析。人工智能這個領域里有很多“釘子”,我們只不過是不時地換把錘子敲一敲“釘子”,把“釘子”稍微往木板里敲一點。要想把一顆顆“釘子”完全敲進木板里,過程還是很漫長的。

大家現在都在談人工智能。人工智能領域很廣,它包括機器學習,機器學習又包括深度學習,不能把“人工智能”和“深度學習”這兩個概念混淆在一起。計算機視覺是人工智能的一個應用領域,它就相當于把相機連上電腦,電腦可以將相機所看到的東西一一描述出來。

我也看過一些相關領域的商業計劃(BP),一些創始人說他們這個算法有多么了不起,這就很可笑。按照學界觀點,絕大部分算法的領先周期只有6個月。真正的高手,最多花6個月就可以復現乃至超越別人的算法。很多人說計算機視覺到2018年就可以達到大學生的認知水平,我覺得這種說法非常不靠譜。保守一點說,現在計算機視覺在某些視覺認知的任務上可以接近3~5歲兒童的能力,這種說法會客觀一些。

機器視覺是否能夠超過人眼視覺?肯定不能這么說,因為比較的維度不一樣。假如現在有一張圖片,同時請一臺機器和一個人對其進行標注,那一定是人類標注得比機器好,而且更為精細;如果拿出1000張圖片請機器和人來標注,要求一秒鐘內完成,那一定是機器做得比人好。

 

視覺理解的五層境界

 

圖像的最小單位是像素。對于計算機視覺來說,最難的是判斷每個像素屬于哪個類別,即語義分割。這需要大量人工標注,沒有哪家企業愿意花錢雇人做這件事。

如果覺得語義分割過于精細,可以不去關心每個像素處于哪個位置,只需要識別圖像中的物體究竟是人還是馬,人和馬的位置在哪里,即物體檢測。

還有一種情況是機器不去關心圖像中馬和人所處的位置,只是去識別圖像中有什么物體,即圖像分類。

第四種情況是,給機器一張圖,機器不但要解讀出圖中有哪些物體,或者有哪些詞,還要把這些詞連成一句話。一種情況有點像看圖說話:我給機器一張圖,讓機器說出一段文字,這段文字是自然語言,且不能有任何語法錯誤。另一種情況是看圖回答問題。我給機器一張圖,它要回答:圖中有多少個人?圖中出現的馬分別是什么顏色的?

第五種情況是講故事,這也是我們微軟之前在做的一個技術。大家現在喜歡出去旅游,旅途中拍了很多照片,回來分享到博客上。現在機器可以自動幫你寫一些博客文章,通過識別圖片,把圖中的內容以文字的形式表述出來。

 

視覺理解在“微軟小冰”中的應用

 

微軟有一個名叫小冰的聊天機器人,會自動給用戶視頻添加評論。小冰的視頻自動評論功能上線第一個月,它的粉絲就漲了60%,而且1 / 3的用戶不知道小冰是機器人,因為微軟在訓練小冰時,讓它永遠非常樂觀地去評價用戶發布的內容。假如夸一個用戶長得好看,它不會只是泛泛地夸用戶美,而是會具體指出你是眉毛好看還是身材比較好,所以大家都很喜歡它。

小冰現在還會寫詩,雖然還有很多地方需要不斷改進,但這個功能推出后很受用戶歡迎。微軟沒讓小冰寫古體詩,而是選擇了現代詩,按照今天的流行語,叫“freestyle”。小冰通過識別圖片內容,來判斷圖片中的意境是明亮的還是陰暗的,是喜悅的還是悲傷的。在確定圖片的基本情緒后,小冰會自動生成詩句。

 

用計算機視覺設計封面

 

微軟曾經用人工智能來設計封面。人類在設計封面時,通常會考慮文字應該放在封面的什么位置,該用什么樣的字體和顏色,而微軟設計的機器視覺模型結合了心理學、廣告學和顏色方面的理論。比如說一張以人物為主體的封面,主標題通常會放在人物視線所指的方向,因為視線代表著讀者關注的焦點。食品類雜志封面很少用藍色或鮮紅色,這兩種顏色都比較容易影響食欲。快餐店為了保證翻臺率,當然不希望客人長時間待在店里,所以很多快餐店喜歡用橘紅色作為主色調,因為橘紅色容易讓人焦慮。

機器視覺模型的工作模式是:當它拿到封面圖片后,會自動分析圖片主體在哪里,然后做色彩分析,判斷其有幾種主色調,每種主色調與什么顏色對應會比較和諧。機器甚至還可以給文字加特效,比如加一幅半透明的背景圖等。

 

機器識別在內容管理上的應用

 

平臺上用戶上傳的內容多了之后,需要對內容進行管理,內容管理最典型的做法是打標簽。在真實世界里,標簽無窮無盡,僅是人類所認識的花就有25萬種,鳥至少有1萬種,所以要想精細地給用戶上傳的內容打好標簽非常難。

微軟給不同物體所打標簽的精細度也不一樣,比如對于鳥和狗這兩種類別的標簽就做得很細,因為美國人和中國人都喜歡這些小動物。在識別車輛的時候,我們做了一個實驗,從一個二手車網站上把所有車型照片全部下載下來讓機器識別,識別率高達99%。而我們對于飛機、食物和醫療相關的標簽打得還不夠完整,尤其是在醫療方面,因為沒有特別優質的大數據來支持。

在視頻領域,微軟的機器可以識別出1000種以上的物體和500種以上的動作,用戶在搜索視頻時就可以通過這些標簽找到相關視頻。識別人體動作有什么用處呢?現在有很多健身App,假如嵌入機器識別功能,就可以判斷出用戶的動作做得是否標準、規范,并為其打分。

有了視頻和圖像,用戶總要進行消費,也就是編輯或改動。我們為圖片做了各種濾鏡,做圖片的濾鏡不新鮮,國內很多公司也在做這個事情。微軟研究院計算機視覺組做的一個研究很酷,叫風格轉換(Style Transfer),機器可以分析任何一張圖片的風格,并將這種風格應用到另外一張圖片中去,如圖1-1所示。

圖1-1

機器還可以對視頻中的內容進行分割與重新組合,比如將視頻A中的人物抽取出來,放到視頻B的場景里去。當然,視頻的分割比較費時間,因為機器需要對動態畫面進行計算與處理。

 

梅濤 微軟亞洲研究院資深研究員,國際模式識別學會會士,美國計算機協會杰出科學家,中國科技大學和中山大學兼職教授和博士生導師。主要研究興趣為多媒體分析、計算機視覺和機器學習,研究成果十余次被成功轉化到微軟的產品和服務中。

主站蜘蛛池模板: 中牟县| 上栗县| 赤峰市| 焉耆| 苗栗县| 乌拉特前旗| 工布江达县| 章丘市| 谷城县| 盐山县| 禹城市| 宜都市| 大兴区| 岳池县| 安徽省| 梁山县| 彭阳县| 红原县| 南召县| 临汾市| 合肥市| 饶阳县| 海晏县| 九龙城区| 股票| 卢龙县| 永昌县| 海盐县| 博白县| 墨竹工卡县| 门头沟区| 天津市| 江安县| 和政县| 读书| 和静县| 蒙阴县| 南康市| 新余市| 水富县| 丰台区|