官术网_书友最值得收藏!

李飛飛與ImageNet:人工智能革命的最初“訓練場”

按照學術界通常的看法,“人工智能寒冬”貫穿了整個20世紀90年代和21世紀前十年,具體的開始和結束時間略有爭議,但是有一點是肯定的:在此期間,人工智能行業一直在痛苦地尋找正確的突破方向,很多研究者和企業都對此喪失信心、意興闌珊,乃至抽身而退。然而,哪怕是在寒冬期,還是有一批學者要么出于興趣,要么出于牢不可破的信念,延續了人工智能研究的火種。其中一位不可忽視的人物,就是美籍華裔女性科學家李飛飛。假如沒有李飛飛,由神經網絡技術所掀起的“AI春天”最終還是會降臨,但是可能會推遲多年,而且其主角將不會是我們今天耳熟能詳的那些人。

李飛飛,1976年出生于中國北京,在四川成都長大,16歲移居美國。1995年,她進入普林斯頓大學,主修物理學,同時對計算機科學、應用數學等領域頗有涉獵。從普林斯頓大學畢業后,她在加州理工學院攻讀電氣工程博士學位,但是其博士論文是關于視覺信息識別的——與其說是電氣工程話題,倒不如說是計算機科學話題。拿到博士學位之后,李飛飛先是在伊利諾伊大學厄巴納-香檳分校任教,然后又回到了自己的母校普林斯頓大學任教。在此期間,她產生了一個想法:構建一個大型互聯網圖像數據庫,用于計算機視覺識別技術研究。歷史證明,這個想法將改變整個世界。

早在20世紀90年代后期,隨著符號主義和知識圖譜走向窮途末路,“數據驅動型”機器學習逐漸成為人工智能學術界的主流理論:提供給計算機的學習資料,應該是海量的、只經過人類粗略處理的原始數據,而不是少量的、被人類精挑細選過的系統化知識。舉個例子,傳統的、“知識驅動型”的機器學習,就好像讓一個學生閱讀《大英百科全書》,這套書雖然卷帙浩繁,但其本身就是編輯團隊反復雕琢的結果,是對無數原始資料的剪裁和升華?!皵祿寗有汀钡臋C器學習,則是把一個學生直接扔到圖書館里,讓他直接對各式各樣、光怪陸離、千奇百怪的原始資料進行學習。不用說,由于人類的學習速度有限、腦容量太低,后一種學習方式對人類而言不現實;但是對計算機而言,只要解決了算力和存儲空間的問題,后一種學習方式是現實的。

有趣的是,雖然“數據驅動型”機器學習成為主流技術路線,可大部分學者的關注重點還是在算法和模型上,而不是數據。換句話說,他們更關心“怎么處理數據”“怎么通過數據學到東西”,而不是“應該從什么數據學習”“應該如何保證數據供給及其質量”。問題是,如果沒有足夠龐大、質量堪用的數據庫,計算機該從哪里學習呢?以視覺信息(圖像、視頻)識別這個在當時比較熱門、應用需求比較大的領域為例,在2004年至2006年期間,缺乏可靠的、標準化的圖像數據庫,已經成為制約技術進步的主要瓶頸。很多人意識到了這個問題,但很少人想解決這個問題。這可能是因為數據庫構建在本質上是一個工程問題,在一些科學家眼里的原創性不夠,不值得傾注精力去做;也可能是因為這項任務過于煩瑣,需要動員學術圈之外的資源,其性價比不是很高。

多說幾句,在機器學習領域,究竟是算法更重要還是數據更重要,就像哲學領域的“是先有雞還是先有蛋”的問題一樣,是一個飽受爭議、經常被外行人誤解的問題。作為一個互聯網行業的投資分析師,我還記得2017—2019年,字節跳動旗下的抖音強勢崛起,投資人無不驚嘆于抖音的“推薦算法”效率之高,認為算法技術是字節跳動最強大的核心競爭力。事實上,字節跳動的算法技術固然有一定的先進性,但是更重要的是短視頻這種形式能夠提供海量的內容。而且作為一家發展歷史較短的新興公司,字節跳動內部的數據在很大程度上是互相打通的,各個部門、各個團隊都可以高效地了解數據全貌,與很多老牌互聯網公司內部的數據割裂形成了鮮明對比?!笆窍扔须u還是先有蛋”,這個問題永遠不會有標準答案;“是算法更重要還是數據更重要”,這個問題的答案則是統一的——不論是算法還是數據都不應成為短板,兩者應該齊頭并進地發展,否則就發展不起來。

早在加州理工學院攻讀博士學位期間,李飛飛就注意到了在機器學習算法領域的“割裂感”。哪怕在圖像辨認這個相對狹窄的賽道上,“割裂感”也無處不在:有的博士生在研究辨認狗的算法,有的博士生在研究辨認貓的算法,他們研究的算法可能完全不通用!這些高度特異化、不具備擴展性的技術路線,顯然不是機器學習發展的正道。李飛飛認為,問題主要是出在數據層面而非算法層面。具體來說,就是用于機器學習算法研究的數據庫太小、范圍太狹窄了。人類兒童是怎么學會分辨貓和狗、動物和植物、自然和人造物品的?是通過現實經驗:看得越多,學得就越快,通過對無數現實事物的視覺經驗,逐漸形成對這個世界的認識。假設我們把一個小孩關在黑暗的房間里,每天只給他看幾張、幾十張圖片,那他可能一輩子都無法學會分辨貓和狗。應該讓他去看大千世界,看各種各樣的生物、非生物、人造物,久而久之,他自然能學會用視覺分辨事物。

2007年轉到普林斯頓大學任教之后,李飛飛很快開始尋求把自己構思的大型圖像數據庫化為現實。當時,普林斯頓大學已經有一個名為WordNet的文本數據庫,那是美國政府資助的語言學研究項目,早在1985年就開始運行了。經過二十多年的擴展和維護,WordNet不僅覆蓋了英語的絕大部分詞匯,還包含了英語與其他多種語言之間的關系(例如外來詞、同源詞、假借詞等),成為一個很重要的語言學研究和教學工具。它最特殊、也最有用的特性,是建立了各類詞匯之間的上下位、同義、同群、整體與部分關系。以人類世界最常見的寵物——狗為例。

狗歸屬于犬科,所以“犬科”是“狗”的上位詞匯。哈士奇是一種狗,所以“哈士奇”是“狗”的下位詞匯。狗和狼同屬于犬科,所以“狗”和“狼”是同群詞匯。狗都有尾巴,所以“狗尾巴”是“狗”的一部分。

在WordNet搜索“哈士奇”(Husky)返回的結果。請注意,現在的WordNet與2007年李飛飛接觸時相比有一些不同

出于教學目的,普林斯頓大學早就打算為WordNet配圖——俗話說“一圖勝千言”,若能給所有詞匯配上圖片,肯定能大幅提升語言學習的效果。李飛飛也接觸到了WordNet項目的負責人,但是她的目標更遠大,超過了單純的教學目的:她敏銳地意識到,如果給WordNet收錄的所有詞匯都配上圖(而且每個詞匯不止配一張圖),就能構建出有史以來最龐大、最完整的圖像數據庫!而且,這個數據庫里的每一張圖片都有精確的標簽,因為WordNet本身就是它的“標簽集合”。李飛飛給這個理想中的數據庫命名為ImageNet,只要它能順利建立起來,那么至少在視覺識別機器學習這個領域,研究者再也不用為缺少數據、數據質量太低而發愁了。

關于ImageNet的偉大構想,得到了WordNet項目負責人的認可和普林斯頓大學官方的資助。然而,在落地這個構想的過程中,李飛飛團隊遇到了所有理想主義者都不能避免的難題——缺錢。普林斯頓大學給的資助完全是杯水車薪,李飛飛申請美國聯邦政府基金的努力也基本以失敗告終,其中的原因很好理解:機器學習乃至整個人工智能領域在當時不是最熱門的學術主題;李飛飛本人只是一個剛拿到博士學位沒多久、缺乏學術知名度的助理教授。而且,在負責審批政府基金的人看來,給一個文本數據庫配圖實在算不上多么偉大的項目,優先級很低。

李飛飛在建立ImageNet的過程中遇到的問題,預示著今后多年人工智能研究者(無論他們是身處學術界還是產業界)即將面臨的問題:如何在資源有限的情況下,以盡可能高的性價比完成任務,同時不能過分犧牲效率?這其實是一個工程問題,而不是科學問題。嚴格地說,人工智能發展史上真正能夠上升到“科學”層面的議題非常少,大部分人都是在工程層面進行競爭。時至今日,OpenAI、Anthropic、Meta和谷歌等AI大模型開發一線公司的競爭,也主要是圍繞著一系列越來越精細的工程問題,而直至本書截稿時止(2004年4月),OpenAI在工程領域的統治地位還是不可撼動的——對于這一點,后文將有詳細論述。

按照正常的學術工作方法,ImageNet根本無法完成任務。李飛飛團隊嘗試過以每小時高達10美元的價格雇用普林斯頓大學的本科生為ImageNet打工,可是事實無情地證明,這些本科生的工作效率實在太低,根本指望不上。幸運的是,當時互聯網的滲透率已經非常高,尤其是在美國,“網絡眾包”作為一種用工形式已經如火如荼地發展起來。通過亞馬遜眾包平臺,李飛飛團隊找到了大量“廉價勞動力”,為ImageNet完成了絕大部分工作。一開始,李飛飛曾擔心眾包的可靠性。不過,實踐證明,圖像標簽的可靠性問題可以通過多重復查來解決:根據圖像的復雜性,一張圖片至少會有兩個人打標簽,在有些情況下甚至會有十幾人打標簽,即便其中有人偷懶或犯錯誤,也可以由其他人修正。李飛飛團隊還開發出了一套統計模型以分析眾包人員的行為,從而最大限度地確保了其工作的準確性。

經過兩年半的努力,2009年6月,李飛飛團隊發布了最初的ImageNet數據庫,當時包含320萬張打過標簽的圖片,分成12個大類、5247個分類。令他們失望的是,這個研究成果在學術界只引發了有限的興趣,未能改變整個人工智能機器學習領域的關注重點。但是,ImageNet已經為未來的人工智能革命搭好了最初的“賽場”,提供了基礎設施的輪廓,播下了下一個春天所準備的種子,至于春天何時到來,則是另一個問題。

同樣是在2009年,機器學習領域發生了另一件大事:奈飛大獎(Netflix Prize)終于被人摘走了。作為全球最大的影視流媒體平臺,奈飛從2006年開始舉辦面向全球機器學習開發者的奈飛大獎賽,旨在發掘出最高效的影視內容推薦算法。這項競賽的細節如下。

1.競賽目的是開發出一種算法,通過奈飛用戶對已有的影視作品的評分,評估他們的觀影偏好,從而預測出他們對其他影視作品的評分。這種算法可以幫助奈飛高效地向用戶推薦新的影視作品,乃至預判開發中的影視項目的受歡迎程度。

2.奈飛向外部開發者提供了48萬名用戶對1.78萬部電影做出的1.05億次評分,作為訓練數據庫。除了評分,用戶的其他個人信息均不對開發者公開(有黑客后來發現,其實有可能獲得用戶隱私信息)。

3.開發者通過訓練數據庫開發算法,奈飛通過自己內部的另一套數據庫評估其預測的準確性。[1]任何算法的準確性若能比奈飛自有算法高出10%,就將贏得100萬美元大獎;若沒有算法能做到這一點,當年準確性最好(且超過奈飛自有算法)的算法將贏得5萬美元獎金。

2009年9月,奈飛宣布:有兩個開發者團隊的算法準確性均比奈飛自有算法高出10%以上,滿足了獲得奈飛大獎的條件;其中遞交算法較早的那個團隊拿走了100萬美元獎金。對于互聯網內容推薦機制的發展而言,這是一個里程碑式的事件。從那以后,絕大部分內容平臺逐漸摒棄了傳統的人工推薦,也摒棄了線性回歸模型等比較初級的算法推薦(奈飛自有算法就是基于線性回歸的),轉而采取更復雜的混合型的算法。需要指出的是,電影評分其實是一種相對簡單、比較容易預測的數據,奈飛提供的訓練數據庫以今天的標準看也不算大,所以奈飛大獎賽的成果在技術上并不具備革命性意義。它留下的最重要的“遺產”是精神層面的。

歷史性時刻:兩支隊伍同時達到了贏得奈飛大獎的條件

首先,奈飛大獎賽向數以百萬計的人(不論是學術界、商業界還是媒體界的人)形象地展示了機器學習具備巨大的商業價值,尤其是具備徹底改變人類內容生產和分發模式的能力。從那時起,資本市場上逐漸產生了一種說法:奈飛的成功應主要歸功于“大數據”和“算法”的力量,后來的《紙牌屋》等熱門劇就是基于“算法”預測的成果。諷刺的是,奈飛在實踐中從來沒有使用過從奈飛大獎賽征集到的算法,可能是因為成本問題,也可能是因為信不過外部算法,而《紙牌屋》成功的主要原因也不是所謂“算法預測”。但是,外界看到了機器學習算法的潛在價值,這就夠了。

其次,奈飛大獎賽面向全球征集算法和模型的模式,被證明十分有效,可以稱為“研發眾包模式”。在機器學習這條尚未定型的賽道上,閉門造車肯定不如開門迎客,只有集合全世界各國科學家、工程師和業余愛好者的力量才能加快技術突破的效率。從那以后,一系列的機器學習主題挑戰賽、大獎賽如同雨后春筍一般地涌現出來,其中就包括李飛飛團隊聯合發起的ImageNet挑戰賽。

在當時,歐洲已經存在一個PASCAL視覺對象識別挑戰賽了,該項目由歐盟資助,從2005年開始舉行,歐洲大部分傳統名校均有參加。然而,由于歷史局限性,PASCAL挑戰賽的規模很小、難度不高,其數據庫僅僅包含約20種圖像類別。李飛飛成功地說服了PASCAL主辦方,與ImageNet聯合主辦2010年的挑戰賽,由ImageNet提供有史以來最龐大的圖像訓練數據庫——其中包括1000種類別的120萬張圖片。

可以想象,這樣一個圖像識別挑戰賽的誕生,給當時的機器學習研究界帶來了多么巨大的震撼。雖然ImageNet挑戰賽無法像奈飛大獎賽那樣提供巨額獎金,但它在第一年就吸引到了來自世界各國的16支隊伍參賽。到了2012年,第三屆ImageNet挑戰賽已經成為機器學習領域的標桿性賽事,比賽內容也更加復雜了,包括三大任務:基礎識別,即識別一張圖片上“有什么東西”;帶定位的識別,即識別出圖片上的東西的具體位置;細粒度識別,即識別出圖像上的東西的更詳細信息。例如,基礎識別只需要識別出“圖像上有一只狗”,細粒度識別則需要識別出這只狗究竟是什么品種的(ImageNet總共包含了120個品種的狗的圖像)。

2012年ImageNet挑戰賽的三大任務

當2012年ImageNet挑戰賽舉行時,李飛飛已經轉投斯坦福大學任教,并且從此再也沒有離開。賽事組委會的大部分成員也都來自斯坦福大學,不過,在這次挑戰賽上最受關注的并不是斯坦福大學,而是加拿大的多倫多大學——后者的三位科學家提交了一個名為AlexNet的神經網絡模型,在全部三項比賽任務中均毫無爭議地獲得了第一。其中,在基礎識別任務中,AlexNet的錯誤率比第二名低了10個百分點;在帶定位的識別任務中,錯誤率則比第二名低了17個百分點。對于其他所有模型而言,這是不折不扣的降維打擊。

在AlexNet研究團隊中,有一位名叫伊利亞·蘇茨克維的在讀博士生,他是出生在俄羅斯的猶太人,曾經在俄羅斯、以色列、加拿大三個國家生活(并同時擁有三國國籍)。多年以后,他將以OpenAI首席科學家、GPT模型研發負責人的身份震動整個世界。就在同一時間,位于美國硅谷的英偉達(NVIDIA)這家公司及其董事長的命運,也被不聲不響地改變了,因為AlexNet成功的一個重要原因是針對GPU進行了優化,而不像大部分機器學習模型那樣依賴CPU,這是由它的技術路線所決定的。

AlexNet是一個卷積神經網絡模型,它模擬了人類大腦中的視覺皮層組織的神經連接方式,以此實現了對視覺信息的高效識別。事實上,“神經網絡”這項技術,其基本思路就是來自對動物尤其是對人類神經組織的模擬。自從AlexNet發布之后,幾乎所有的人工智能模型都是基于神經網絡的。在機器學習這個領域,基于神經網絡的深度學習成為發展最快、覆蓋范圍最廣的“顯學”。對于非專業人士而言,“人工智能”“機器學習”“神經網絡”“深度學習”這四個概念,差不多就是等價的。如果我們把2012年視為“當代人工智能元年”,把AlexNet視為“人工智能之春的濫觴”,其實一點也不夸張。

在下一節,我們將盡量深入淺出地解釋“神經網絡”的概念,以及從“神經網絡”的基礎之上如何成長出了各式各樣的AI模型應用,包括擊敗李世石的AlphaGo,以及震動全世界的ChatGPT。本書的主題不是技術,本書作者也不是人工智能專業技術人員,所以我們的落腳點將是宏觀的、偏向應用層的,盡量不會糾纏技術細節。

主站蜘蛛池模板: 林州市| 观塘区| 姚安县| 友谊县| 鹰潭市| 乌兰浩特市| 沂水县| 临颍县| 上饶县| 临清市| 奉化市| 德兴市| 屯门区| 黎川县| 墨竹工卡县| 南部县| 孟州市| 宁津县| 三江| 大足县| 沁源县| 贡山| 雷波县| 郓城县| 泸水县| 金华市| 崇左市| 苗栗县| 来安县| 西盟| 陇南市| 莒南县| 滨海县| 克东县| 定陶县| 贵定县| 花莲市| 宁城县| 杭锦后旗| 尤溪县| 遵化市|