官术网_书友最值得收藏!

第215章 ,DataOps

“有個疑問,實現(xiàn)不同等級的自動駕駛,需要積累多少實測數(shù)據(jù)?”星曰。

“說來好笑,從L3到L5,自動駕駛安全性的量級是依次遞增的。業(yè)內的共識是,L3級別自動駕駛的安全性約為99.99%,L4和L5依次遞增兩個數(shù)量級。安全里程數(shù)你懂吧”名曰。

“自動駕駛單次接管能夠行駛的里程數(shù)”

“對,L3的安全里程數(shù)為1萬公里, L4為100萬公里, L5為1億公里。自動駕駛對實測數(shù)據(jù)的需求量還在不斷擴大,將來可能從上億公里提高到上百億公里,甚至上萬億公里”名曰。

“這么夸張,那想完成L5都不知猴年馬月了,感覺實測里程對自動駕駛算法迭代意義不大,自動化程度越高,實際產(chǎn)生長尾場景的概率越來越低,按照接管次數(shù)/里程求長尾得到的數(shù)據(jù),長尾數(shù)值越低說明自動駕駛能力越強。所以我覺得實際里程數(shù)應該是通過有效數(shù)據(jù)比例反推的實際里程數(shù),是這樣吧”星曰。

“不管如何計算,實際完成L5這個任務仍然面臨著超高的挑戰(zhàn)性!主流的無人駕駛公司采用激光雷達的方案確實可以對自動駕駛技術進行快速迭代。要達到L3級別上億公里實測數(shù)據(jù)的積累,至少需要上百輛車耗費數(shù)10年來采集。目前, L3自動駕駛數(shù)據(jù)采集仍以自建車隊為主,一家公司擁有上百輛測試車就幾乎達到上限,我們就二三十臺。L4自動駕駛數(shù)據(jù)積累可以通過Robotaxi或者眾包來解決。而L5要用什么方式來積累數(shù)據(jù),暫且還是未知數(shù)”名曰。

“這也太難搞了,感覺不太得”星曰。

“不然你以為搞自動駕駛那么容易商業(yè)化。從商業(yè)模式的角度分析,自動駕駛產(chǎn)業(yè)可以劃分為蘋果模式和安卓模式。蘋果模式一步到位,從自動駕駛的研發(fā)到整車的制造都由車企獨自完成。這意味著車企能拿到一手信息,形成方案閉環(huán),從而保障整個套方案的質量。安卓模式是生態(tài)鏈模式,大家各做各的。目前大多數(shù)AI科技公司和自動駕駛公司都往安卓模式去做,但是安卓模式?jīng)]有實現(xiàn)盈利”阿名說到。

“為啥安卓模式?jīng)]盈利”星曰。

“一方面,技術上有制高點,受制于作為甲方的車廠是否有意愿購買自動駕駛科技公司的技術;另一方面,當前自動駕駛法相關的法律和基礎設施還處于不斷完善的階段,使得更高級別自動駕駛的商業(yè)化落地會受到一定限制。往蘋果模式走的車企同樣面臨著激烈的行業(yè)競爭,只有先將技術落地并投入市場才能獲得持續(xù)營收,來支持后續(xù)的研發(fā)與迭代。這也解釋了為什么市面上有不少公司聚焦在L2.5和L3的落地,從實現(xiàn)最基礎的車道線檢測、可行區(qū)域、自動泊車等做起”阿名說話期間喝了下水。

“那,有沒有可能在安卓模式和盈利之間出現(xiàn)新的公司?!不一定是造車或者自動駕駛技術公司,未來也許會誕生出一個新物種”星曰。

“那不曉得,哈哈!無論選擇了何種技術路線、何種商業(yè)模式,任何一家從事自動駕駛技術研發(fā)的公司都繞不開這個問題:如何更快地獲取更多、更好的數(shù)據(jù)?”名曰。

“沒想到搞自動駕駛訓練數(shù)據(jù)成了頭痛點,我勒個去,丟他老鴨蛋”阿星嘆息到。

“的確,自動駕駛算法研發(fā)過程中積累了大量的非結構化數(shù)據(jù)。只有將非結構化數(shù)據(jù)批量處理為結構化數(shù)據(jù),算法工程師才能利用它來進行機器學習模型的訓練和推理優(yōu)化,最終迭代出最強的算法。整個自動駕駛研發(fā)團隊除了要負責模型構建,還需要在數(shù)據(jù)標注、建模調試、數(shù)據(jù)可視化、數(shù)據(jù)一致性等數(shù)據(jù)管理工作上投入大量時間,工作量非常之大”阿名說到。

“現(xiàn)在國內外已經(jīng)有不少面向開發(fā)者和企業(yè)提供AI數(shù)據(jù)標注、模型離線訓練、模型在線部署的深度學習工程平臺,如AWS的Sagemaker,華為云Modelarts以及阿里云PAI等。不過,這些平臺更多地聚焦在模型訓練和推理優(yōu)化上,而非完全專注于提供高質量的數(shù)據(jù)”星曰。

“所以現(xiàn)在的一個新趨勢:從算法為中心到以數(shù)據(jù)為中心,實現(xiàn)數(shù)據(jù)自迭代”名曰。

“以數(shù)據(jù)為中心,大數(shù)據(jù)”星曰。

“對啊”名曰。

“你之前不是干過黑客,有沒辦法把皓翔的訓練數(shù)據(jù)給全部黑過來”星曰。

“我去,不行,這哪可以,丟你”名曰。

“哈哈,說笑的”星笑。

“還你個老鴨蛋,哈!在機器學習項目全周期中,以模型為中心所用的數(shù)據(jù)一般是不變的,通常用模型去擬合數(shù)據(jù)。如果數(shù)據(jù)量足夠大,模型就可以擬合得更加平滑、更加真實。而以數(shù)據(jù)為中心的MLOps,在機器學習項目全周期中不改變模型,只通過改變數(shù)據(jù)來提高算法表現(xiàn)。這意味著MLOps最重要的任務之一就是在機器學習項目全周期中確保用上高質量數(shù)據(jù)”名曰。

“沒想到咱這自建自動駕駛就首先遇到了訓練數(shù)據(jù)問題,著實意想不到”星曰。

“本來就不容易,不然自動駕駛公司都研究幾年了,為啥智駕還遠遠不能普及!過去以模型為中心的算法研發(fā)一直被認為效果較好、迭代速度較快,原因在于算法和數(shù)據(jù)進行了分離,一切以算法工程師為中心進行項目驅動。以模型為中心走的是精簡路線,先準備數(shù)據(jù)然后研發(fā)算法、測試算法,在測試中遇到長尾場景或者異常場景再優(yōu)化算法,最后模型部署上線。現(xiàn)在大家意識到算法需要大量數(shù)據(jù),因此也提升了數(shù)據(jù)量。通過和數(shù)據(jù)標注公司合作,可以快速產(chǎn)生大量數(shù)據(jù),用大數(shù)據(jù)驅動算法創(chuàng)新”名曰。

“就說還得和數(shù)據(jù)標注公司談合作”星曰。

“那當然了”名曰。

“行,我會去談,問題不大”星曰。

“在自動駕駛這樣的開放場景里,行業(yè)痛點已不是數(shù)據(jù)量,而是數(shù)據(jù)價值”名曰。

“數(shù)據(jù)價值是個啥?”星曰。

“從算法的角度來說,就是那些難例,或者是數(shù)據(jù)分布非常稀疏,卻能對算法訓練產(chǎn)生重要影響的數(shù)據(jù)。要獲得這些數(shù)據(jù),常規(guī)的方法往往都是大浪淘沙、層層標注并訓練后篩選出來。所以呢,我們要從海量數(shù)據(jù)中發(fā)現(xiàn)罕見事件,在算法建模中挖掘高價值長尾數(shù)據(jù)”名曰。

“不知道啥是罕見事件,這不得靠你們了,我七竅通六竅,只能給你們鋪點其他的路”

“在數(shù)據(jù)自迭代的思路下,算法迭代需要動態(tài)地獲取新的數(shù)據(jù),尤其是獲取新的難例數(shù)據(jù),新的難例數(shù)據(jù)又會動態(tài)驅動算法本身的迭代。而通過MLOps搭建的數(shù)據(jù)閉環(huán)系統(tǒng),能自動化模型和算法迭代過程,快速從沙子里找到金子。其實這幾天我也并沒有完全寄希望于你身上,因為皓翔的訓練數(shù)據(jù)也有痛點,行業(yè)本身有難點,于是,訓練數(shù)據(jù)的第三種解決方案——DataOps數(shù)據(jù)自迭代,應運而生!”阿名說到。

“DataOps又是啥?”星曰。

“MLOps以模型研發(fā)的生命周期管理為中心,DataOps也聚焦在數(shù)據(jù)的生命周期,以數(shù)據(jù)為導向,使算法達到高效自我迭代的能力和持續(xù)增強的效果,實現(xiàn)極高的長尾信息學習能力,通過和模型聯(lián)動發(fā)現(xiàn)高價值數(shù)據(jù),快速獲取高質量、高價值的數(shù)據(jù),提升模型訓練效果。可謂一種新玩法,有點意思的”阿名說到。

“納尼?就說不用皓翔的訓練數(shù)據(jù)了,也不需要搞什么實測數(shù)據(jù)?”星惑。

“你想多了,還是需要的”名曰。

“我去,那你叨那么多,我硬是沒明白”

“傳統(tǒng)以模型為中心的訓練方法是:采集數(shù)據(jù),標注數(shù)據(jù);研發(fā)算法,訓練模型;測試算法,迭代算法;上線算法。而以數(shù)據(jù)自迭代方式的訓練方法則要準備預訓練數(shù)據(jù)集;模型測試并部署至場景;通過在線場景不斷發(fā)現(xiàn)難例,并上傳至云端統(tǒng)一管理;對難例進行標注,模型實時對新數(shù)據(jù)進行訓練;對模型進行場景化測試,給出分析報告;模型上線,并不斷通過DataOps迭代。而源于DevOps理念的MLOps,能夠讓企業(yè)擺脫傳統(tǒng)機器學習長周期,縮短模型上線的進程,切實解決機器學習項目數(shù)據(jù)、算法、模型資產(chǎn)管理等繁瑣問題。而DataOps則打破了數(shù)據(jù)科學家與運維團隊之間的溝通屏障,提供了更高效的溝通機制”阿名繼續(xù)叨了一堆。

“溝通機制?就這?”星惑。

“通過DataOps的模型-數(shù)據(jù)自迭代的模式,使算法達到高效自我迭代的能力和持續(xù)增強的效果,帶動整個AI行業(yè)的范式轉移。DataOps正釋放出巨大的潛力,其采用率也在不斷提高。未來DataOps將會成為人工智能產(chǎn)業(yè)規(guī)模化落地行之有效的路徑之一”阿名說到。

“說了半天,也就是個還沒成熟的概念”

“在快速發(fā)展中,也可以借鑒,其實訓練數(shù)據(jù)不管是開源、自研還是DataOps,都要去發(fā)現(xiàn)其中的高價值數(shù)據(jù),這樣我們搞的WG才會成為優(yōu)秀頂尖的自動駕駛系統(tǒng)”名曰。

“哎,還得增加路采車的預算,還得和數(shù)據(jù)標注公司談合作,感覺這自動駕駛是越搞事越多,越搞越燒錢,嘖”星曰。

“對啊,難搞,你以為”名曰。

主站蜘蛛池模板: 昆明市| 普兰店市| 杭锦旗| 青铜峡市| 东莞市| 呼和浩特市| 北票市| 张家界市| 巴楚县| 连州市| 临高县| 宁陕县| 图们市| 湘潭县| 布尔津县| 安平县| 佳木斯市| 弋阳县| 宁阳县| 郧西县| 马山县| 康马县| 大英县| 台中市| 定安县| 永定县| 大连市| 阳原县| 连云港市| 海安县| 广西| 堆龙德庆县| 甘肃省| 恩施市| 松江区| 临沧市| 绥中县| 宝兴县| 长春市| 禹城市| 旬阳县|