第73章拿到樣本數據后

書名：學霸的AI系統
作者名：馬了個甲
本章字數： 2294字
更新時間： 2023-11-28 00:10:00

第二日的周一中午，齊凡被王教授叫了過去。

進入辦公室，王教授就遞過來一個U盤。

“你要的東西都在里面了。小心點用，千萬別捅到網上去。”

齊凡心下狐疑著接了過來。這才過了幾天，自己要的樣本圖片數據就弄到手了？

王教授貌似看出了他心中的疑惑。

“你專注你的事情，不相關的一概別問。”

齊凡也就按下了自己的好奇心。

從王教授辦公室出來，齊凡拿著那個U盤在手上仔細翻看。U盤的正面依稀有個貼紙撕去后殘留的印記，在走廊窗戶透入的陽光反射下，貌似是一個圓形的圖標。

齊凡仔細看了下，感覺怎么有點像國徽。這尼瑪就玩大了呀。

“齊凡，站著干嘛呢。”

正在齊凡震驚之余，前班主任老黃的聲音響起。

“黃老師，好久不見。”

老黃趕緊揮手，“愧不敢當，我現在可不是你老師了。按你這速度，一年保研兩年讀博，我早晚得叫你師兄。”

老黃雖然是開玩笑，可說的也確實有些道理。萬一齊凡弄出個什么大新聞，保送讀博。那就真成了老黃的師兄輩了。

“黃老師，你就別開我玩笑了。”

“剛從王教授那出來？”

“對。”

“那你忙吧，我也就是路過。對了，以后頂多叫我師兄。千萬別再叫黃老師，拜托拜托。”老黃朝齊凡抱拳，很是鄭重的模樣。

齊凡見狀也只好道，“好吧。黃師兄。”

二人隨后就各忙各的了。

老黃是碩士學位。齊凡如今是金陵大學小有名氣的學霸，且已是研究生。再喊他老師，確實是讓他比較尷尬。輩分和實力都鎮不住，那還是不要亂叫的好。

齊凡回到宿舍后，趕緊用賈震的筆記本打開U盤。

U盤根目錄是一個文件夾和一張照片。文件夾的名稱就叫“新建文件夾”，照片的名稱為“未命名.jpg”。主打一個樸實無華。

齊凡出于好奇打開了照片。是一張紅底黃字的標語--保密工作要到位，泄密抓到定殺頭。

我擦！齊凡在心中暗罵一句。難怪這U盤上隱隱有國徽的印記。

這標語言簡意賅、通俗易懂、干練肅殺，確實符合華國近代以來的辦事風格。

他隨后點開文件夾。

里頭是密密麻麻排列的整整齊齊的一個個子文件夾。看這些子文件夾的名稱，應該就是以各個停車場名稱來命名的。

齊凡又隨機點開了一個子文件夾。里頭是一張張車牌照片。

他當即統計這個U盤內照片的總數。crtl+A后，屏幕左下角顯現出一行小字--168，123個對象。

整整16萬8千多張照片，我滴個乖乖。

要是沒有金陵大學這層關系，齊凡上哪去弄到這么多樣本素材。

齊凡當即就用XCNN_DT模型隨機識別了3張圖片。

車牌上必定有一個漢字，但XCNN目前對漢字是不支持的，因而漢字位置的識別結果自然是千奇百怪。這個到時在預料之中，齊凡自動忽視掉了。

但是對于剩下的英文字符和數字的識別，卻是讓人一陣揪心。

哪怕僅僅是挑中的3張測試圖片，也沒有哪張是完全識別準確的。

“O”和“0”首先就傻傻分不清楚。“I”和“1”也是一樣。

再疊加車牌照片的光線明暗陰影問題，一個清清楚楚的“6”竟然能被識別成“0”，原因貌似是“6”的上半部分被陰影遮擋了。總之這識別結果結果是沒法看。

齊凡腦子很清醒。

面對識別錯誤率過高，無非是兩種解決辦法。

一是細化模型的精度，把模型做得更加細致。二個加大訓練樣本數量，讓模型去學習更多的樣本數據。

提升模型精度不是問題，他系統空間的那份模型XCNN圖紙，正愁沒有用武之地。齊凡此前發布的XCNN_DT2.0版本，不過是這份圖紙上最簡單的一個模型的落地應用。

要提升精度，那只需加深網絡的層數即可。當前的XCNN_DT2.0版本才5個卷積層，有足夠多的冗余留給層數疊加。

人工智能深度學習中的神經網絡是層層疊加的，可以將其理解為一棟高樓。其處理數據的過程，可以類比為讓數據爬樓梯。

數據從一樓開始，一層層往上爬，每上一層就會被處理一次。當數據到達頂層的時候，就是最終結果出來的時候。

以數字識別為例。

進入第一層的數據是一張RGB三通道的圖片，最后頂層給出的結果則是0到9之間的一個數字。

以齊凡目前所掌握的理論來說，只要模型的層數越深，也就是這棟樓的層數越高，讓數據爬更多的樓層，那自然就會得出更精確的結果。

數據爬樓層的過程，是對數據提取特征的過程。

爬的樓層越多，也就是被提取的特征就越多，自然就會被識別的越準確。

可就如樓房受限于地基和建材，不能無限制堆高一樣。模型也是一樣的。

模型受限于硬件的水平也是無法無限制加深的。

所以，模型有多深完全取決于顯卡有多厲害。顯卡有多厲害則完全取決于錢包有多鼓。

齊凡的錢包顯然不夠鼓。這個他只能后續想辦法化緣。

第一個問題的癥結分析完畢。

接著是第二個問題--加大訓練樣本數量。

第二個問題所需的樣本眼下倒是有了。可是樣本不是有了就行的，AI是科學不是魔術。

AI模型需要人喂給它數據，雖然這個喂的過程是很簡單的--給每張照片打個標簽，丟給模型就行了。

打標簽的方法有兩種。

一種比較簡便。直接給每張車牌號照片標注出對應的車牌號，這樣模型在讀到這張照片的時候就能知道它實際的車牌號是多少。

另一種方法則比較麻煩。將照片中的車牌位置用數據標注工具勾勒出輪廓，再將車牌上的每個字符同樣勾勒出輪廓。這樣做其實就是為了告訴模型，照片中的車牌位置在哪，車牌上每個字符的位置在哪，并且每個字符對應的含義是什么。

第二種方法更費時間，但是經過這樣處理后的樣本數據更加精細。而越精細的樣本數據，自然會得到越準確的預測結果。

如果僅僅從一張照片的角度出發。數據標注的工作是很簡單的，也并不費時。

哪怕是一個高中生，稍加指導，也能熟練的完成數據標注。

可再簡單的工作一旦乘以一個系數，就可能會變得很龐大。不巧的是，現在這個系數是168123。

即便齊凡偷懶，采用第一種較為簡單的標注辦法。

假設一分鐘完成4張照片的標注，則需要700個小時。

假設采用第二種方法，一分鐘只能完成一張照片的標注，那就是2800個小時。

如果為了追求識別精度，采用第二種方法。按照每天八小時工作制，節假日不休息的話，齊凡需要連續工作近一年。

想想就他娘刺激。

官术网_书友最值得收藏!

學霸的AI系統

第73章 拿到樣本數據后

第73章拿到樣本數據后