官术网_书友最值得收藏!

第73章 拿到樣本數據后

  • 學霸的AI系統
  • 馬了個甲
  • 2294字
  • 2023-11-28 00:10:00

第二日的周一中午,齊凡被王教授叫了過去。

進入辦公室,王教授就遞過來一個U盤。

“你要的東西都在里面了。小心點用,千萬別捅到網上去。”

齊凡心下狐疑著接了過來。這才過了幾天,自己要的樣本圖片數據就弄到手了?

王教授貌似看出了他心中的疑惑。

“你專注你的事情,不相關的一概別問。”

齊凡也就按下了自己的好奇心。

從王教授辦公室出來,齊凡拿著那個U盤在手上仔細翻看。U盤的正面依稀有個貼紙撕去后殘留的印記,在走廊窗戶透入的陽光反射下,貌似是一個圓形的圖標。

齊凡仔細看了下,感覺怎么有點像國徽。這尼瑪就玩大了呀。

“齊凡,站著干嘛呢。”

正在齊凡震驚之余,前班主任老黃的聲音響起。

“黃老師,好久不見。”

老黃趕緊揮手,“愧不敢當,我現在可不是你老師了。按你這速度,一年保研兩年讀博,我早晚得叫你師兄。”

老黃雖然是開玩笑,可說的也確實有些道理。萬一齊凡弄出個什么大新聞,保送讀博。那就真成了老黃的師兄輩了。

“黃老師,你就別開我玩笑了。”

“剛從王教授那出來?”

“對。”

“那你忙吧,我也就是路過。對了,以后頂多叫我師兄。千萬別再叫黃老師,拜托拜托。”老黃朝齊凡抱拳,很是鄭重的模樣。

齊凡見狀也只好道,“好吧。黃師兄。”

二人隨后就各忙各的了。

老黃是碩士學位。齊凡如今是金陵大學小有名氣的學霸,且已是研究生。再喊他老師,確實是讓他比較尷尬。輩分和實力都鎮不住,那還是不要亂叫的好。

齊凡回到宿舍后,趕緊用賈震的筆記本打開U盤。

U盤根目錄是一個文件夾和一張照片。文件夾的名稱就叫“新建文件夾”,照片的名稱為“未命名.jpg”。主打一個樸實無華。

齊凡出于好奇打開了照片。是一張紅底黃字的標語--保密工作要到位,泄密抓到定殺頭。

我擦!齊凡在心中暗罵一句。難怪這U盤上隱隱有國徽的印記。

這標語言簡意賅、通俗易懂、干練肅殺,確實符合華國近代以來的辦事風格。

他隨后點開文件夾。

里頭是密密麻麻排列的整整齊齊的一個個子文件夾。看這些子文件夾的名稱,應該就是以各個停車場名稱來命名的。

齊凡又隨機點開了一個子文件夾。里頭是一張張車牌照片。

他當即統計這個U盤內照片的總數。crtl+A后,屏幕左下角顯現出一行小字--168,123個對象。

整整16萬8千多張照片,我滴個乖乖。

要是沒有金陵大學這層關系,齊凡上哪去弄到這么多樣本素材。

齊凡當即就用XCNN_DT模型隨機識別了3張圖片。

車牌上必定有一個漢字,但XCNN目前對漢字是不支持的,因而漢字位置的識別結果自然是千奇百怪。這個到時在預料之中,齊凡自動忽視掉了。

但是對于剩下的英文字符和數字的識別,卻是讓人一陣揪心。

哪怕僅僅是挑中的3張測試圖片,也沒有哪張是完全識別準確的。

“O”和“0”首先就傻傻分不清楚。“I”和“1”也是一樣。

再疊加車牌照片的光線明暗陰影問題,一個清清楚楚的“6”竟然能被識別成“0”,原因貌似是“6”的上半部分被陰影遮擋了。總之這識別結果結果是沒法看。

齊凡腦子很清醒。

面對識別錯誤率過高,無非是兩種解決辦法。

一是細化模型的精度,把模型做得更加細致。二個加大訓練樣本數量,讓模型去學習更多的樣本數據。

提升模型精度不是問題,他系統空間的那份模型XCNN圖紙,正愁沒有用武之地。齊凡此前發布的XCNN_DT2.0版本,不過是這份圖紙上最簡單的一個模型的落地應用。

要提升精度,那只需加深網絡的層數即可。當前的XCNN_DT2.0版本才5個卷積層,有足夠多的冗余留給層數疊加。

人工智能深度學習中的神經網絡是層層疊加的,可以將其理解為一棟高樓。其處理數據的過程,可以類比為讓數據爬樓梯。

數據從一樓開始,一層層往上爬,每上一層就會被處理一次。當數據到達頂層的時候,就是最終結果出來的時候。

以數字識別為例。

進入第一層的數據是一張RGB三通道的圖片,最后頂層給出的結果則是0到9之間的一個數字。

以齊凡目前所掌握的理論來說,只要模型的層數越深,也就是這棟樓的層數越高,讓數據爬更多的樓層,那自然就會得出更精確的結果。

數據爬樓層的過程,是對數據提取特征的過程。

爬的樓層越多,也就是被提取的特征就越多,自然就會被識別的越準確。

可就如樓房受限于地基和建材,不能無限制堆高一樣。模型也是一樣的。

模型受限于硬件的水平也是無法無限制加深的。

所以,模型有多深完全取決于顯卡有多厲害。顯卡有多厲害則完全取決于錢包有多鼓。

齊凡的錢包顯然不夠鼓。這個他只能后續想辦法化緣。

第一個問題的癥結分析完畢。

接著是第二個問題--加大訓練樣本數量。

第二個問題所需的樣本眼下倒是有了。可是樣本不是有了就行的,AI是科學不是魔術。

AI模型需要人喂給它數據,雖然這個喂的過程是很簡單的--給每張照片打個標簽,丟給模型就行了。

打標簽的方法有兩種。

一種比較簡便。直接給每張車牌號照片標注出對應的車牌號,這樣模型在讀到這張照片的時候就能知道它實際的車牌號是多少。

另一種方法則比較麻煩。將照片中的車牌位置用數據標注工具勾勒出輪廓,再將車牌上的每個字符同樣勾勒出輪廓。這樣做其實就是為了告訴模型,照片中的車牌位置在哪,車牌上每個字符的位置在哪,并且每個字符對應的含義是什么。

第二種方法更費時間,但是經過這樣處理后的樣本數據更加精細。而越精細的樣本數據,自然會得到越準確的預測結果。

如果僅僅從一張照片的角度出發。數據標注的工作是很簡單的,也并不費時。

哪怕是一個高中生,稍加指導,也能熟練的完成數據標注。

可再簡單的工作一旦乘以一個系數,就可能會變得很龐大。不巧的是,現在這個系數是168123。

即便齊凡偷懶,采用第一種較為簡單的標注辦法。

假設一分鐘完成4張照片的標注,則需要700個小時。

假設采用第二種方法,一分鐘只能完成一張照片的標注,那就是2800個小時。

如果為了追求識別精度,采用第二種方法。按照每天八小時工作制,節假日不休息的話,齊凡需要連續工作近一年。

想想就他娘刺激。

主站蜘蛛池模板: 沾益县| 安仁县| 开封县| 武平县| 理塘县| 清苑县| 馆陶县| 呼伦贝尔市| 富平县| 沁源县| 衡水市| 城市| 高雄市| 台东县| 资阳市| 桂平市| 荆门市| 星子县| 河北区| 梅州市| 绥中县| 乌苏市| 宜章县| 伊宁市| 长泰县| 南和县| 新密市| 通道| 宁远县| 衡东县| 西青区| 郎溪县| 亚东县| 方正县| 东明县| 梓潼县| 镇沅| 桦甸市| 博白县| 邵东县| 临泽县|