林遠將所有問題歸納為兩點:計算、采集。
對于計算問題,林遠一直很想知道這算力系統的實際性能。這系統的1P算力到底約等于現實世界的多少算力。
以前他沒有專業算力設備來測試,但現在因為測試任務,好團的算力設備不就是現成的嘛。
好團的紫金分部這邊有一個H100和A100 GPU混搭的測試用算力平臺,林遠成功申請到了一塊A100的使用權。雖然A100比H100差了不少,但這畢竟是正兒八經的算力卡,妥妥能秒殺市面上的各種RTX和HD等電腦用顯卡。
林遠先跑了次針對TF32數據的通用測試,A100對TF32的計算性能基本穩定在35T/S以上。自己的算力系統要到達同級別表現只需要將近10T/S的算力功率。
林遠據此總算標定了算力系統當前的算力性能:大約比現實世界的算力優秀三倍。也就是說,同樣是1T單位的算力,算力系統的相當于現實世界的3T。
也就是說:系統和現實世界的算力匯率是1比3。
林遠頓時有了種“老子是發達國家,整個現實世界都是第三世界”的感覺,因為老子的算力值錢啊。
可即便如此,林遠也對用算力系統去跑算法優化也沒什么信心。因為算力系統的算力匯率也就才是3倍,自己這1000P累積算力根本就不夠看的。
但是,哪怕是出于好奇心,試還是要試一下的。
林遠隨即就準備給算力系統載入一份采集好的數據。這份數據是一段時間內一大群騎手的真實配送數據。
林遠很快就遇到問題:特么的他要怎么錄入數據。這份數據太大了,足足有10個G,光靠自己眼睛錄入要到猴年馬月啊。
【系統,我都跟你說了,給我腦子里弄個WiFi,以后你就能和電子設備通信了。】
但是,系統并沒有搭理他。
直到林遠打算放棄的時候,系統這才主動彈了個提示。
【數據已載入完畢,是否開始訓練?】
‘什么時候載入完畢的?’
林遠驚奇地在系統面板上看到了眼前服務器上一模一樣的數據,這10多個G的數據就那么幾下功夫就被系統讀取了,整個過程林遠都沒有察覺到。
【原來你特么不光是只能靠眼睛錄入數據。】
林遠忽然意識到:難道系統本身就和現實世界有聯系?
來不及多想,林遠帶著這份好奇心開始了系統的AI模型訓練。
他將算力功率設定在了50T/S,這是一個很安全不會導致他頭暈的功率值。
出乎林遠意料,系統僅僅用時一分鐘就完成了一次數據訓練。50T/S*60S=3000T,也就是才3P的算力消耗。
而林遠清楚知道,A100滿負荷跑同樣的一次數據訓練卻需要十分鐘。
已知,A100的滿負荷算力為:35T/S,則A100滿負荷運行十分鐘產生的算力是:35T/S*600=21000T=21P。
也就是說,完成同樣的工作量。算力系統只用了3P算力,而A100則用了21P。由于A100的算力值是現實世界的算力值,因此哪怕是用H100算力卡,其工作效率雖然會提升,但是消耗的總算力不會改變。
進而得出:訓練這份10G數據集,算力系統1P的算力相當于現實世界的7P。那算力匯率就變成1比7了。
這不就和之前的1比3對不上了嘛。
這系統雖然神奇,但目前為止林遠并沒有發現這系統有突破自然法則的跡象。
AI的模型訓練其實就是數據計算,既然是數據計算,那就不存在那會兒算的慢這會兒算的快的情況,因為林遠用的數據類型沒變,都是TF32。
‘難道算力系統有擬人化?有時干活快,有時干活慢?’
帶著這個疑問,林遠在不同的時候使用算力系統計算同樣的那份數據。
他試了在吃飯的時候、蹲坑的時候、睡覺前、甚至是,,,看片片的時候,可特么的最終的算力值消耗是恒定的。
‘艸,你特么這匯率還是波動的?’
林遠又轉而用算力系統去計算最初的那份TF32測試數據,可又偏偏獲得了最初的1比3的算力匯率。
他又不得不換了另外一份同樣是10個G左右的外賣配送數據,奇怪的事情發生了,算力匯率變成了1比6。
隨后林遠不停地變換數據樣本,最終他發現:隨著選用的數據樣本不同,算力匯率竟然是變化的。
特么的,數據樣本不同所消耗的算力值變化是正常的。可是算力匯率變化是什么鬼。算力匯率變化,意味著算力系統處理不同數據樣本時的效率是不同的。
這就好比同樣一臺電腦,在運行不同程序的時候,CPU占比不同是很好理解的。可特么這臺電腦運行不同程序的時候,CPU的最高主頻竟然是變化的。這就反科學了啊。
【喂,系統,告訴我,你特么是不是高維生物。】
【三維世界的規則解釋不了你了呀。】
【啊啊啊~~~】
最后,林遠不得不深入去研究算力系統的AI模型訓練過程。因為當一個黑盒子表現出問題,但你又找不到問題的時候,那你就只有鉆進這個黑盒子去看。
雖然,這個黑盒子,很復雜。
林遠懷著忐忑的心情讓系統展示了詳細的訓練過程。
“這。。。”
林遠瞪大了眼睛,眼前虛空浮現的AR影像中,那代表模型的結構圖形竟然在變化。
AI模型訓練本質上是用算力卡將采集到的數據,扔進預設的一個模型里頭計算。
模型可以被粗略的當成是一個公式。(反正只要你愿意,你甚至可以把整個宇宙看成是一個公式)
所以,AI模型訓練簡化到極致就是:y=f(x)。
x代表采樣數據。
f代表模型。
y是計算結果。
現實中的AI模型訓練是在訓練過程中改變f的參數,比如:f=2x+1,跑著跑著就會變成:f=3x+1。但絕對不會跑著跑著變成f=3x+1/x+1。
除非人為改變模型后重新跑訓練。
但是,算力系統在訓練的時候特么地把f的模型結構給改了。
也就是說,f這個公式隨著訓練原來一直都在變化。那既然是在變化,那算力匯率能固定就有鬼了。
這就好比,一臺電腦,竟然能跑著跑著更改自己的CPU結構。
這,,,林遠腦中頓時冒出一個難以置信的想法。