- DeepSeek實戰(zhàn):從提示詞到部署和實踐
- 張成文編著
- 573字
- 2025-06-03 14:17:25
1.2 從GPT到DeepSeek
自O(shè)penAI發(fā)布GPT(Generative Pre-trained Transformer,生成式預(yù)訓(xùn)練轉(zhuǎn)換器)系列模型以來,生成式人工智能開啟了AGI(Artificial General Intelligence,通用人工智能)的新紀(jì)元。
2022年11月,OpenAI發(fā)布了ChatGPT,該模型能夠根據(jù)用戶的指令生成流暢、連貫且符合用戶需求的文本,幾乎可以媲美人類的寫作水平,引發(fā)了第一次大語言模型應(yīng)用與研究熱潮。2023年3月至2024年5月,OpenAI相繼發(fā)布GPT-4、GPT-4V(ision)和GPT-4o模型,憑借其強大的多模態(tài)處理能力和自然語言生成水平,重塑了人們對人工智能潛力的認(rèn)知。然而,其高昂的訓(xùn)練成本和封閉的生態(tài)模式逐漸顯露出技術(shù)普惠化的瓶頸。在此背景下,我國的DeepSeek以“高性價比”和“高性能開源模型”為核心競爭力,成為全球大模型競爭中的一匹黑馬。
DeepSeek的崛起得益于其在模型架構(gòu)、訓(xùn)練策略方面的創(chuàng)新。不同于以往稠密架構(gòu)的大語言模型,DeepSeek使用MoE(Mixture of Experts,混合專家)架構(gòu),通過動態(tài)激活部分參數(shù)實現(xiàn)高效推理,資源利用率顯著優(yōu)于傳統(tǒng)稠密架構(gòu)的大語言模型;而在訓(xùn)練策略方面,DeepSeek提出了組相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)、四階段的強化學(xué)習(xí)訓(xùn)練過程、多Token預(yù)測(Multi-Token Prediction,MTP)等方法,在顯著降低訓(xùn)練所需資源的同時,提高模型表現(xiàn)。
從GPT到DeepSeek的演進(jìn)歷程是人類在AGI探索道路上的一次范式突破。這場持續(xù)的技術(shù)進(jìn)化正在重塑知識生產(chǎn)的底層邏輯,構(gòu)建起人機協(xié)作的全新篇章。為方便讀者了解GPT系列模型和DeepSeek系列模型的發(fā)展脈絡(luò),繪制了圖1-1,供讀者參考。

圖1-1 GPT系列模型與DeepSeek系列模型的發(fā)展脈絡(luò)
- 解構(gòu)ChatGPT
- 人工智能
- 這就是推薦系統(tǒng):核心技術(shù)原理與企業(yè)應(yīng)用
- Arduino開發(fā)實戰(zhàn)指南:機器人卷
- 機器學(xué)習(xí)算法競賽實戰(zhàn)
- GPT-4o極簡入門與繪畫大全
- 機器學(xué)習(xí)實戰(zhàn):基于Scikit-Learn、Keras和TensorFlow(原書第3版)
- ChatGPT速學(xué)通:文案寫作+PPT制作+數(shù)據(jù)分析+知識學(xué)習(xí)與變現(xiàn)
- 邊緣人工智能
- 解碼智能時代2021:來自未來的數(shù)智圖譜
- OpenCV4.5計算機視覺開發(fā)實戰(zhàn):基于Python
- 人工智能簡史
- 樹莓派創(chuàng)客:手把手教你搭建機器人
- 人工智能原理與應(yīng)用教程
- 物聯(lián)網(wǎng)技術(shù)應(yīng)用:智能家居(第2版)