官术网_书友最值得收藏!

1.2 從GPT到DeepSeek

自O(shè)penAI發(fā)布GPT(Generative Pre-trained Transformer,生成式預(yù)訓(xùn)練轉(zhuǎn)換器)系列模型以來,生成式人工智能開啟了AGI(Artificial General Intelligence,通用人工智能)的新紀(jì)元。

2022年11月,OpenAI發(fā)布了ChatGPT,該模型能夠根據(jù)用戶的指令生成流暢、連貫且符合用戶需求的文本,幾乎可以媲美人類的寫作水平,引發(fā)了第一次大語言模型應(yīng)用與研究熱潮。2023年3月至2024年5月,OpenAI相繼發(fā)布GPT-4、GPT-4V(ision)和GPT-4o模型,憑借其強大的多模態(tài)處理能力和自然語言生成水平,重塑了人們對人工智能潛力的認(rèn)知。然而,其高昂的訓(xùn)練成本和封閉的生態(tài)模式逐漸顯露出技術(shù)普惠化的瓶頸。在此背景下,我國的DeepSeek以“高性價比”和“高性能開源模型”為核心競爭力,成為全球大模型競爭中的一匹黑馬。

DeepSeek的崛起得益于其在模型架構(gòu)、訓(xùn)練策略方面的創(chuàng)新。不同于以往稠密架構(gòu)的大語言模型,DeepSeek使用MoE(Mixture of Experts,混合專家)架構(gòu),通過動態(tài)激活部分參數(shù)實現(xiàn)高效推理,資源利用率顯著優(yōu)于傳統(tǒng)稠密架構(gòu)的大語言模型;而在訓(xùn)練策略方面,DeepSeek提出了組相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)、四階段的強化學(xué)習(xí)訓(xùn)練過程多Token預(yù)測(Multi-Token Prediction,MTP)等方法,在顯著降低訓(xùn)練所需資源的同時,提高模型表現(xiàn)。

從GPT到DeepSeek的演進(jìn)歷程是人類在AGI探索道路上的一次范式突破。這場持續(xù)的技術(shù)進(jìn)化正在重塑知識生產(chǎn)的底層邏輯,構(gòu)建起人機協(xié)作的全新篇章。為方便讀者了解GPT系列模型和DeepSeek系列模型的發(fā)展脈絡(luò),繪制了圖1-1,供讀者參考。

img

圖1-1 GPT系列模型與DeepSeek系列模型的發(fā)展脈絡(luò)

主站蜘蛛池模板: 镇巴县| 渭源县| 闻喜县| 上栗县| 高淳县| 恩施市| 益阳市| 长春市| 凤山县| 定襄县| 利辛县| 东光县| 双城市| 伊通| 唐山市| 磐安县| 历史| 蕉岭县| 高唐县| 长寿区| 陆丰市| 巢湖市| 怀化市| 林芝县| 信丰县| 漾濞| 临城县| 简阳市| 襄城县| 临澧县| 梁山县| 滨海县| 乃东县| 鄄城县| 亚东县| 育儿| 高陵县| 玛纳斯县| 通海县| 广丰县| 阿合奇县|