- 深度探索:解碼DeepSeek及人工智能的未來
- 陳勁 安健
- 2696字
- 2025-07-11 16:22:11
橫空出世的DeepSeek
從表面來看,DeepSeek一夜之間爆火,火得一塌糊涂,火得一發不可收,但又火得莫名其妙。不過太陽底下沒有新鮮事,DeepSeek橫空出世的背后,其實是中國AI公司在這一領域持續多年的深耕細作。DeepSeek的崛起是一個典型的中國科技初創公司憑借技術創新和開源模式迅速嶄露頭角的故事。
2024年12月末,有媒體報道稱,小米總裁雷軍以年薪千萬的優厚條件聘請了一位被稱為“天才AI少女”的年輕人,負責領導小米的人工智能大模型團隊。這位出生于1995年后的女性名叫羅福莉,過去幾年間曾效力于DeepSeek團隊,并深度參與了大模型研發的核心工作。

圖1-1 DeepSeek霸榜各大美媒頭條
圖片來源:各相應媒體網站主頁截圖。
對沒有專門關注科技圈的普羅大眾而言,這其實是Deep-Seek第一次走進公眾視野。不過,當時“天才AI少女”的風頭顯然蓋過了DeepSeek,這越發使得后者在一夜成名后顯得低調而神秘。從關于DeepSeek創始人梁文鋒零零散散的背景資料中我們可以發現,2015年12月1日水木社區上轉發的一則招聘啟事,勾畫出了梁文鋒量化交易之路的輪廓:
2008年,L先生(指梁文鋒)帶著8萬元本金,開始了自己獨立的量化交易之路。2015年,歷經七年熊市牛市大輪回的L先生,憑借每年超過100%的復合收益率,躋身億元富豪之列。
這個行業里率先富起來的L先生認為,中國的量化交易將從“單兵游俠”的時代轉向極客會聚的私募基金時代。他和IT(信息技術)圈的朋友創辦了自己的公司,希望能打造一支世界一流的量化私募團隊。他們給自己的公司取名“幻方科技”。“幻方”源自中國古代洛書九宮圖,是一種特殊的矩陣,是科學的結晶與吉祥的象征。
L先生的理想是有朝一日自己的公司能夠與世界級的量化交易泰斗——西蒙斯的文藝復興科技公司相媲美。
這則校園招聘的標題是《頂尖量化對沖基金公司覓牛人》。10年前,梁文鋒是否能夠招到牛人不太好說,但隨著DeepSeek-V3的問世,業界普遍推測這一成就背后必有行業資深專家或“大牛”領銜。然而,羅福莉的走紅卻揭示了一個出人意料的事實:引領DeepSeek技術革新的主要推手并非傳統意義上的行業老將,而是一群像她這樣充滿活力和創新精神的青年才俊。
盡管公司成員都很年輕,但DeepSeek在人工智能領域卻堪稱老兵。正如這則招聘啟事所透露的,其起點可以追溯至2008年,當時梁文鋒從浙江大學信息與通信工程系畢業,投身量化投資領域。他與友人共同探索利用數學模型和計算機程序進行交易的可能性,這段經歷讓他深刻體會到技術驅動創新的重要性。
2015年,梁文鋒與校友徐進聯合創立了幻方量化。徐進擁有浙江大學信號與信息處理專業博士學位,曾在華為技術有限公司上海研究所任職。他們購置了大量GPU,建立了實驗室,開始研究如何借助AI技術構建投資策略。這一舉措使幻方量化在短短四年內成長為管理資金規模超百億元的私募巨頭。既然AI制定的量化策略能跑贏市場,那AI是否會產生真正的智能?讓我們大膽猜測,這第一桶金可能在梁文鋒心中播下了將能實現通用人工智能(AGI)的種子。
隨著業務的擴展,幻方量化于2019年成立了專門的AI實驗室,并投入逾10億元資金,研發了AI超級計算機“螢火一號”和“螢火二號”。其中,“螢火二號”配備了約1萬張英偉達A100顯卡,其算力超過了72萬臺個人電腦。憑借這些強大的計算資源,幻方量化在2021年將資產管理規模提升至1000億元人民幣。
到了2022年底,ChatGPT的問世終于引燃了梁文鋒對通用人工智能的熱情。多年的積累讓他做好了迎接這一挑戰的準備。梁文鋒表示:“我們成立了名為深度求索的新公司,從大語言模型入手,未來還將涉及視覺等領域。”盡管在人工智能公司OpenAI公布了論文和代碼后,國內外涌現出許多大模型公司,但他堅信,在未來20年內,無論是大企業還是初創公司都將擁有廣闊的發展空間。
與其他國產大模型不同,DeepSeek選擇了開源道路,并且在第三代大模型發布時仍未推出任何具體應用,也未全面考慮商業化。梁文鋒明確表示,他們的目標不在于開發單一應用,而是專注于基礎研究和前沿創新。這種純粹的理想主義,以及不被任何資方束縛、裹挾的底氣,在某種程度上來自梁文鋒早已實現財務自由的灑脫。這一點,與馬斯克投資特斯拉、大舉押注新能源汽車,有異曲同工之妙。真正的耐心資本只能是自己的資本。
長期以來,人們普遍認為,歐美科技界在從0到1的技術創新上更具優勢,而中國企業則擅長在應用層面發力,即所謂的從1到N。然而,梁文鋒并不認同這種觀點,他堅信中國AI不僅會跟隨,還能以創新者的身份參與新的技術浪潮。
2023年7月17日,梁文鋒成立了杭州深度求索人工智能基礎技術研究有限公司,宣布其目標是打造“真正具備人類級別智慧的人工智能”。當時,有一種觀點在網絡上流傳:在中國,擁有高性能GPU最多的機構并非人工智能公司,而是一家量化私募投資公司。據《財經十一人》2023年的報道,中國擁有超過1萬張GPU的企業不超過5家,幻方量化是其中唯一一家不屬于科技“大廠”的企業。這種一擲千金的果斷與勇氣,絕不是一般企業管理者所能達到的;這種不符合傳統商業邏輯的決策,只能來自一個對通用人工智能有堅定信念的創始人。
在中國的AI大模型創業公司中,DeepSeek一直保持著低調的姿態,但在基礎技術研發方面,其卻展現出了驚人的實力和一種學院派的嚴謹。盡管成立時間不長,但DeepSeek的發展速度和技術創新能力令人矚目。僅在成立半年后,即2023年11月2日,DeepSeek發布了DeepSeek Coder,這是其首款開源代碼大模型,支持多種編程語言的代碼生成、調試和數據分析任務。該模型完全開源,免費供商業使用,這是該公司在AI領域的首次重大突破。
緊接著在2023年11月29日,DeepSeek發布了其首款通用大語言模型DeepSeek LLM 67B。這款模型的參數規模達到了670億,性能接近GPT-4,并在多個中英文公開評測榜單上表現優異。DeepSeek LLM 67B進一步使DeepSeek成為開源大語言模型領域的領先者。
2024年5月,DeepSeek發布了開源第二代MoE(混合專家)大模型DeepSeek-V2,這款模型不僅在性能上實現了顯著提升,還因其極低的成本引發了行業內的價格戰。DeepSeek-V2的推理成本僅為每百萬令牌1元人民幣,這一價格僅為Llama 3的1/7,GPT-4-Turbo的1/70。這種巨大的成本優勢迫使國內主流大模型廠商,包括騰訊、百度、阿里巴巴、字節跳動等,紛紛下調價格。
又是短短半年過后,DeepSeek-V3模型發布,其輸入價格進一步降至每百萬令牌0.5元,這再次推動了國產大模型的降價潮。2024年12月,字節跳動下調其旗下豆包視覺理解模型輸入價格,與行業平均水平相比,降低了85%。
真正的爆發是在2025年的1月20日,DeepSeek發布了性能對標OpenAI o1正式版的新模型——DeepSeek-R1。由于它在基準測試中超越了OpenAI的同類產品,且強大絲滑的產品使用體驗震驚了海外AI社區,因此DeepSeek被海外AI界人士稱為“神秘的東方力量”。同時,國內媒體也在爭相報道DeepSeek的大火,稱DeepSeek為典型的“墻外開花墻內香”的中國創新。
“DeepSeek-R1是我見過最驚人、最令人印象深刻的突破之一,”頂級風投a16z創始人馬克·安德森評論道,“作為開源模型,這是給世界的一份意義深遠的禮物。”