刊登日期 : 2025-02-05
素來由美國強勢主導的人工智能(AI)發展,業界近來出現一位超新星,它就是來自中國的DeepSeek。
DeepSeek的AI模型一改主流的「大力出奇迹」,走出「小而強」新路線,性能持平下,據稱成本只有主流的30分之一。
DeepSeek的崛起,也令「80後」創辦人梁文鋒的風頭一時無兩,他有甚麼特別呢?
DeepSeek硬撼OpenAI

2025年1月底,默默無名、總部位於浙江杭州的AI公司「DeepSeek」(深度求索)發布了推理模型「DeepSeek-R1」,在測試中媲美「地表最強」OpenAI的AI模型,開發成本卻只有數百萬美元,性價比極高。
要知道,現時主流AI模型的發展堪稱是「軍備競賽」,為追求更高性能,體積不斷膨脹,參數數量指數級增加,並且需要非常驚人的能源消耗和訓練成本,耗費動輒數以十億美元計。
但DeepSeek另闢蹊徑,不依賴最先進的硬件,通過聰明的工程設計及高效的訓練方法,利用剪枝、量化、知識蒸餾等一系列創新技術,成功實現「瘦身」。
DeepSeek創辦人梁文鋒是誰?

DeepSeek的創辦人是「80後」的梁文鋒,他還有另一個身份,就是對沖基金「幻方量化」的創辦人。
梁文鋒自幼就展現出卓越的數學才能,大學時期已經編寫涉及人工智能的演算法去選股投資。2013年,梁文鋒成立投資公司,2年後再與同學一同創辦幻方量化,後者迅速成為中國最大的量化基金之一,致力於透過人工智能進行量化投資。
幻方量化的資產管理規模在2021年一度突破1000億元人民幣大關,躋身國內量化私募領域龍頭之列。
到了2023年,AI熱潮在全球爆發,梁文鋒宣布轉變賽道進軍AI,DeepSeek在同年7月正式成立。
DeepSeek以獨特管理方式推動創新

據指,DeepSeek共有百多名研發人員,但人才密度極高,且大多是在中國本土培養,例如是清華、北大等高校的應屆生、在讀生,被形容是「只招1%的天才,去做99%中國公司做不到的事情。」
事實上,「DeepSeek-R1」的誕生過程亦非常有趣,其降低成本的關鍵架構「MLA」,最初竟是來自一位年輕研究員的個人興趣。
據梁文鋒透露,原來公司架構全都是自下而上,實行「自然分工」,組內成員沒有上下級關係,各自負責最擅長的部分。當事情有新進展的時候,才會自上而下地去調配資源。
此外,該公司對於AI晶片和人手的調集非常靈活。如果有想法,每個人隨時都可以調用AI晶片,無需審批。同時因為不存在層級和跨部門,也可以靈活調用所有人手。
梁文鋒表示,之所以能夠推行如此鬆散的制度,是取決於篩選到一批由熱愛驅動工作的人,公司選人標準一直都是熱愛和好奇心,所以不少員工會有一些奇特的經歷,很有意思,很多人更是對研究有強大的渴望,遠超對金錢的在意。