Andrej Karpathy 加入 Anthropic 領導預訓練研究
序言
Andrej Karpathy,一位因在 OpenAI 和 Tesla 的經歷而知名的 AI 研究員,已在 Anthropic 擔任新職務,負責大語言模型的預訓練工作。此舉凸顯了 AI 業界中資深研究人員在領先實驗室之間流動的持續趨勢,他們帶來了實務工程經驗與理論洞見。本文旨在彙整 Karpathy 新職位的主要事實,說明預訓練在現代模型開發中的重要性,並指出一些相關的新進聘用,這些聘用顯示 Anthropic 正在強化其研究與安全能力。
Lazy bag
Karpathy 已加入 Anthropic,領導預訓練工作,這是賦予模型基礎能力的耗算力階段。Anthropic 正在組建一個團隊,使用 Claude 加速研究,強調 以 AI 協助的發現,而非僅仰賴原始計算力。公司同時也將資安老將 Chris Rohlf 加入其前線紅隊。
正文
Andrej Karpathy 先前曾共同創辦並任職於 OpenAI,之後領導 Tesla 的 AI 工作,現宣佈已加入 Anthropic。他的動向由 X 上的一則貼文確認,他在貼文中表示很高興回到前沿大語言模型(LLM)的研發工作。Karpathy 本週已開始在 Anthropic 工作,並在 Nick Joseph 的領導下加入預訓練團隊。
預訓練是建構先進 LLM 的核心階段:它由大規模的訓練執行組成,賦予模型一般性知識與語言能力。這些訓練既昂貴又計算密集,通常佔開發前沿模型所需資源的一大部分。Anthropic 將預訓練描述為賦予其旗艦模型 Claude 核心能力的關鍵。
Anthropic 告訴媒體,Karpathy 將組建一支團隊,專注於使用 Claude 自身來加速預訓練研究。這種做法表明公司在策略上強調 以 AI 協助的研究工作流程,讓模型幫助研究人員更快速地迭代,而非單靠增加計算力的蠻力。將具備理論知識與實作系統經驗並重的 Karpathy 放在這項任務上,Anthropic 看來在賭注:更聰明的工具與以模型為驅動的實驗可以成為相較於其他業界領導者的競爭差異化。
Karpathy 的背景連結了學術深度學習研究與應用的大規模系統建置。2017 年離開 OpenAI 後,他加入 Tesla,領導 Full Self-Driving (FSD) 與 Autopilot 專案,管理團隊與生產規模的機器學習工作。他曾回到 OpenAI 任職一年,並於 2024 年離開創辦 Eureka Labs,一家旨在於教育領域應用 AI 助手的新創公司。關於 Eureka Labs 的公開更新較為稀少,Karpathy 尚未說明他在 Anthropic 任職期間是否會繼續參與該新創公司。
除了業界工作外,Karpathy 也以教學聞名。他製作了一門名為「Neural Networks: Zero to Hero」的線上課程,帶領學習者從零開始建立神經網路,並經營一個 YouTube 頻道,發佈關於 LLM 與相關主題的授課與講解。他表示仍熱衷於教育,並計畫在可能的情況下重返相關努力。
另外,Anthropic 宣佈聘任 Chris Rohlf 加入其前線紅隊。該紅隊的任務是對先進 AI 模型進行強韌性測試,以應對強烈的對抗性與安全威脅。Rohlf 擁有超過二十年的資安經驗,包括在 Yahoo 著名的資安團隊任職以及後來在 Meta 的多年工作經歷。他也曾在喬治城大學的安全與新興科技中心擔任研究員,從事 CyberAI 相關計畫。
Rohlf 表示,業界現在有明確的機會透過 AI 改善資安,他認為 Anthropic 是追求該目標的合適場所。他加入紅隊,補強了研究面的人事佈局,使公司在評估與強化模型以防止濫用與技術性脆弱點方面更有能力。
綜合來看,這些聘任說明了 Anthropic 的雙重焦點:推進模型開發,同時投資於嚴謹的評估與安全性。引入能將理論進展連結到生產規模訓練流程的研究人員,有助於加速開發週期並提高計算資源的效率。與此同時,資深的紅隊能確保技術進步伴隨周全的風險評估與緩解措施。
對 Anthropic 而言,招募像 Karpathy 這樣的個人清楚表明了公司優先事項:重視在大規模模型訓練上的實務專長,以及將研究洞見落地的能力。強調 AI 協助的預訓練也意味著一種策略,讓模型本身成為研究人員的工具,加速假說測試、自動化訓練動態分析,並有可能降低成本。
雖然 Karpathy 對 Eureka Labs 的長期計畫尚不明朗,但他轉往 Anthropic 標誌著頂尖 AI 人才在業界領導組織間調動的又一步。觀察者將關注他的團隊如何使用 Claude 影響預訓練工作流程,以及以 AI 協助的研究是否會成為該領域更為主導的範式。
Anthropic 對媒體的聲明與 Karpathy 的公開貼文提供了本摘要的事實依據。TechCrunch 與其他媒體也已向 Karpathy 取得回應,以了解他在職務與未來專案上的更多脈絡。
重點摘要表
| 面向 | 描述 |
|---|---|
| 重點 1 | Andrej Karpathy 加入 Anthropic,從事預訓練工作,專注於賦予 Claude 核心能力的大規模訓練執行。 |
| 重點 2 | Anthropic 計畫使用 Claude 來加速預訓練研究,表示向以 AI 協助研究轉變,而非單靠計算力。 |
| 重點 3 | Karpathy 的背景橫跨 OpenAI、Tesla 與教育導向的新創,賦予他理論與生產規模經驗。 |
| 重點 4 | Anthropic 也聘請了 Chris Rohlf 加入其前線紅隊,以強化模型安全與對抗性測試。 |