
大模型的 2024,這可能是最早的一篇年度總結文!

GPT-4 被 “普遍超越”,557 萬美元就能訓練頂級 AI 大模型?一文看懂 2024 年大模型的顛覆性突破!
從某種意義上説,2024 年不僅是技術突破的一年,更是行業走向成熟的重要轉折點。
這一年,GPT-4 級別的模型不再罕見,許多機構都開發出了性能超越 GPT-4 的模型;這一年,運行效率顯著提高,成本急劇下降;這一年,多模態 LLM,特別是支持圖像、音頻和視頻處理的模型,變得越來越普遍。
技術的進步也帶來了應用場景的繁榮。基於提示詞的應用程序生成成為行業標配,語音對話和實時攝像頭交互讓科幻場景成為現實。當年末 OpenAI 推出 o1 系列推理型模型,開創通過優化推理階段提升性能的新範式時,整個行業又向前邁進了一大步。
當地時間 12 月 31 日,獨立 AI 研究員、Django 締造者、Simon Willison 撰文回顧總結 2024 年大語言模型領域的重要事件,並列出了近 20 個關鍵主題、重要時刻和行業洞察。
以下為重點內容:
- GPT-4 壁壘被全面打破:截至 2024 年底,已有 18 家機構的 70 個模型在 ChatbotArena 排行榜上的得分超過了 2023 年 3 月發佈的原始 GPT-4。
- 頂級大模型的訓練成本大幅降低:DeepSeek v3 僅需 557 萬美元訓練成本,便可達到與 Claude 3.5 Sonnet 等模型比肩的性能。
- LLM 價格大幅下降:由於競爭加劇和效率提高,LLM 的運行成本大幅下降。例如,谷歌的 Gemini1.5Flash8B 比 2023 年的 GPT-3.5Turbo 便宜 27 倍。更低的成本將進一步推動 LLM 的普及和應用。
- 多模態視覺模型普及,音頻和視頻模型開始出現:2024 年,幾乎所有主要的模型供應商都發布了多模態模型,能夠處理圖像、音頻和視頻輸入。這使得 LLM 能夠處理更豐富的信息類型,拓展了其應用領域。
- 語音和實時攝像頭模式將科幻小説變為現實:ChatGPT 和 GoogleGemini 現在都支持語音和實時攝像頭模式,用户可以通過語音和視頻與模型進行交互。這將為用户提供更自然、更便捷的交互方式。
- 部分 GPT-4 級模型可在筆記本電腦上運行:得益於模型效率的提升,一些 GPT-4 級模型,例如 Qwen2.5-Coder-32B 和 Meta 的 Llama3.370B,現在可以在 64GB 內存的筆記本電腦上運行。這標誌着 LLM 的硬件要求正在降低,為更廣泛的應用場景打開了大門。
- 基於 Prompt 的應用程序生成已成為常態:LLM 現在可以根據 Prompt 生成完整的交互式應用程序,包括 HTML、CSS 和 JavaScript 代碼。Anthropic 的 ClaudeArtifacts、GitHubSpark 和 MistralChat 的 Canvas 等工具都提供了這項功能。這一功能極大地簡化了應用程序開發流程,為非專業程序員提供了構建應用程序的途徑。
- 對最佳模型的普遍訪問只持續了幾個月:OpenAI 推出 ChatGPTPro 付費訂閲服務,限制了對最佳模型的免費訪問。這反映了 LLM 商業模式的演變,未來可能會出現更多付費模式。
- “Agent” 仍未真正實現:“Agent” 一詞缺乏明確的定義,其效用也受到質疑,因為 LLM 容易輕信虛假信息。如何解決 LLM 的可信度問題是實現 “Agent” 的關鍵。
- 評估至關重要:為 LLM 系統編寫良好的自動評估對於構建有用的應用程序至關重要。有效的評估體系能夠幫助開發者更好地理解和改進 LLM。
- 合成訓練數據效果良好:越來越多的 AI 實驗室使用合成數據來訓練 LLM,這有助於提高模型的性能和效率。合成數據可以克服真實數據的侷限性,為 LLM 訓練提供更靈活的選擇。
- LLM 的環境影響喜憂參半:一方面,模型效率的提升降低了單次推理的能源消耗。另一方面,大型科技公司為 LLM 構建基礎設施的競賽導致了大量的數據中心建設,加劇了對電力網絡和環境的壓力。
- LLM 使用難度增加:隨着 LLM 功能的不斷擴展,其使用難度也在增加。用户需要更深入地瞭解 LLM 的工作原理和侷限性,才能更好地利用其優勢。
原文編譯如下,祝大家元旦快樂,enjoy:
GPT-4:從"無法企及"到"普遍超越"
在過去的一年裏,大語言模型 (LLM) 領域經歷了翻天覆地的變化。回望 2023 年底,OpenAI 的 GPT-4 還是一座難以逾越的高峰,其他 AI 實驗室都在思考同一個問題:OpenAI 究竟掌握了什麼獨特的技術秘密?
一年後的今天,形勢已發生根本性轉變:據 Chatbot Arena 排行榜顯示,原始版本的 GPT-4(GPT-4-0314) 已跌至第 70 位左右。目前,已有 18 家機構的 70 個模型在性能上超越了這個曾經的標杆。
谷歌的 Gemini 1.5 Pro 在 2024 年 2 月率先突破,不僅達到 GPT-4 水平,還帶來兩項重大創新:它將輸入上下文長度提升至 100 萬 token(後來更新至 200 萬),並首次實現了視頻輸入處理能力,為整個行業開創了新的可能性。
緊隨其後,Anthropic 於 3 月推出 Claude 3 系列,其中 Claude 3 Opus 迅速成為業界新標杆。6 月發佈的 Claude 3.5 Sonnet 更是將性能推向新高度,即使在 10 月獲得重大升級後仍保持相同版本號 (業內非正式稱為 Claude 3.6)。
2024 年最顯著的技術進步是模型處理長文本能力的全面提升。僅僅一年前,大多數模型還侷限於 4096 或 8192 個 token 的處理能力,只有 Claude 2.1 例外地支持 20 萬 token。而現在,幾乎所有主流提供商都支持 10 萬以上 token 的處理能力。這一進步極大拓展了 LLM 的應用範圍——用户不僅可以輸入整本書籍進行內容分析,更重要的是,在編程等專業領域,通過輸入大量示例代碼,模型能夠提供更準確的解決方案。
目前,超越 GPT-4 的陣營已經相當龐大。如果你今天瀏覽 Chatbot Arena 排行榜,GPT-4-0314 已經跌至第 70 位左右。擁有得分較高的模型的 18 個組織是:Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton 和騰訊。
這種變化深刻地反映了 AI 領域的快速發展。在 2023 年,超越 GPT-4 還是一個值得載入史冊的重大突破,而到了 2024 年,這似乎已經成為衡量頂級 AI 模型的基本門檻。
部分GPT-4 級模型實現個人電腦本地運行
2024 年,大語言模型領域迎來另一重要突破:GPT-4 級別的模型已可在普通個人電腦上運行。這打破了"高性能 AI 模型必須依賴昂貴數據中心"的傳統認知。
以 64GB 內存的 M2 MacBook Pro 為例,同一台 2023 年僅能勉強運行 GPT-3 級模型的設備,現在已能運行多個 GPT-4 級模型,包括開源的 Qwen2.5-Coder-32B 和 Meta's Llama 3.3 70B。
這一突破令人驚訝,因為此前運行 GPT-4 級模型被認為需要一台數據中心級服務器,配備一個或多個價值 40000 美元以上的 GPU。
更引人注目的是 Meta 的 Llama 3.2 系列。其 1B 和 3B 版本雖不及 GPT-4,但性能遠超模型規模預期。用户甚至可通過 MLC Chat iOS 應用在 iPhone 上運行 Llama 3.2 3B,這個僅需 2GB 存儲空間的模型就能以每秒 20 個 token 的速度生成內容。
它們能夠運行的事實證明了,很多模型在過去一年中取得了令人難以置信的訓練和推理性能提升。
由於競爭和效率提高,模型價格暴跌
過去 12 個月裏,大模型的價格出現了急劇下降。
2023 年 12 月,OpenAI 對 GPT-4 收取 30 美元/百萬輸入 tokens 的費用。如今,30 美元/mTok 的價格可以讓你獲得 OpenAI 最昂貴的模型 o1。GPT-4o 的價格為 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 的價格為 0.15 美元/mTok——比 GPT-3.5 便宜近 7 倍,而且功能強大得多。
其他模型供應商收費更低。Anthropic 的 Claude 3 Haiku(3 月份推出,但仍是其最便宜的型號)價格為 0.25 美元/mTok。谷歌的 Gemini 1.5 Flash 價格為 0.075 美元/mTok,而他們的 Gemini 1.5 Flash 8B 價格為 0.0375 美元/mTok — 比去年的 GPT-3.5 Turbo 便宜 27 倍。
這些價格下降是由兩個因素推動的:競爭加劇和效率提高。
多模態 LLM 興起
一年前,最引人注目的例子是 GPT-4 Vision,它於 2023 年 11 月在 OpenAI 的 DevDay 上發佈。谷歌的多多模態模型 Gemini 1.0 於 2023 年 12 月 7 日發佈。
2024 年,幾乎每個重要的模型供應商都發布了多模態模型。我們在 3 月看到了 Anthropic 的 Claude 3 系列, 4 月看到了 Gemini 1.5 Pro(圖像、音頻和視頻),然後 9 月帶來了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 視覺模型。我們在 10 月獲得了來自 OpenAI 的音頻輸入和輸出,然後 11 月看到了 Hugging Face 的 SmolVLM ,12 月看到了來自 Amazon Nova 的圖像和視頻模型。
多模態是 LLM 的巨大進步,能夠針對圖像(以及音頻和視頻)運行提示是應用這些模型的一種令人着迷的新方法。
語音和實時視頻釋放想象力
開始出現的音頻和實時視頻模式值得特別提及。
與 ChatGPT 對話的能力於 2023 年 9 月首次實現,不過當時只是語音轉文本模型和新的文本轉語音模型的對接。
5 月 13 日發佈的 GPT-4o 進行了一個全新語音模式的演示,該模型可以接受音頻輸入並輸出聽起來非常逼真的語音,而無需單獨的 TTS 或 STT 模型。
當 ChatGPT 高級語音模式終於推出時(從 8 月到 9 月緩慢推出),效果非常驚人。OpenAI 並不是唯一一家擁有多模態音頻模型的團隊。谷歌的 Gemini 也接受音頻輸入,而且 Google Gemini 應用程序現在可以以與 ChatGPT 類似的方式説話。亞馬遜還預告了 Amazon Nova 的語音模式,但該模式將於 2025 年第一季度推出。
Google 於 9 月發佈的 NotebookLM 將音頻輸出提升到了一個新水平,它可以讓兩個 “播客主持人” 就您輸入到其工具中的任何內容進行令人毛骨悚然的逼真對話。
12 月份,實時視頻成為新的焦點。ChatGPT 現在實現了與模型分享攝像頭,並實時討論所看到的內容。Google Gemini 也展示了具有相同功能的預覽版本。
即時驅動的應用程序生成已經是一種商品
2023 年的 GPT-4 就已實現這一點,但其提供的價值在 2024 年才顯現出來。
大模型在編寫代碼方面非常出色,如果你正確地給出一個提示,它們就可以使用 HTML、CSS 和 JavaScript 構建一個完整的交互式應用程序。
當 Anthropic 發佈 Claude Artifacts 時,他們大力推動了這一想法,這是一項突破性的新功能。通過 Artifacts,Claude 可以為您編寫一個按需交互式應用程序,然後讓您直接在 Claude 界面內使用它。
從那時起,許多其他團隊也建立了類似的系統。GitHub 於 10 月發佈了他們的版本 GitHub Spark。Mistral Chat 於 11 月將其添加為名為 Canvas 的功能。
這個提示驅動的自定義界面功能非常強大且易於構建,預計它將在 2025 年作為一項功能出現在廣泛的產品中。
最佳模型的免費使用僅持續了短短几個月
今年短短几個月內,三款最佳型號——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——均在全球大部分地區免費提供。
OpenAI 於 5 月向所有用户免費提供 GPT-4o ,而 Claude 3.5 Sonnet 自 6 月發佈以來也免費提供。這是一個重大變化,因為在過去的一年裏,免費用户大多隻能使用 GPT-3.5 級別的模型。
隨着 OpenAI 推出 ChatGPT Pro,那個時代似乎已經結束,而且可能永遠結束了。這項每月 200 美元的訂閲服務是訪問其功能最強大的模型 o1 Pro 的唯一途徑。
由於 o1 系列(以及其他的未來模型)背後的技巧是花費更多的計算時間來獲得更好的結果,我認為免費使用最佳可用模型的日子不太可能再回來。
“Agent” 還沒有真正出現
“Agent” 一詞非常令人沮喪,因為它缺乏單一、明確且廣泛理解的含義。如果你告訴我你正在構建 “Agent”,那麼你幾乎沒有向我傳達任何信息。
我看到的 “Agent” 的兩個主要類別是:一種認為 AI 智能體是那些代表你行動的東西——類似旅行 Agent 的模型;另一種則認為 AI 智能體是能夠訪問工具並通過這些工具在解決問題過程中循環運行的大語言模型(LLM)。此外,“自治” 這個術語也常常被加入進來,但同樣沒有給出明確的定義。
不管該術語的含義如何,Agent 仍然有那種永遠 “即將到來” 的感覺。拋開術語不談,我仍然對 Agent 的實用性持懷疑態度。
評估真的很重要
2024 年,有一點變得非常明顯:為 LLM 驅動的系統編寫良好的自動化評估是在這些模型之上構建有用應用程序最需要的技能。
如果您擁有強大的評估套件,您就可以更快地採用新模型,更好地進行迭代,並構建比競爭對手更可靠、更有用的產品功能。
每個人都知道評估很重要,但仍然缺乏關於如何最好地實施它們的良好指導。
Apple Intelligence 很糟糕,Apple 的 MLX 庫很棒
作為 Mac 用户,去年我覺得缺少一台配備 NVIDIA GPU 的 Linux/Windows 機器,這對嘗試新模型來説是一個巨大的劣勢。2024 年就好多了。
在實際操作中,許多模型是以模型權重和庫的形式發佈的,這些庫更偏向於支持 NVIDIA 的 CUDA,而不是其他平台。
在這方面,llama.cpp 生態系統提供了很大幫助,但真正的突破是蘋果的 MLX 庫,“一個為 Apple Silicon 設計的數組框架”。它非常棒。
蘋果的 mlx-lm Python 支持在我的 Mac 上運行多種 MLX 兼容模型,性能出色。Hugging Face 上的 mlx-community 提供了超過 1,000 個已經轉換為所需格式的模型。
雖然 MLX 是一個遊戲規則改變者,但蘋果自家的 “Apple Intelligence” 功能大多令人失望。Apple 的 LLM 功能只是對前沿 LLM 功能的拙劣模仿。
“推理” 模型的興起
2024 年最後一個季度最有趣的發展是新的推理模型的出現。以 OpenAI 的 o1 模型為例——最初於 9 月 12 日作為 o1-preview 和 o1-mini 發佈。
推理模型最大的創新是它開闢了一種擴展模型的新方法:模型不再僅僅通過在訓練時增加計算來提高模型性能,而是可以通過在推理上投入更多的計算來解決更難的問題。
o1 的續集 o3 於 12 月 20 日發佈,並在 ARC-AGI 基準測試中取得了令人印象深刻的結果,但是成本也不低,預計總的計算時間費用成本超過 100 萬美元。o3 預計將於 2025 年 1 月正式開放使用。
OpenAI 並不是唯一一家參與該類別的公司。谷歌於 12 月 19 日發佈了該類別的首款參賽者 gemini-2.0-flash-thinking-exp。阿里巴巴 Qwen 團隊於 11 月 28 日發佈了他們的 QwQ 模型;DeepSeek 於 11 月 20 日通過其聊天界面開放了 DeepSeek-R1-Lite-Preview 模型供試用。Anthropic 和 Meta 尚未有任何進展,但是它們一定會跟進。
中國最好的 LLM 訓練成本低於 600 萬美元?
2024 年年底的重大新聞是 DeepSeek v3 的發佈。DeepSeek v3 是一個巨大的 685B 參數模型,部分基準測試將其表現與 Claude 3.5 Sonnet 並列。
Vibe 基準測試目前將其排在第 7 位,僅次於 Gemini 2.0 和 OpenAI 4o/o1 模型。這是迄今為止排名最高的開源許可模型。
DeepSeek v3 真正令人印象深刻的是訓練成本。該模型在 2788000 個 H800 GPU 小時上進行訓練,估計成本為 5576000 美元。Llama 3.1 405B 訓練了 30,840,000 個 GPU 小時——是 DeepSeek v3 所用時間的 11 倍,但基準測試結果略差。
環境影響有所改善
模型(託管模型和在本地運行的模型)效率的提高帶來了一個可喜的結果是,在過去幾年中,運行提示詞的能源使用量和環境影響已大幅下降。
但是在訓練和運行模型的基礎設施建設仍然面臨着巨大的競爭壓力。谷歌、Meta、微軟和亞馬遜等公司都投入了數十億美元建設新數據中心,這對電網和環境產生了非常重大的影響,甚至有人談論建設新核電站。
這種基礎設施是必要的嗎?DeepSeek v3 的 600 萬美元訓練費用和大模型價格的持續下跌可能暗示它不是必要的。
合成訓練數據效果很好
現在流行一種説法,隨着互聯網充斥着人工智能生成的垃圾,模型本身將會退化,以自己的輸出為食,最終導致其不可避免的消亡。
但這顯然不會發生。相反,我們看到人工智能實驗室越來越多地使用合成內容進行訓練——故意創建人工數據來幫助引導他們的模型朝着正確的方向發展。合成數據作為預訓練的重要組成部分正變得越來越普遍。
另一種常用技巧是使用較大的模型來幫助為較小、更便宜的替代方案創建訓練數據——越來越多的實驗室使用這種方法。DeepSeek v3 使用了 DeepSeek-R1 創建的 “推理” 數據。
精心設計用於 LLM 的訓練數據似乎是創建這些模型的全部。從網絡上抓取完整數據並隨意將其投入訓練運行的日子已經一去不復返了。
大模型越來越難使用
我一直在強調的一個觀點是,LLM 是面向高級用户的工具。它們看起來很簡單——向聊天機器人輸入消息能有多難呢?——但實際上,要充分利用它們並避免它們的種種陷阱,你需要擁有深厚的理解力和經驗。
如果説有什麼問題變得更糟,那就是在 2024 年,這個問題變得更加嚴重了。
我們已經構建了可以用人類語言進行對話的計算機系統,它們可以回答你的問題,並且通常能夠回答正確!... 但這要看問題的類型,提問的方式,以及問題是否準確地體現在那些未公開的、秘密的訓練數據集中。
默認的 LLM 聊天界面就像是把完全沒有電腦經驗的新用户丟進 Linux 終端,讓他們自己摸索着去弄明白。與此同時,終端用户對這些工具的理解模型也越來越不準確,且充滿誤解。
很多信息更全面的人已經完全放棄了 LLM,因為他們看不出任何人能從如此多缺陷的工具中獲益。想要從 LLM 中獲得最大價值的關鍵技能,就是學會如何使用那些既不可靠又極為強大的技術。掌握這一技能顯然並不容易。
知識分佈極其不均
現在大多數人都聽説過 ChatGPT,然而有多少人聽説過 Claude 呢?那些積極關注這些技術的人與 99% 不關心的人之間的知識差距巨大。
變化的速度也並沒有幫助緩解這個問題。僅在過去一個月裏,我們就見證了直播接口的普及,你可以用手機攝像頭對準某個物體,用語音與它對話……。大多數自認為是極客的人甚至還沒嘗試過這個功能。
考慮到這項技術對社會的持續(以及潛在)影響,我認為這種差距的大小是不健康的。我希望能有更多的努力投入到改善這一點上。
LLM 需要更好的批評
很多人對大模型技術感到極度反感。在一些公開論壇上,僅僅提出 “LLM 是有用的” 這個觀點,就足以引發一場大爭論。
有很多理由讓人不喜歡這項技術——環境影響、訓練數據的(缺乏)倫理性、可靠性不足、負面應用,以及對人們工作可能產生的負面影響。
LLM 絕對值得批評。我們需要討論這些問題,尋找緩解方法,並幫助人們學習如何負責任地使用這些工具,使其正面應用超過負面影響。
原文鏈接:https://simonwillison.net/2024/Dec/31/llms-in-2024/

