---
title: "騰訊 HY- WU 要捅模型天花板：讓模型每次任務都生成個新大腦"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/278248938.md"
description: "騰訊混元團隊發佈技術報告 HY-WU，旨在突破當前大模型的能力限制，指出一套固定參數無法滿足多樣化和矛盾任務的需求。儘管 AI 行業投入巨資訓練大模型，但在處理用户請求時，模型仍需在固定參數間妥協，導致表現打折扣。報告提出新範式，可能改變大模型的訓練和應用方式。"
datetime: "2026-03-08T13:20:30.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/278248938.md)
  - [en](https://longbridge.com/en/news/278248938.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/278248938.md)
---

# 騰訊 HY- WU 要捅模型天花板：讓模型每次任務都生成個新大腦

你有沒有過這樣的經歷，同樣的模型，別人都在説多麼好用，而你用下來不如預期。

GPT-5 剛出來的時候，benchmark 全面領先，但大批用户吐槽它沒人味。寫東西僵硬，失戀安慰不如老款 GPT-4o，重度用户直接説它"距離成為一塊石頭也不遠了"。

OpenAI 的應對方式就是多訓幾個模型，寫代碼的、通用能力的、適合對話的。

這背後藏着一個根本問題：**一套參數做不好所有事。**

過去三年，AI 行業花了幾千億美元訓練大模型，參數量從幾十億捲到幾千億。但有一件事很少有人停下來想：不管模型多大，微調之後，它處理每一個用户請求時用的都是同一套固定參數。任務一多、方向一矛盾，這套參數就被迫在互相沖突的需求之間妥協，每件事都在打折扣。

騰訊混元團隊 3 月 6 日發了一篇技術報告 HY-WU，想挑戰這個限制了今天大模型能力的天花板：當任務足夠多樣甚至互相矛盾時，不存在一套參數能同時把所有事做好。這是個結構性的死衚衕，跟訓練充不充分沒關係。

如果他們的解法被驗證是對的，大模型可能又要出現個新範式。

## 一套參數服務不了所有人

預訓練好的大模型是個通才，什麼都懂一點，但在具體任務上不夠精。

要提升表現，需要在特定任務數據上再訓練一輪，也就是所謂的微調。全量微調要調所有參數，成本很高。2022 年出現的 LoRA 換了個思路，不動原來的參數，在旁邊加一小組新參數，只訓練這一小組。參數量不到原模型的 1%，效果卻接近全量微調，很快成了行業標配。

但 LoRA 也好，全量微調也好，都沒有改變一個事實：**調完之後參數就固定了，所有請求共用同一套。**

如果你有生圖經歷就明白，每次運行都要加載對應的 LoRA。選錯 LoRA 很容易產生不可名狀的圖片。

混元在報告裏舉了個更極端的例子，一個模型可能要同時處理"修復老照片"和"做舊照片"，前者讓模糊變清晰，後者讓清晰變模糊。一套固定參數同時學這兩件事，兩邊都湊合。

報告分析了 60 種編輯任務、12000 個樣本做了梯度分析去驗證這個猜想，結果的確如預期，**不同任務對參數的調整方向經常相反，硬塞到一套參數裏會互相抵消。**

那給每種任務單獨訓練一套參數？衝突是避免了，但會過度特化，而且任務需求是無窮的，每個都匹配的話，存儲和管理成本撐不住。

RAG 之類的檢索增強也幫不上忙，它能改變模型"看到了什麼"，但改變不了模型"怎麼處理信息"。當任務核心是變換規則而不是缺失事實時，塞再多上下文也沒用。

傳統方法把適配理解為"在參數空間裏找一個最佳點"，但任務多樣且矛盾的時候，這個點不存在。

## 現場生成參數

我們再來看混元的 HY-WU 是怎麼做的。

傳統方案都是"靜態參數記憶"，把新知識壓進一個固定點，推理時所有請求共用。HY-WU 換了一種記憶方式，報告叫它功能性記憶，**不找空間中固定的參數點，而是訓練一個參數生成器，每次收到具體輸入，實時合成一套專屬參數，用完即棄。**模型記住的不是某一組固定權重，而是"什麼條件下該生成什麼樣的權重"這個映射關係。

同樣用生圖舉例，當模型接收到你想要老照片修復，就會訓練個高清、提高飽和度的參數，當接收到生成老照片，則訓練個對立的參數。

具體來看，HY-WU 分了三步，為了方便理解，我們可以把 HY-WU 看作是一個裁縫，為每個需求定製參數。

**第一步，量體。**

一個視覺語言編碼器同時看輸入圖片和文字指令，搞清楚兩件事：這張圖是什麼樣的，用户想對它做什麼。這些信息被壓縮成一組條件特徵，相當於客人的身材數據和款式偏好。

**第二步，裁衣。**

條件特徵送入一個 8B 參數的 Neural Network Transformer。這個 Transformer 跟平時見到的不太一樣，它輸出的不是文字或圖片，而是一整套 LoRA 權重，共 0.72B 參數。

你可以理解為，它根據身材數據現場算出了一套裁剪方案。收到"修復老照片"的請求，裁出來的是偏向增強細節的參數；收到"做舊照片"，裁出來的方向完全相反。整個過程在 80B 的基座模型上只需幾秒。

**第三步，上身。**

生成的 LoRA 插入基座模型，執行編輯。基座模型始終不動，每次推理只是臨時換一套 LoRA，用完就丟。

HY-WU 還解決了一個工程上的難點。基座模型每層的 LoRA 形狀不同，論文設計了一套基於 LoRA rank 的錨定切塊方案，把不同形狀的矩陣統一裁成相同大小的 token，讓生成器能像處理文字序列一樣逐個生成參數塊。

架構搞定了，接下來是怎麼訓練這個生成器（裁縫）。

之前的超網絡方法有點像先讓 100 個裁縫各做一件樣衣，收集起來當模板，再訓練一個新裁縫去模仿這些模板。

HY-WU 跳過了收集模板這步。訓練是端到端的，生成器根據輸入生成一套 LoRA，裝進基座做編輯，看編輯效果好不好，把反饋傳回來調整生成器。不需要預收集 checkpoint，不需要存儲 LoRA 權重庫。幾百萬次迭代之後，生成器從最初的隨機輸出，慢慢摸索出了針對不同輸入該生成什麼樣的參數。

## HY-WU 的效果如何

人工偏好評估裏（GBS），HY-WU 對主流開源圖片編輯器的勝率在 67% 到 78%。對閉源商業模型也有優勢，對 Seedream 4.5 勝率 55.6%，對 GPT Image 1.5 勝率 55.5%。只是略低於 Nano Banana 系列。

跑分之外，有一個問題需要回答：HY-WU 的提升到底來自哪裏？是因為多了一個 8B 的生成器帶來了更多參數，還是因為"根據輸入定製參數"這個機制本身？

論文設計了兩個實驗來拆解這個問題。

**第一個實驗，**把生成器對大量樣本生成的 LoRA 全部取平均值，得到一套"均碼 LoRA"，然後固定用這套均碼來處理所有請求。生成器還在，參數量一個沒少，但每個請求拿到的 LoRA 都一樣了。相當於裁縫還在，但不管誰來都給同一個尺碼。結果：性能立刻掉回基線，跟沒有 HY-WU 差不多。

**第二個實驗，**生成器照常工作，但把輸入條件隨機打亂，A 的圖片配上 B 的指令去生成 LoRA。生成器還在動態生成，但生成的參數跟實際輸入對不上了。相當於裁縫還在量體裁衣，但把張三的尺寸用在了李四身上。性能同樣不行。

通過兩個實驗，**驗證了參數多不多不是重點，關鍵是每個輸入能拿到跟自己匹配的那套參數。**

## 改變模型發展的下一個範式？

回顧大模型發展史，真正改變行業走向的技術節點並不多。

2017 年的 Transformer 架構奠定了基礎。2022 年的 LoRA 解決了微調成本問題，讓適配大模型不再是大廠專利。MoE 打破了"參數越多推理越慢"的限制，通過路由機制讓模型在保持大參數量的同時只激活一部分。思維鏈讓模型學會了"分步推理"，o1 和 R1 系列靠它在數學和編程上取得了突破性進展。

這些技術有一個共同點：它們各自解決了模型"怎麼建"或"怎麼想"的問題。但有一個問題始終沒人動過，模型建好之後，面對不同用户、不同任務，怎麼用同一套參數給出差異化的最優響應？

行業的默認答案是，訓更多模型。大廠的模型名字一隻手數不過來，開源社區裏 LoRA 權重庫堆了幾萬套。

HY-WU 切入的正是這個空白。MoE 在模型內部做路由，HY-WU 在模型外部做路由。

當然，現在説 HY-WU 能達到 MoE 或思維鏈那樣的行業影響力還為時過早。它目前只在圖片編輯上驗證過。而接下來他們也提出了多個未來的探索方向，包括對記憶的 “新舊” 的處理，對容量分配的處理，能不能有更通用的接口，從圖片到視頻和 Agent 的更廣泛的應用等。

模型的進化不只是"更大"或"更會想"，還應該包括"更懂得因人而異"。如果後續能在語言模型、視頻生成、Agent 等場景復現類似的效果，它有可能成為繼 MoE 之後，下一個範式轉換。

### 相關股票

- [159998.CN](https://longbridge.com/zh-HK/quote/159998.CN.md)
- [00700.HK](https://longbridge.com/zh-HK/quote/00700.HK.md)

## 相關資訊與研究

- [DeepSeek V4 預計 4 月下旬發布 傳徹底轉向華為昇騰晶片](https://longbridge.com/zh-HK/news/282677192.md)
- [華為設立展區 介紹解決方案在實際業務中的應用場景](https://longbridge.com/zh-HK/news/282560616.md)
- [5 分鐘，讓 AI 成為您的第二大腦](https://longbridge.com/zh-HK/news/282417611.md)
- [【AI】智元機器人發布 GO-2 具身基座大模型](https://longbridge.com/zh-HK/news/282140880.md)
- [多模型策略成主流，AI 不再只靠單一決策](https://longbridge.com/zh-HK/news/282602429.md)