深度評測：PromptPilot，字節跳動的 “提示詞工廠”

$谷歌-A(GOOGL.US) $Meta(META.US)

下面的情景是不是有些似曾相識？

當滿懷期待地給 AI 大模型下達指令，比如 “幫我分析一下這周的股價走勢”。

等待數十秒後，得到了一份空洞無物，只有數據羅列的通用模板，令人大失所望。

轉念一想，不應該啊，之前看過的短視頻裏介紹 AI 都和點石成金一樣：

有的人能用 AI 在朋友圈、小紅書和微博上追逐時尚潮流生成爆款文案；

有的人能用 AI 生成勝過資深程序員編寫的高質量代碼；

有的人能讓 AI 充當各領域內的行業專家，隨隨便便來一份分析報告都不在話下；

同樣是 AI，天差地別的結果。

不同的 AI 大模型之間能力存在差距，這是事實。

但造成這一差異的更為主要的原因在於，使用 AI 的方法，也就是提問的方式。

我們注意到，為了降低使用門檻，加速 AI 大模型應用普及，各大廠也在 “提示詞工程” 上下大心思。PromptPilot，便是字節系的大模型提示詞解決方案平台。

以其為樣本，本文將就 “提示詞工程” 與字節系的 “提示詞工廠”，一探究竟。

01 提示詞的演進過程

人與 AI 溝通的媒介，即為提示詞（Prompt）。

有人會問：“寫 Prompt 不就是打字提問嗎？”

非也，這是一門學問。

這門學問在 AI 誕生至今的短短几年內，已經經歷了從 “遠古時代” 到 “現代” 的飛速進化。

簡單瞭解一下提示詞的發展路徑，或許能夠幫助理解為什麼我們需要更 “工程化” 的思維。

Stage.1 “魔法咒語” 時代

這是最早期的階段，但也是大多數人目前所處的階段。

使用 AI 大模型和使用搜索引擎的方法並無兩樣，就像最初大家在使用 GPT3.5 時，只需要隨意拋出問題，就可以把 AI 當作百科全書使用。

這個階段的提示詞特點也很鮮明，“一問一答，簡單直接”。

當然，使用效果也有些靠運氣。對於一些需要思考、推理或創意的任務，AI 的回答時而驚豔，時而平庸。

Stage.2 “啓蒙與引導” 時代

此後，AI 的發展速度遠超人們的想象。

研究者和 “高級玩家” 們發現，AI 就像一個孩子，直接下命令，它有時根本聽不懂。

但如果給 AI 一些適當的提示和引導，有助於孩子的成長，最終得到更好的結果。

在這一階段，誕生了兩種里程碑式的 AI 使用方式：

一是示例學習：在向 AI 正式發文之前，先給出範例，讓 AI 進行模仿；

二是思維鏈路：不是直接生成最終答案，而是像做中學數學題一樣，必須把過程寫清楚，最後給出解答。思維鏈路的出現，使 AI 在計算、推理和邏輯類任務中取得了巨大的飛躍。

因此，這時的 AI ，雖然本質上只是一段早已編寫好的程序，但它也可以被視為一個可以教導和啓發的學生。

Stage.3 “系統化工程” 時代

這是我們現在所處的時代。AI 產品五花八門，其能力已經達到 “逆天” 的水平。

簡單的小技巧已經無法有效駕馭 AI，是時候設計出一套系統化、規範化且可複用的方法來更加有效地利用 AI 了。

因此，不論是 LLM 應用開發平台，還是各家廠商最新版本的 AI 大模型，如果讓它們自動生成提示詞，都已經不再是零散的指令，而是採用一個包含角色、背景、任務、規則、輸出格式和限制等元素的結構化框架。

其目的也很簡單，讓 AI 的輸出穩定、可控、易於複製。

02 提示詞工程

“提示詞工程” 是什麼？

AI 給出的回答是：“一門設計和優化提示詞的科學，旨在更有效地與大型語言模型進行溝通，從而引導它們生成更準確、更相關、更高質量的輸出結果。”

如前文所述，提示詞的重要性源於” Garbage In, Garbage Out” 原則，AI 模型的輸出質量直接取決於輸入提示詞的質量。

優質的提示詞，最重要的功能在於有效減少 AI 出現 “幻覺” 的概率，使其回答更加貼近現實和用户意圖。

同時，提示詞有助於發掘 AI 的 “潛力”。相比簡單的指令，提示詞工程可以讓 AI 實現更多功能，比如編寫代碼、市場分析、創意生成等更加複雜、更加抽象的任務。

此外，用户還可以對 AI 的回答添加格式、語氣、長度等約束條件，靈活地調整答案的展現形式，同時節約調試時間。

對於編寫提示詞的方法，Gemini 2.5 Pro 給出了名為 $萊德物流(R.US).L.E.S.的法則，這裏選擇構建工作流時使用的實例：

R - Role（角色）：你希望 AI 是誰？

這是 AI 使用者在編寫提示詞時最容易忽略的一步，因為我們常常上來就直接把問題拋給 AI。通過賦予 AI 一個具體且專業的角色，能夠激活它在該領域的知識庫，使其回答更具深度和專業性。

例如：

# 角色

你是一個頂級的金融數據分析師，能夠解析用户的請求，併為後續的數據庫檢索程序準備一份精確的數據需求清單。

O - Objective（目標）：你想完成什麼核心任務？

用户需要清楚地告訴 AI 最終目的是什麼。不要擔心語言過於繁瑣，AI“聽不懂” 的是短句，而不是長難句。任務越明確，AI 的行動路徑就越清晰。

例如：

# 核心任務

你的任務是分析用户關於 “谷歌”（別稱：Google）的指令"{{query}}"。你的最終輸出不是直接回答用户的問題，而是列出為了回答這個問題，必須從我們的財務知識庫中檢索的 ** 所有基礎數據字段 **。

L - Limit&Constraint（限制與約束）：有哪些規則必須遵守？

AI 作為一個自由創作的作家，輸出方式向來是不拘一格。要想獲得準確的結果，就必須對其加以限制和約束，包括但不僅限於風格、語氣、字數、禁止事項等等。

例如：

# 輸出要求

- ** 嚴格遵循格式 **: 嚴格輸出由`鍵：值`對、逗號`,`和分號`;`組成的字符串。

- ** 純淨輸出 **: 不要包含任何前綴、解釋、引號、空格或任何其他多餘的文字。

- ** 空處理 **: 如果指令與谷歌的財務或市場數據完全無關，輸出 NO_QUERY`。

E - Examples（示例）：有沒有可以參考的例子？

如果用户的要求比較複雜或獨特（比如某一個細分領域），那麼提供給 AI 一個具體的例子會是比較高效的溝通方式，這有助於讓 AI 迅速理解用户期望的格式和風格，而不是通過多輪對話讓 AI 不斷去嘗試。

例如：

# 示例

* * 用户説 *: "谷歌的收入和市值是多少？"

* * 你的思考 *: 用户直接要 “營業收入” 和 “市值”。這是基礎指標。

* * 最終輸出 *: 營業收入，市值

S - Steps（步驟）：完成任務需要分幾步？

對於較為複雜的任務，就輪到之前提過的 “思維鏈路” 出場了。一次把任務灌輸給 AI 通常得不到理想的結果，但如果能引導 AI 按照步驟思考和執行，就可以大幅提升輸出結果的邏輯性和準確性。

例如：

# 步驟

首先判斷用户指定的財務指標是否能夠從給定的財報中直接獲取；若不能獲取，再根據計算公式獲取相關指標；最後分析該指標的含義。

對於上面這套法則，還有一些需要注意的細節：

第一，提示詞的編寫並沒有嚴格的規定，上面的五個部分可以按需修改；

第二，給出的例子中可能包含{}、**、<>等符號，這些符號也是提示詞工程中的小技巧，每種符號都具有特定的功能，可以把一個純自然語言的段落轉變成一個類似於 “程序” 的指令集。

03 字節的 “提示詞工廠”

在明確提示詞的編寫流程後，就該思考這套方法的實用性了。

很明顯，如果按部就班地完成每個步驟，工作量已經接近於寫一篇作文。

換個角度來看，我們需要使用提示詞讓 AI 完成任務，而寫提示詞恰好就是一項任務。

因此，我們可以再偷個懶，乾脆讓 AI 把提示詞也幫着寫完得了。

字節在 6 月推出了一款名為 PromptPilot 的產品，是面向大模型應用的全鏈路優化平台。

平台介紹中提到，該產品不僅可以提供精準、專業、可持續迭代的提示詞，還可以覆蓋大模型開發從構想、開發部署到迭代優化的全過程。

該產品免費試用至 2025 年 9 月 11 日，鏈接：https://promptpilot.volcengine.com/home

眼見為實，下面我們來試用一下看看效果如何。

主界面 UI 看上去很簡潔，功能主要有三個：Prompt 生成、Prompt 優化和視覺理解 Solution。

由於本篇文章主要討論提示詞相關內容，因此只介紹前兩個功能。

圖：PromptPilot 使用流程圖

對於沒有提示詞編寫經驗的用户，可以直接在平台上生成結構化的提示詞：

圖：生成提示詞界面

任務描述並不需要太複雜，只要表達清楚就好，也不必擔心描述不夠精細，後面還可以進行調整。

這是平台生成的初版提示詞，雖然尚不完備，可能與用户的詳細需求仍然存在差異，但其效果已經遠比使用短句給 AI 下達命令要好。

接下來，需要驗證這份提示詞的效果究竟如何。點擊 “驗證 Prompt” 進入調優環節：

圖：選擇調優模式

PromptPilot 提供了兩種調優模式，評分模式類似於 “簡答題”，需要用户填寫分數、評價意見（可選）和理想回答（可選），GSB 比較模式則類似於 “選擇題”，需要用户對答案進行比較，並給出 Good、Same 和 Bad 的判斷。

提示詞的重要性我們已經提過很多次，因此更推薦選擇評分模式。

圖：調優界面

選擇評分模式進入調優界面後，需要進行幾項設置：

首先，如果用户覺得提示詞無法滿足需求，可以使用 “一鍵改寫 Prompt”。

然後，在提示詞中可以看到熟悉的標識{{AI_NEWS}}，表示這裏需要填入相關領域的 AI 新聞。點擊 “填寫變量”，將新聞內容粘貼進去即可。

PromptPilot 還提供了一項很貼心的服務：AI 生成變量內容。

也就是説，如果我們並沒有足夠的新聞，就可以讓 AI 現編一條。這個功能在不需要信息真實性的情況下能幫上大忙，快速構造數據集就靠它了。

不過，我們需要真實新聞才能發佈文章，而有些聰明的模型可以識別出虛假的新聞，因此這裏還是不要使用 AI 生成變量內容。

最後，在模型回答窗口中可以自由選擇大模型版本，其中 DeepSeek 和豆包的部分版本免費。

這裏，考慮嘗試一下豆包的新模型：Doubao-Seed-1.6-Thinking，開啓深度思考功能。

完成上述設置後，點擊 “保存並生成模型回答”，平台會調用選擇的模型，按照給定的提示詞開始編寫文章。生成文章後，需要點擊 “添加至評測集”。

只靠一篇文章是無法衡量提示詞質量的優劣的，因此我們需要更多的數據來進行評判。

圖：評測數據集界面

與前面的操作相同，我們需要把新聞粘貼至評測數據集中的 AI_NEWS 一列。

點擊 “生成全部回答”，模型開始編寫對應的文章。

評分同樣可以由 AI 完成，點擊 “智能評分” - “AI 評分標準” - “生成評分標準” 即可獲得一套較為詳細的評分標準，用户可以在此基礎上進行修改或是直接使用。

開啓智能評分功能後，AI 在文章編寫文章後會自動生成評分及理由。需要注意的是，智能評分功能並不完善，經常出現全是滿分的情況，而這樣的評分對於調優 Prompt 沒有意義。

當然，這個環節也可以由我們手動完成，主觀的評閲意見能夠使文章的風格更接近於理想中的狀態。但新聞數量較多時，人工評閲的工作量還是有些過大。

這個時候，就又輪到 “老朋友” 工作流登場了。

既然 PromptPilot 是火山引擎的工具，而大模型我們又選擇了豆包，因此工作流我們也選擇字節系的 Coze 進行開發。

圖：AI 生成文章評分工作流

工作流的結構很簡單，開始節點接收兩個參數：news（原始新聞）和 article（AI 生成的文章）。

大模型節點用來進行評分，同樣將上面兩個參數作為輸入，並開始編寫提示詞。

既然研究 AI，當然提示詞也要讓 AI 來生成。需要注意的是，適當提高文章評分的區分度，有助於提示詞的優化。

因此，我讓 AI 生成了一份評分標準，並告知需要嚴格評判產生區分度，並生成了對應的結構化提示詞。

圖：AI 評分提示詞 |

提示詞編寫完成後，大模型節點的模型同樣選擇豆包·1.6·深度思考·多模態。

現在，只需要運行工作流，把新聞原文和 AI 生成的文章粘貼進去就可以得到評分及打分理由，完成後粘貼到 PromptPilot 中即可。

最終，數據集包含 36 條新聞及對應文章，開始進行提示詞的智能優化。

圖：智能優化界面

可以看到，平台推薦的數據是 50 條以上並給出理想回答，但這並非必須。只有評分是必須項。

智能優化環節花費了約 17 分鐘，迭代了 28 次，結果如下：

圖：智能優化結果

這樣，我們就得到了一份優化後的提示詞，相比上一版提示詞增加了更多任務描述和細節。

下拉該頁面還可以看到根據新的提示詞生成的文章，這裏就不一一展示了。

但還請不要忘記，提示詞工程並非到此而止，而是可以繼續通過添加數據、評分和理想回答的方法進行下一輪優化，直到它能夠完全滿足需求。

至此，我們已經掌握了一套標準化的用於優化提示詞的方法。

而事實上，這個過程就是我們常常提到的——強化學習。

04 結語

回到最初的問題：為什麼同樣的 AI，在不同人手中會產生天壤之別？

答案正是提示詞工程——與 AI 高效寫作的藝術與科學。

它並非計算機行業的專利，而是未來人們需要具備的基礎素養。

掌握它，意味着駕馭 AI，擁有放大自身價值的能力。

然而，知易行難。“知道” 結構化提示詞的重要性，與 “做到” 在每次向 AI 提問時熟練運用，中間還存在一道不那麼容易跨越的鴻溝。

坦誠地説，字節跳動當前版本 PromptPilot 遠非完美，也絕非終點。

請不要指望它能一鍵生成滿足所有精細化需求，同時還擁有絕佳效果的 “神級” 提示詞。

在面對較為複雜或創新需求的任務時，我們會清楚地感受到它提供的框架仍然有所侷限。

同時別忘了，它也有一定的使用門檻，需要我們花時間去學習、去配置、去適應。

但與此同時，這也揭示了 PromptPilot 的核心價值：它並非 “答案機”，而是 “思維矯正器”。

在學習和使用 PromptPilot 的過程中，它強行打破了我們用大白話隨口一問的慣性。

它的結構化編輯器更像是一個 “思維腳手架”，也許本身並不美觀，但能保證搭建出的建築地基穩固、結構完整。

而它的存在，能夠幫助那些面對 AI 聊天框總是無從下手，或是因 AI 輸出質量不佳而苦惱的用户，完整從 0 到 1 的初次躍遷。

它的目標用户，並非那些隨手寫出上百字的複雜指令的提示詞工程師，而是每一個希望告別低效提問，着手建立系統化和結構化思維的 “學生”。

最終，在熟練掌握思維模式後，我們可能不再使用 PromptPilot，但已經具備了與 AI 高效對話的底層能力。

而這，正是 AI 時代真正的通行證。