锦缎研究院
2025.07.21 00:41

DeepSeek、千問、混元、文心、Kimi 與智譜,六大國產大模型,誰是最強 “金融分析師”?

portai
我是 LongbridgeAI,我可以總結文章信息。

每當我們翻閲財報時,可能只想或許關鍵的財務信息,但總是受到財報中紛繁複雜的業務表述、冗長的管理層發言的干擾,需要耗費大量精力去甄別有用的財務信息。

特別是港股美股,國內的大多數金融軟件,都是基於國內市場財務準則構建的信息展示,面對非標財務報表,總會出現部分摘取科目的錯誤。

進入 AI 大模型時代之後,這樣的財務研究障礙或將被攻克——畢竟模型最擅長的,就是語言文字的總結歸納和數據的計算。

本文之中,我們即着手對六大國內主流大模型進行評測,用以探究下其財報分析能力,究竟發展到什麼水平,又存在怎樣的問題?

閲讀提示:鑑於評測內容過於硬核與篇幅較長,獲取最終評測結果可直接拉至文報告底部 “結論” 部分。 

01 評測對象、邏輯與標準

評測對象我們挑選了國內主流的 6 大模型:

深度求索(DeepSeek-R1)

阿里千問(Qwen3-235B-A22B)

騰訊混元(Hunyuan-T1)

月之暗面(Kimi-K1.5)

百度文心(ERNIE-X1-Turbo)

智譜(GLM-4-Plus)

評測邏輯方面,我們採取了 “分層進階” 的問題構建,要想成為一個優秀的 “AI 財務分析師”,必須具備多層次的能力。

因此,我們設計了四個層級的測試,六個維度的問題,從基礎到高級,逐步深入:

第一層:基礎信息提取

AI 必須具備的最基本的能力,模型必須能夠準確讀取財報。如果數據提取都出現錯誤,那麼分析將變得毫無意義。

第二層:分析計算與核驗

計算是模型最擅長做的事情,但模型還要會使用數據,從 “閲讀器” 成長為 “分析員”。 

第三層:歸納推理與洞察

模型需要看得更深。要能超越字面信息,發現文字背後隱藏的邏輯。因此圍繞第三層,我們設計了兩個考核維度,分別是 “高效的歸納和提煉能力” 以及 “敏鋭的風險和情感識別能力”。

第四層:戰略總結與外部知識整合

頂尖的分析需要行業視野,因此要理解企業的戰略表述。同時知識庫中有限的內容是不夠的,模型需要連接外部世界,進行橫向比較。為此我們同樣設計了兩個考核維度:“企業策略與定位的識別” 和 “外部信息搜索與整合”。

標準層面,我們對每一個模型都輸入相同的 prompt(後文中有詳細提示詞信息),來保持規則的統一。

02 六項財務分析能力橫評

1)精準的數據提取能力——模型基礎功底,精準才是王道

模型能否像一位嚴謹的會計師,從 PDF 財報中分毫不差地提取關鍵財務數據、特定費用項目以及管理層提到的業務成就。此項能力的表現,直接決定了後續所有分析的可靠性。我們將重點考察其準確率和穩定性。

Prompt

Test1.1:請根據提供的 “美團-2025 年第 1 季度” 財務報告,提取以下關鍵財務數據,以表格形式返回結果:1. 營業總收入;2. 營業成本;3. 淨利潤。

Test1.2:請找出並列出以下費用項目的具體金額,以表格形式返回結果:1. 研發費用;2. 銷售及市場推廣費用。

Test1.3:請仔細閲讀 “美團-2025 年第 1 季度” 財務報告中的 “業務回顧及展望” 部分,總結出管理層提到的本季度最重要的三個業務亮點或成就。|

評測結論:

本文評測的所有模型都順利完成了指定核心財務數據和特定項目費用的提取。

其中,ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5 和 Qwen3-235B-A22B,還貼心地將財報中的單位由千元轉變為億元,更加貼合用户習慣。

對於非財務關鍵信息,模型的聚焦點則略有不同,但大多集中於核心本地商業收入和利潤的強勁增長、閃購和即時零售業務的快速發展、餐飲外賣業務的持續優化以及騎手權益保障體系的升級等方面。

2)嚴謹的計算與核驗能力——不只會計數,更要會解釋

在提取數據後,模型能否扮演 “審計員” 的角色?這包括兩個層面:

一是能否運用正確的公式,基於提取的數據計算出毛利率、流動比率等核心財務指標並解釋其含義;

二是在面對管理層的業績聲明時,能否獨立進行數據核查,判斷其真偽。這是對模型邏輯推理和 “批判性思維” 的直接考驗。

Prompt:

Test2.1:根據 “美團-2025 年第 1 季度” 財務報告中的數據,計算該公司的毛利率。請列出計算公式、使用的具體數據,並解釋這個毛利率數值反映了公司怎樣的盈利能力。

Test2.2:請使用 “美團-2025 年第 1 季度” 財務報告中的資產負債表數據,計算該公司的流動比率。請説明你使用了哪些數據進行計算,並解釋該比率所揭示的公司短期償債風險。

Test2.3:管理層在報告中聲稱 “核心本地商業的經營利潤率同比提升 3.2 個百分點至 21.0%”。請根據財報數據核實這一説法的準確性,並説明你的判斷依據。

評測結論:

六個模型中,僅有 Kimi-K1.5 未能通過這一項測試

Kimi-K1.5 明明已經獲取到正確的營業收入和營業成本,但在計算時卻出現錯誤,正確答案應為 37.4477,而該模型得出的答案為 37.49。

圖:Kimi-K1.5 計算毛利率

與此同時,Kimi-K1.5 在計算流動比率時,將 “簡明綜合財務狀況表” 中的 “現金及現金等價物” 錯誤識別為 “流動資產總額”,導致另一處計算錯誤。

圖:Kimi-K1.5 計算流動比率

而財務比率的解釋,各模型均給出了上述財務比率的定義以及短期償債能力穩健的結論

除此之外,不同模型給出的其他信息也有所不同:

DeepSeek-R1:美團資產結構的優勢、風險揭示和需關注的隱患;

ERNIE-X1-Turbo 和 GLM-4-Plus:未給出其他多餘信息;

Hunyuan-T1:安全邊際充足、資產流動性結構優勢、流動負債可控及潛在風險點;

Kimi-K1.5:盈利能力較強、成本控制有效、業務結構優化等盈利能力反映;

Qwen3-235B-A22B:盈利能力、成本控制能力的解釋及行業對比。

數據核驗方面,各模型均正確計算了 2024 年和 2025 年第一季度的經營利潤率驗證了提示詞中的給定説法

值得注意的是,DeepSeek-R1 還給出了業務意義,而 Hunyuan-T1 則附帶了潛在風險提示。

3)高效的歸納與提煉能力——從 “複製粘貼” 到 “提煉精華”

財報信息繁雜,能否為不同受眾提煉核心要點,是衡量 AI 效率的關鍵。

本項能力考察模型能否像一位資深編輯,既能為普通投資者撰寫一份通俗易懂的 200 字業績摘要,也能精準概括出管理層在 “討論與分析” 部分提到的主要挑戰。

我們將評估其摘要的準確性、完整性和信息價值。

Prompt:

Test3.1:請面向一位普通的國內投資者,用不超過 200 字,總結這份財務報告最重要的三個結論。

Test3.2:請總結 “管理層討論及分析” 部分提到的公司面臨的主要挑戰。

評測結論:

整體表現摘要方面,各模型都能夠準確地以數據為支撐給出正確結論

其中,DeepSeek-R1、Hunyuan-T1、Kimi-K1.5 和 Qwen3-235B-A22B 能夠將結論分條進行羅列,結構層次相比另外兩個模型將結論放到一段話中更加清晰。

DeepSeek-R1 還展現出了另外一個亮點,即使用 “賺錢能力飆升”、“家底厚抗風險” 等通俗易懂的語言風格

特定章節摘要方面,各模型都展現出了良好的信息定位準確性和歸納與條理性,能夠準確定位原文位置對公司面臨的挑戰進行邏輯歸納與分類,以清晰的分點闡述形式呈現,具備較強的可讀性。

其中,DeepSeek-R1、ERNIE-X1-Turbo 和 Qwen3-235B-A22B 都在回答過程中展示了相關數據,使其結論更具説服力,而 DeepSeek-R1 還額外標註了信息來源。

對於信息全面性,GLM-4-Plus 雖然給出了多種答案,但由於缺乏具體依據支撐,內容略顯空洞;而 ERNIE-X1-Turbo 則一如既往地延續了簡練的回答風格。

4)敏鋭的風險與情感識別能力——讀懂字裏行間的 “弦外之音”

頂尖的分析師能 “讀出字裏行間的意思”。我們通過本項能力,測試模型是否具備這種高級認知能力。

它能否識別出財報中未明説但隱含的業務風險;能否綜合業績和管理層措辭,對整份報告傳遞出的整體情緒基調(樂觀、謹慎、悲觀)做出準確判斷。

Prompt

Test4.1:財報是否暗示了任何其他潛在的業務風險?請舉例説明。

Test4.2:綜合整份財報的業績數據和管理層的措辭,你認為這份報告向投資者傳遞的整體基調是樂觀、謹慎還是悲觀?請給出你的判斷,並提供至少 2 個理由。

評測結論:

在分析潛在業務風險時,除 Kimi-K1.5 以外的模型都能夠根據財報中提及的説法分條列舉潛在風險

Kimi-K1.5 則從宏觀角度出發,根據美團的主營業務進行分析,並未注重於財報中隱藏的信息。

圖:Kimi-K1.5 分析潛在業務風險

此外,Kimi-K1.5 在最初的回答中一次給出了 50 種風險,令人疑惑。

DeepSeek-R1、Hunyuan-T1 和 Qwen3-235B-A22B 給出的回答最為清晰,使用固定的結構並明確給出信息來源,令用户一目瞭然,快速明確風險。

DeepSeek-R1 首先按照 “風險種類” - “驅動事件” - “財報原文” - “風險點” 的結構進行闡述,此後給出財報中未明示但可推導的風險,最後給出結論和針對投資者的建議。

圖:DeepSeek-R1 分析潛在業務風險

Hunyuan-T1 和 Qwen3-235B-A22B 也採用了類似的回答結構,在準確把握核心矛盾的同時展現了強大的推理能力

ERNIE-X1-Turbo 和 GLM-4-Plus 採取了分段論述的方式,在每段中闡述了風險的產生原因和財報中的論據出處,內容完整但擴展內容不夠豐富,結構相比上述三個模型不夠清晰。

整體情緒判斷任務中,六個模型給出的整體基調均為樂觀

但 DeepSeek-R1、Hunyuan-T1 和 Qwen3-235B-A22B 都直接或間接採用了 “謹慎樂觀” 的説法。

GLM-4-Plus 和 Kimi-K1.5 雖然識別出了報告中提及的風險和挑戰,但認為瑕不掩瑜。

ERNIE-X1-Turbo 的回答中則沒有提到任何悲觀因素。

由此可知,DeepSeek-R1、Hunyuan-T1 和 Qwen3-235B-A22B 通讀全文並把控整體情緒的同時,對於細節的理解和大局觀都要略勝一籌,具備兼顧 “事實” 和 “情感” 的平衡能力,其結論也更加立體和可信。

5)企業策略與定位推斷能力——需要 “知識儲備” 的綜合題

這是從數據到洞察的飛躍。

模型能否結合財報數據和自身知識,扮演 “戰略分析師”,識別競爭格局;我們要求模型基於毛利率和研發投入等數據,推斷公司的競爭策略(是成本領先還是技術驅動),並綜合各項信息,評估其在行業中的市場地位(是領導者還是挑戰者)。

Prompt:

Test5.1:請根據 “美團-2025 年第 1 季度” 財務報告中對其業務的描述,並結合你的通用知識,列出該公司所在行業的主要競爭對手(至少兩家)。

Test5.2:請分析報告中的 “毛利率(Gross Margin)” 和 “研發費用佔收入的比例”。基於這兩個數據,並與你所知的該行業典型水平進行比較,推斷該公司更可能採取哪種競爭策略:是 “成本領先” 策略(追求高效率和低成本),還是 “差異化/技術驅動” 策略(追求產品獨特性和高附加值)?請説明你的推理過程。

Test5.3:綜合整份財務報告(包括其收入增長率、利潤率水平以及管理層的討論),請對該公司在本行業中的市場地位給出一個綜合評估。你認為它更接近於 “行業領導者”、“強有力的挑戰者”,還是一個 “特定的利基市場參與者”?請提供至少兩點證據來支持你的結論:

1. 一個來自財務數據(例如:高於/低於行業平均的利潤率或增長率)。

2. 一個來自 “管理層討論與分析” 部分的定性描述。

評測結論:

在識別競爭格局時,本文測試的六個模型均能準確列出當前市場中最主要的競爭對手(餓了麼、抖音本地生活服務和京東到家),並將具體業務線進行對應。

證明 AI 具備將財報中的業務描述與知識庫中的現實世界商業實體進行精準匹配

不過,各模型給出的回答思路有所不同。

DeepSeek-R1、GLM-4-Plus、Hunyuan-T1 和 Qwen3-235B-A22B 先列出競爭對手,再給出其競爭領域和依據。

ERNIE-X1-Turbo 和 Kimi-K1.5 先列出競爭領域,再給出主要競爭對手和競爭關係。

其中,DeepSeek-R1 和 Hunyuan-T1 在給出依據時引用了財報原文,使答案更具備説服力;其他模型則更多根據通用知識庫中的內容進行回答。

此外,Qwen3-235B-A22B 和 Kimi-K1.5 分別注意到國際競爭對手和自有外賣系統,是意外的亮點。

推斷競爭策略則是本次測評中難度最高的一項任務,需要 AI 模型完成 “數據提取” - “外部知識比對” - “商業理論應用” - “邏輯推理” 的完整閉環。

數據提取方面,GLM-4-Plus 使用了假設數據,從而導致後續分析中使用的毛利率數據錯誤,其結果不具備參考性;而其餘模型都提取到了正確的數據

圖:GLM-4-Plus 推斷競爭策略

在推理分析過程中,儘管行業平均數據不具備權威性,但除了 ERNIE-X1-Turbo 外的模型均以行業平均數據作為參照物進行了外部知識比對,有效提高了分析質量。

圖:ERNIE-X1-Turbo 推斷競爭策略

由於各模型的關注點有所不同,ERNIE-X1-Turbo、Hunyuan-T1 和 Kimi-K1.5 能夠基於上述比較和結論,生成一個“nuanced” 的結論,而非從提示詞中進行二選一。

至於對市場地位的評估,六個模型通過引用管理層討論原文、定量分析和定性分析等方式,全部給出了 “行業領導者” 的判斷,論證過程嚴密,具備較高的可信度,且模型之間基本不存在能力差異。

6)融合外部知識的聯網比對能力——能力邊界的拓展

最後,我們打破單一文檔的限制,考察模型連接現實世界的能力。

它能否通過聯網搜索功能,獲取競爭對手同一時期的財務數據(如毛利率、流動比率等),並進行準確的橫向比較。

Prompt:

Test6.1:2025 年第 1 季度,相比京東、阿里、百度和快手,美團的銷售毛利率這一指標排名如何?可通過聯網搜索獲取所需數據,但必須保證數據的準確性,禁止編造或假設數據,禁止使用虛假數據。

Test6.2:2025 年第 1 季度,相比京東、阿里、百度和快手,美團的流動比率這一指標排名如何?可通過聯網搜索獲取所需數據,但必須保證數據的準確性,禁止編造或假設數據,禁止使用虛假數據。

Test6.3:2025 年第 1 季度,相比京東、阿里、百度和快手,美團的資產負債率這一指標排名如何?可通過聯網搜索獲取所需數據,但必須保證數據的準確性,禁止編造或假設數據,禁止使用虛假數據。

此項能力直接關係到 AI 作為智能助手的實用價值。

評測結論:

本次評測的六個模型對於聯網信息的蒐集能力均不理想

對於銷售毛利率,尚有 DeepSeek-R1、ERNIE-X1-Turbo 和 Hunyuan-T1 能夠獲取五家公司的全部正確數據。

而流動比率和資產負債率則沒有任何一個模型能夠獲取全部正確數據。

DeepSeek-R1 和 ERNIE-X1-Turbo 的信息搜索能力相對最強,均獲得 10 項以上正確數據,前者不存在編造數據的情況,後者出現一次錯誤數據;

Kimi-K1.5 和 Qwen3-235B-A22B 的信息正確率位於中等水平,在計算流動比率和資產負債率時,存在一定未獲取到數據或編造數據的情況;

GLM-4-Plus 和 HunyuanT1 表現較差,尤其是在計算資產負債率時,頻繁出現編造數據的情況。

GLM-4-Plus 甚至只搜索到了一個與問題毫無聯繫的網頁並編造了 5 個虛假數據,給用户帶來極大困擾。

綜上所述,由於 AI 大模型在聯網搜索信息時幾乎不會去權威性數據渠道進行查詢,而互聯網中又充斥着大量的虛假錯誤信息。

AI 在這一領域還有很大的提升空間,在分析財報時會導致嚴重的錯誤,因此不建議使用聯網搜索功能以獲取重要財務數據

03 結論

為了更加直觀地展現評測結果,我們製作瞭如下表格:

在不考慮聯網信息搜索的情況下:

對於專業的投資者或財務分析人士,DeepSeek-R1、Hunyuan-T1 和 Qwen3-235B-A22B 都是值得信賴的 “助理”,在提升工作效率的同時,它們還可以提出有價值的洞察

對於普通用户或學生,ERNIE-X1-Turbo 也是不錯的選擇,完全可以勝任快速獲取核心數據和基本信息的功能。

但是,聯網信息搜索的準確性對於各模型來説都是現階段難以跨越的門檻,我們可以接受 AI 找不到信息,但不能接受 AI 把假信息當真信息回答。

最後,依舊我們略顯主觀的評測標準,統計了六大模型的財務分析能力雷達圖,供大家參考:

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。