儘管亮相時被 OpenAI 壓了一頭，但谷歌一直在悄悄迭代 Gemini 大模型，和 OpenAI 最新大模型 GPT-4o 的差距已經顯著縮小。最新測試結果顯示，Gemini 1.5 Pro/Advanced 在綜合測試中排名第 2，逼近 GPT-4o，輕量版 Gemini 1.5 flash 排名第 9，超越 Llama-3-70b，接近 GPT-4。
相比 4 月份的版本，Gemini Pro 和 Flash 的能力有明顯加強。且上下文長度可以達到 100 萬 token，遠遠超出 GPT-4 的 12.8 萬 token。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0de30a9d-3e46-422f-bef9-be686701e9c0.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="808" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/0de30a9d-3e46-422f-bef9-be686701e9c0.png"/>
Gemini 的中文能力更是驚豔，在中文測試中，Gemini Pro 和 Advanced 雙雙超越 GPT-4o，分別排在第一、第二位。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6ca8fb53-13a5-4502-b1cf-aeea15ec1857.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="892" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6ca8fb53-13a5-4502-b1cf-aeea15ec1857.png"/>
此外，在 Hard Prompts 測試中，Gemini 同樣名列前茅。在 Hard Prompts 測試中，大模型需要面對那些更具挑戰性的問題，Gemini 1.5 Pro 在這一測試中排名第二，僅次於 GPT-4o.
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b309d165-407a-4de6-9455-14b2021f2c46.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="874" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b309d165-407a-4de6-9455-14b2021f2c46.png"/>
從大模型置信區間（Confidence Intervals）來看，Gemini 的測試結果也名列前茅。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b0148ef6-e1f5-4fcf-888b-62fdd10bfe23.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="757" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b0148ef6-e1f5-4fcf-888b-62fdd10bfe23.png"/>
值得一提的是，兩週前，在 Google Gemini 更新撞檔 GPT-4o 發佈時。Gemini 因為羸弱的能力幾乎引來了羣嘲。根據多家科技博客的測評，即使谷歌已經對 1.5 Pro 進行了數月的改進，但從常識推理到多模態能力和代碼能力，仍然無法與 OpenAI 最新的 GPT-4o 模型相媲美。唯一亮點就是更大的上下文窗口。如今谷歌 Gemini 取得了如此神速的進步，顯示出 AI 界屆黃埔軍校仍然有深厚的技術底藴。

愛文思控股

谷歌-A

谷歌-C

在中文測試中，Gemini Pro 和 Advanced 雙雙超越 GPT-4o，分別排在第一、第二位。

谷歌 Gemini“悄悄變強”，快速縮小與 GPT-4o 差距，中文更是完成了超越！