本文作者：李笑寅來源：硬 AIOpenAI 搶發重磅新品次日，谷歌也 “放大招” 直接對壘 GPT-4o。當地時間 5 月 24 日週二，年度 Google I/O 開發者大會上，谷歌 CEO Sundar Pichai 發佈了一系列與 AI 有關的新品和新功能，包括：AI Overviews 技術生成摘要功能、Gemini 1.5 Pro 上下文窗口拓寬至 200 萬 Tokens、多模態 Gemini Nano 模型、第六代 TPU 芯片 Trillium 等。圍繞 AI 搜索引擎方面，谷歌帶來了一系列更新。值得一提的是，谷歌發佈了一款多模態 AI 項目 Astra，用來處理音頻、視頻等多模態的輸入內容。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/353f116792114f64125e2355e8c3d8dd?x-oss-process=style/lg" alt="" width="640" height="360" original-src="https://pub.pbkrs.com/uploads/2024/353f116792114f64125e2355e8c3d8dd"/></figure>演示視頻顯示，Astra 可以通過手機攝像頭辨別物體，還能夠識別所處位置。<figure class="image"><img src="https://pub.pbkrs.com/uploads/2024/7b764898abf98cda3bc62ae346659211?x-oss-process=style/lg" width="509" height="366" original-src="https://pub.pbkrs.com/uploads/2024/7b764898abf98cda3bc62ae346659211"/></figure>不論是定位還是功能，谷歌這款 AI 助手的到來顯然對 GPT-4o 產生了威脅。華盛頓大學專門研究在線搜索的教授 Chirag Shah 對此評論道：<blockquote>“最終，你會有一個真正瞭解你的代理，可以為你做很多事情，並執行跨任務和跨領域的命令。”</blockquote>谷歌還在發佈會上表示，今年夏天開始，Gemini 也將支持語音實時交互，並在今年晚些時候上線實時視頻交互。未來幾個月內，谷歌也將推出類似於 GPTs 的自定義 AI 助手功能，叫做 Gems，能夠與整套 “谷歌全家桶” 聯動。<h2 id="6bwp68lwu">第一個 AI“殺手級應用”？</h2>從 OpenAI 和谷歌的發佈會來看，GPT-4o 目前只能處理靜止圖像，但 Astra 可以處理視頻，這是一個顯著的優勢。並且，谷歌在發佈會上還對 Gemini 1.5 Pro 大模型進行了諸多更新，使其可以擁有更自然的聲音、更長的對話、對音頻和圖像的更好理解、更多的邏輯推理和規劃能力，以及更好的代碼生成。不過，GPT-4o 背後的技術創新同樣令人深刻。據悉，該原生多模態模型能夠直接接收/生成語音，而無需經過語音 - 文字的轉化過程，大大縮短了運行週期；並且在執行任務所需的參數量也大幅降低，從而提高運行速度、縮減成本。就當前進展而言，很難判斷 OpenAI 和谷歌的 AI 助手中誰更勝一籌，但二者對該領域的重視程度是無疑的。據媒體此前報道，蘋果也在考慮在其手機語音助手 Siri 中引入 GPT 技術，以支持 AI 功能。科技巨頭們相繼發力，是否意味着 AI 助手會成為下一個 AI“殺手級應用”？答案尚不肯定。有分析指出，雖然目前 GPT-4o 和 Astra 展示出的用例都很有趣，但 “幾乎沒有一個” 是幫助人們完成工作的。也就是説，這兩款 AI 助手看似功能強大，但實際效用仍是未知。分析稱，如果 AI 助手後續能夠更理解用户的個人偏好，可能其 “代理” 屬性能夠有所增強，幫助用户真正完成日常工作，比如網購、預訂、填表……<h2 id="ot0trxy9">AI 手機下一步需要解決什麼？</h2>雖然 OpenAI 和谷歌的 AI 助手可以直接通過語音、視頻等形式運行，但有觀點認為，二者仍不能被稱作是一個 AI 助手。原因在於，GPT-4o 和 Astra 雖然都可以回答問題並執行搜索工作，但它們不能真正執行任務。華爾街見聞此前提及，OpenAI 的在發展邊緣 AI 方面的痛點即為：端側應用權限、系統級權限。這可能也是它尋求與蘋果合作的原因之一。就目前而言，只要 AI 助手產品還沒有真正接入到手機系統中去，Siri 之類的語音助手的地位就無法被撼動。有觀點指出，確定性要比 AGI（通用人工智能）更重要，靠譜才是第一的。該觀點認為，即使是目前最好的 AI 系統，也沒有做足準備真正實現個人助手的功能；而手機自帶的語音助手雖然沒那麼 “有趣”，但至少不會出錯。

谷歌-C

谷歌-A

OpenAI

有觀點認為，兩款 AI 助手看似功能強大，但實際效用仍是未知。

谷歌、OpenAI 指明方向！第一個 AI“殺手級應用”、AI 手機必爭之地？