
$谷歌-C(GOOG.US)
如果谷歌的股民人人都是這個質素,建議先去修個人工智能學位再回來炒股。
TurboQuant 的直接衝擊對象是 LLM 推理中的 KV Cache / 向量表示內存開銷,不是手機裏的內存。
Google 自己説的是:面向大模型和向量搜索的高維向量壓縮,KV Cache 可做到約 3 個 bit,內存至少減少 6 倍,用 H100 跑 attention logits 最高 8 倍加速,這裏頭哪句話提到手機內存了😅
AI 系統的內存需求不只來自 KV Cache。訓練、batching、參數加載、activation、HBM 帶寬、分佈式通信、數據中心存儲、RAG 索引、日誌、冷數據,全都還在。
單位推理成本下降,但總推理需求可能上升。
這就是典型的傑文斯悖論,效率提高,不一定讓資源總需求下降,反而可能讓使用量暴增。
本文版權歸屬原作者/機構所有。
當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。



