
$谷歌-C(GOOG.US)
如果谷歌的股民人人都是这个质素,建议先去修个人工智能学位再回来炒股。
TurboQuant 的直接冲击对象是 LLM 推理中的 KV Cache / 向量表示内存开销,不是手机里的内存。
Google 自己说的是:面向大模型和向量搜索的高维向量压缩,KV Cache 可做到约 3 个 bit,内存至少减少 6 倍,用 H100 跑 attention logits 最高 8 倍加速,这里头哪句话提到手机内存了😅
AI 系统的内存需求不只来自 KV Cache。训练、batching、参数加载、activation、HBM 带宽、分布式通信、数据中心存储、RAG 索引、日志、冷数据,全都还在。
单位推理成本下降,但总推理需求可能上升。
这就是典型的杰文斯悖论,效率提高,不一定让资源总需求下降,反而可能让使用量暴增。
本文版权归属原作者/机构所有。
当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。



