新的 GPU 策略使 AI 推理成本降低了 40% - 延遲減少了 50-100 毫秒,通過量化和解碼策略,每個 token 的成本最多降低了 5 倍

Unusual Whales
2026.01.22 16:50

人工智能公司 Together 最近披露,他們成功實施了技術,將推理延遲減少了 50-100 毫秒。這是通過利用量化和智能解碼方法實現的,導致每個令牌的成本顯著降低,最高可達五倍。這些改進對於優化人工智能解決方案的性能和成本效益至關重要。