Kenzolife

剛剛看到 Google Turboquant的發佈，對storage股有直接影響，在這評估一下影響有多大。第一，Turboquant是什麼？AI回答是 Google的TurboQuants（TurboQuant）是Google Research最近發布的一系列AI壓縮算法，用於大幅降低大型語言模型（LLM）的key-value（KV）緩存記憶體需求。 anduril TurboQuant核心功能 TurboQuant透過PolarQuant和Quantized Johnson-Lindenstrauss（QJL）等技術，將高維向量壓縮至3位元，實現KV緩存至少6倍記憶體縮減，同時注意力計算速度最高提升8倍，且零精度損失。 x +1 測試顯示，在Llama-3.1-8B和Mistral等模型上，長上下文任務（如Needle-in-a-Haystack）維持完美準確率，H100 GPU上加速顯著。該技術無需模型重新訓練，適用於向量搜尋和AI推理瓶頸解決。第二，究竟有多大影響？根據下面AI的問答，我估計如下 - 大概只對HBM storage有不大於1倍需求影響，不是6倍，因為它不是過程全部。估計最多只影響1/3量的需求 - 對SSD，或其他外在storage影響不大 - 對inferencing有影響，但幫不了training - 更有效率利用memory和加速了，可以用更大模型，或同時走多個job，這**不**代表整體需求減少 - 就像更好的algo，亦如deepseek moment, 不代表需求會大跌 - 這方法是general，每家AI公司每個模型都可以用，同一起跑綫，所以，軍備競賽仍然繼續。看看AI對我問題的回答估计一个完整inference过程，如现在解答问题，整体会快多少 Completed 2 steps 在典型解答問題場景（如生成式inferencing），TurboQuant整體時間預計縮短20-50%，視上下文長度而定。 anduril 估計依據標準LLM pipeline：prefill 10%、decode 90%（生成主導），decode中注意力佔30-60%。 research +1 注意力logits計算加速8x（H100），短上下文總減23.6%、長上下文減47.2%。 anduril 如現在聊天（中等s...

Search This Blog

Kenzolife

Posts

Google Turboquant對storage的影響