Google Turboquant對storage的影響
剛剛看到 Google Turboquant的發佈,對storage股有直接影響,在這評估一下影響有多大。 第一,Turboquant是什麼?AI回答是 Google的TurboQuants(TurboQuant)是Google Research最近發布的一系列AI壓縮算法,用於大幅降低大型語言模型(LLM)的key-value(KV)緩存記憶體需求。 anduril TurboQuant核心功能 TurboQuant透過PolarQuant和Quantized Johnson-Lindenstrauss(QJL)等技術,將高維向量壓縮至3位元,實現KV緩存至少6倍記憶體縮減,同時注意力計算速度最高提升8倍,且零精度損失。 x +1 測試顯示,在Llama-3.1-8B和Mistral等模型上,長上下文任務(如Needle-in-a-Haystack)維持完美準確率,H100 GPU上加速顯著。 該技術無需模型重新訓練,適用於向量搜尋和AI推理瓶頸解決。 第二,究竟有多大影響?根據下面AI的問答,我估計如下 - 大概只對HBM storage有不大於1倍需求影響,不是6倍,因為它不是過程全部。估計最多只影響1/3量的需求 - 對SSD,或其他外在storage影響不大 - 對inferencing有影響,但幫不了training - 更有效率利用memory和加速了,可以用更大模型,或同時走多個job,這**不**代表整體需求減少 - 就像更好的algo,亦如deepseek moment, 不代表需求會大跌 - 這方法是general,每家AI公司每個模型都可以用,同一起跑綫,所以,軍備競賽仍然繼續。 看看AI對我問題的回答 估计一个完整inference过程,如现在解答问题,整体会快多少 Completed 2 steps 在典型解答問題場景(如生成式inferencing),TurboQuant整體時間預計縮短20-50%,視上下文長度而定。 anduril 估計依據 標準LLM pipeline:prefill 10%、decode 90%(生成主導),decode中注意力佔30-60%。 research +1 注意力logits計算加速8x(H100),短上下文總減23.6%、長上下文減47.2%。 anduril 如現在聊天(中等s...