在文生視頻的SORA引爆全球各界后,相關的算法、算力被頻頻提起。但是,大多數組織卻不約而同地忽略了AI大模型落地于實際業務中最為基礎和關鍵的一點——你的企業級存儲,是否還“能用”?
這里的“能用”,當然不僅僅是指存儲擁有足夠大的容量,也更是指存儲的性能、數據處理的速度等能否達到AI大模型訓練的極高要求。在這場搶占AI先機的競賽中,一個“不能用”的企業級存儲不僅會大大增加大模型訓練的整體成本,甚至還會導致大模型被迫“夭折于襁褓中”。
一個“不能用”的存儲,將如何掣肘AI?
在AI領域,有一句俗語可以很好地概括數據與模型之間的關系:“Garbage in, Garbage out”,顧名思義,數據的輸入質量決定著最終模型的輸出質量。如果沒有高質量、大規模的數據輸入,無論多么先進的算法、多么龐大的算力,都無法帶來接近人類真實思維的大模型。
而這,就對數據的處理和存儲提出了更多挑戰——
根據國際知名分析機構IDC的分析,AIGC 的能力決定了它需要大量的非結構化數據進行應用,這將導致集體的過濾數據量很容易達到 PB 級,隨著應用場景的深入,推理要求將對數據基礎設施的性能提出更高要求。
比如,在最初期的數據采集和處理階段。訓練者為了避免大模型幻覺*,往往需要更廣來源、更多樣的數據支撐訓練(比如 OpenAI訓練GPT-4的參數量達到了1萬億級別),存在多個來源同時輸入、統一輸出到集中存儲池管理的情況,假如存儲的讀寫性能和處理速度非常一般,將很可能缺失甚至丟失數據,將直接影響模型訓練的正確率。(*大模型“幻覺”指模型生成不正確、無意義或不真實的文本的現象。)
又比如,在訓練階段,往往需要高性能的GPU或者加速器等來執行一系列的數學運算,對計算和存儲資源要求非常高。越龐大的模型訓練,越有可能頻繁發生讀寫延遲、訓練中斷等故障,對存儲底座的穩定性和性能有極高的要求。
因此,一個“不能用”的存儲,將會在大模型訓練的方方面面掣肘AI落地,不僅直接影響到了模型訓練的周期、命中率等,也大大增加了包括時間在內的總體訓練成本。
為AI而生,向真正“可用好用”的存儲進發
AI大模型涉及的數據采集、標注、訓練、推理、歸檔等場景,帶來了數據基礎設施在異構數據融合、持續低延遲與高帶寬和EB級大容量存儲等方面的新需求。
一個真正在AI場景下“可用好用”的存儲,不僅僅需要以“一套統一的數據存儲底座”來滿足AI大模型采、標、訓、推、歸檔全過程的需求,以及多業務部門、多環境的存儲需求,也要在性能、穩定性上有卓越的表現。
一個“可用好用”的企業級存儲能為AI大模型訓練帶來更流暢、更高效的體驗,越來越多的用戶樂意為此“買單”。IDC報告顯示,未來五年中國“軟件所定義的市場”將以 8.3% 的復合年增長率增長;在 2027 年市場容量預計接近 38 億美元。IDC強調,AI風口將推動企業級存儲市場增長,業界整體保持平穩增速。
目前,部分AI領域的探索者們已經先行開啟了面向AI的未來存儲實踐。例如清華大學智能產業研究院已經率先在AI訓練的工作中使用了一款專門為AI大模型打造的統一存儲平臺——深信服EDS 520 版本。在清華大學智能產業研究院日常開展AI訓練工作過程中,數據規模常常高達數十億,并且還在不斷增長,出現了數據調閱延時高、GPU訓練效率大打折扣等問題。在采用深信服EDS存儲后,AI訓練數據命中率達到90%,小文件讀寫時延降低到us級,百億規模樣本數據可以極速處理,有效保障AI訓練過程中訪問數據的效率,并大幅縮短了科研中的AI訓練時間。
AI未來已至,如果不想做“繁花”時代的旁觀者,不如從打造面向AI的未來存儲開始,一步步成為Game changer!