2月10日,Sam Altman在社交平臺表示:OpenAI每天產生約1000億的文字數據。
2月16日,OpenAI推出Sora。通過文本指令,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。以Sora生成的《東京街頭》視頻為例,視頻大小為46.1MB。
可以預見,此后,Sora每天產生的數據量將更加驚人。
Sora來了 呼喚卓越存力
生成式AI新應用對算力、算法要求高,對存儲底座同樣要求高。而且隨著數據量的激增,存儲成本也在上升。
OpenAI公布的Sora技術文檔顯示,在訓練Sora時需要先用預訓練模型把大量的、大小不一的視頻源文件編碼轉化為統一的patch表示,再把時空要素提取作為transformer的token進行訓練。單就開展這項工作,就對存儲的性能、容量以及數據的處理速度提出了極高的要求。同時,技術文檔也說明了,數據集越大,大模型效果越好。
這就意味著,如果想要訓練用戶自己的大模型,必須有一個高性能的存儲底座來支撐。而一套真正符合AI訓練需求的存儲系統,應該是在提供卓越性能的同時,不給用戶帶來過多的經濟壓力。高性能可以確保AI訓練的數據快速讀取和寫入,從而提升整體訓練效率;同時要降低存儲整體成本,讓高性能存儲“飛入尋常百姓家”。
OpenAI官網Sora生成的視頻截圖
為AI而生 深信服EDS存儲實現訓推一體
不久前,我們發布了統一存儲EDS 520 版本,是一款專為AI大模型打造的統一存儲平臺,可以實現數據采集、標記、訓練、推理和歸檔的全流程承載。
一套存儲滿足AI大模型開發全流程的數據需求
基于NFS+技術優化的存儲系統,通過RDMA技術、多路徑并行訪問以及多級緩存機制,在4K小文件混合讀寫IOPS和1M大文件混合讀寫吞吐方面,分別達到行業領先水平的1.7 倍和5.7倍,3節點吞吐達到120GB/s,RDMA多路徑帶寬性能比TCP單路徑提升將近50倍,將訓練階段GPU平均利用率從傳統存儲的30%提升至70%。
這樣的設計不僅提高了大模型處理數據的效率,結合更高的讀寫速度和OPS,讓大模型在讀取或輸出視頻數據時能達到更快速度;而且增強了系統的靈活性和擴展性,使大模型應用可以應對各種類型和規模數據的處理需求,讓大模型訓練可以更高效地管理和存儲數據。
此外,在高性價比上,深信服EDS存儲實現了單TB可用容量成本降低50%,幫助用戶降低了AI模型訓練的總體成本。實現硬件成本降低的同時,還基于深舟數據管理平臺對數據的高效壓縮和管理能力,64GB可以承載億級以上規模小文件的高速讀寫。
AI訓練數據命中率達90% 清華大學的高性能存儲實踐
清華大學智能產業研究院是一所面向自動駕駛、生物計算、綠色計算等領域進行探索的國際化、智能化、產業化研究機構。
在其開展AI訓練工作過程中,數據規模達到數十億,并且還在不斷增長,出現了數據調閱延時高、GPU訓練效率大打折扣等問題。采用深信服EDS存儲后,AI訓練數據命中率達到90%,小文件讀寫時延降低到us級,百億規模樣本數據可以極速處理,有效保障AI訓練過程中訪問數據的效率,并大幅縮短了科研中的AI訓練時間。
隨著AI向著大模型多模態演進,AI訓練伴隨高并發數據分析,且生成式AI新應用急劇爆發,亟需高性能的存儲底座來支撐。深信服EDS存儲520版本正是為AI而生的全新一代存儲產品,我們希望為千行百業的大模型開發提供極致性能的存力底座,讓數字化惠及千行百業。