“人工智能應用落地的‘高歌猛進’,是有人在‘負重前行’?!?/p>
王博士(化名)作為清華大學智能產業研究院自動駕駛課題組的一員,負責車路協同數據集的訓練工作。
課題研究中,王博士在電腦上要處理成千上萬張圖片:每一張圖片,道路軌跡、建筑形狀都不盡相同,一張圖片里可以拆分出好幾個標簽,這是他每天都要面對的“復雜”標注題。
“我們拿到這些文件之后,可以挖掘出很多信息,然后不斷地去進行標注。既要保證標注的效率,也要保證質量,這樣才能訓練出更精準的AI模型。”
圖片來源:清華大學智能產業研究院官網
自動駕駛,是清華大學智能產業研究院的研究課題之一。作為一所面向第四次工業革命的國際化、智能化、產業化研究機構,這里匯聚了來自全球的國際頂尖科學家、產業變革領袖和世界級研創團隊。
他們站在國際科技前沿,引領中國的科技創新,探索著自動駕駛、生物計算、綠色計算等領域的未解之謎。
AI“更懂”人類的背后,是大量數據訓練的結果。
時逢2022年的9月,清華大學智能產業研究院的多項科研工作都在和時間賽跑。就在這時,清華大學智能產業研究院的十多個課題組感受到了AI研究工作的“阻力”,“給圖像做標注時,圖片遲遲加載不出來;檢索圖片,系統也要卡很久?!?/strong>
原來,訓練AI數據集需要存儲大量數據,數據量很快就達到百TB級,而傳統存儲陣列在龐大的數據量面前“不堪重負”,沒有展示出最佳的性能、可擴展性等能力,導致科研工作者們在實際操作時遇到了卡慢問題。
面對存儲性能提升的難題,信服云EDS為清華大學智能產業研究院設計了高性能文件存儲方案。480TB存儲空間配置完成后,有了充足的存儲空間,科研工作者們可以放心地開展AI訓練的工作。
01一個可以盡情“馳騁”的存儲底座,
背后是信服云EDS“剛柔并濟”的實力。
在硬件上,信服云EDS采用通用的X86服務器搭配NVMe固態硬盤的組合形式,構建存儲高性能層,這使得訓練集群訪問數據時,可以優先經過高性能層的緩存加速,相較于傳統磁盤陣列,存儲性能有了大幅提升。
在軟件上,信服云EDS通過自研的分布式高性能文件系統,利用小文件合并、phxkv分布式元數據庫、智能預加載等自研技術,提高KB級小文件的元數據和數據處理效率,有效保障AI訓練過程中訪問數據的效率,并大幅縮短了科研中的AI訓練時間。
對于清華大學智能產業研究院而言,選擇一款存儲產品首要關注的是性能。因為科研工作者在標注數據時,需要不停地讀取文件和創建文件,頻繁的操作中無疑會增加元數據的訪問耗時,CPU算力也會受到影響,而信服云EDS讓讀寫文件的性能徹底告別了卡慢。
其實,信服云EDS和用戶的雙向奔赴,不止于此。
02容量與性能的同步擴展,
見證千行百業的騰飛與發展。
“我們現在的容量使用率已經超過90%,但性能絲毫沒有受影響?!?strong style="color: rgb(13, 74, 182);">除了提供穩定一致的性能表現,信服云EDS靈活擴展的能力,也在不斷刷新用戶的預期。考慮到研究院數據規模不斷增長的情況,信服云EDS支持同時擴展容量和性能,這打破了傳統存儲架構的局限性。
在傳統存儲架構中,容量增長到一定程度,性能的增長不會相應增加,甚至還會出現性能下降的現象。而信服云EDS實現了容量和性能的同步擴展,在容量擴展的同時,存儲性能也隨之線性增長。以集群規模擴展至8節點為例,混合盤配置4KB隨機讀可達120萬IOPS。
03故障閉環處理的設計,
是保障業務可靠運行的底氣。
在注重高性能的同時,業務連續性和數據可靠性也不可忽視。為此,信服云EDS構建了完整的故障閉環處理框架:
在故障發生前,通過硬件亞健康預測、檢測和數據多副本、糾刪碼等機制,幫助用戶提前預防故障的發生;亞健康的可視化監控,則讓用戶感知硬盤健康狀態,提前做好備件采購和替換準備工作。
在故障發生時,通過亞健康硬件自動隔離、智能數據修復、I/O路徑自動切換等機制,自動處置問題,最大化減輕運維的壓力,同時也保障了業務連續性和數據可靠性。如若發生人為誤刪除、惡意刪除或超過冗余機制范圍的故障等情況,可通過快照備份、回收站等機制快速找回數據。
這些高可靠的設計,也是用戶堅定選擇信服云EDS的理由之一。
截至目前,信服云EDS已經累計參與交付超過20000個客戶和300+例PB級項目,在AI訓練、衛星遙感、醫療影像、動漫制作、軟件開發等場景獲得了用戶的廣泛認可。
從蒸汽技術革命到信息技術革命,科技一次次改變著世界。
這一次,AI的想象力更是無限。這些面向未來交通、醫療、綠色發展的難題,也正在一步步被清華大學智能產業研究院的科學家們“拿下”:
? 發布全球首個真實場景車路協同數據集
? 研發出連續獲得全球第一的自動化蛋白質結構預測平臺
? 綠色計算5G網絡智能減碳技術獲得吳文俊人工智能科技進步獎
丈量寰宇,眺望星辰。在科技領航者的探索下,智能時代正以一種前所未有的清晰度呈現在我們面前。信服云EDS身處這個偉大的時代中,將集自身之所長,融用戶之所需,助力科研工作者們在數據的浩瀚宇宙中,自由翱翔。