在當(dāng)今以數(shù)據(jù)和智能為核心驅(qū)動(dòng)力的時(shí)代,數(shù)據(jù)存儲(chǔ)與管理技術(shù)正經(jīng)歷著深刻的范式轉(zhuǎn)變。杉巖數(shù)據(jù)首席技術(shù)官邱尚高先生近期指出,隨著人工智能(AI)的深度融合與數(shù)據(jù)湖架構(gòu)的廣泛采納,對(duì)象存儲(chǔ)已遠(yuǎn)非簡(jiǎn)單的數(shù)據(jù)存放倉(cāng)庫(kù),其角色正從被動(dòng)存儲(chǔ)向主動(dòng)、智能的數(shù)據(jù)服務(wù)基石演進(jìn)。
一、AI與數(shù)據(jù)湖:驅(qū)動(dòng)存儲(chǔ)需求變革的雙引擎
人工智能,特別是大規(guī)模機(jī)器學(xué)習(xí)與深度學(xué)習(xí),對(duì)數(shù)據(jù)提出了前所未有的要求:海量的非結(jié)構(gòu)化數(shù)據(jù)(如圖像、視頻、文本)、高吞吐的訪問(wèn)性能、以及跨地域、跨集群的高效數(shù)據(jù)流轉(zhuǎn)。與此數(shù)據(jù)湖作為集中存儲(chǔ)企業(yè)各種原始數(shù)據(jù)的大型存儲(chǔ)庫(kù),其核心理念是打破數(shù)據(jù)孤島,支持多樣化的分析工作負(fù)載。這兩大趨勢(shì)共同作用,對(duì)底層存儲(chǔ)系統(tǒng)的可擴(kuò)展性、經(jīng)濟(jì)性、協(xié)議兼容性及元數(shù)據(jù)管理能力構(gòu)成了嚴(yán)峻考驗(yàn)。傳統(tǒng)的存儲(chǔ)方案往往難以兼顧規(guī)模、成本與靈活性。
二、對(duì)象存儲(chǔ):數(shù)據(jù)湖的理想底座
對(duì)象存儲(chǔ)憑借其近乎無(wú)限的橫向擴(kuò)展能力、基于策略的自動(dòng)化數(shù)據(jù)生命周期管理、以及通過(guò)標(biāo)準(zhǔn)S3等API實(shí)現(xiàn)的廣泛生態(tài)兼容性,天然契合數(shù)據(jù)湖的建設(shè)需求。它能夠以相對(duì)低廉的成本,高效地存儲(chǔ)和管理EB級(jí)的海量非結(jié)構(gòu)化數(shù)據(jù),為上層的數(shù)據(jù)分析、AI訓(xùn)練提供統(tǒng)一、可靠的數(shù)據(jù)源。邱尚高強(qiáng)調(diào),對(duì)象存儲(chǔ)已成為構(gòu)建現(xiàn)代數(shù)據(jù)湖事實(shí)上的標(biāo)準(zhǔn)存儲(chǔ)層。
三、不止于存儲(chǔ):向智能數(shù)據(jù)服務(wù)演進(jìn)
邱尚高認(rèn)為,在AI+數(shù)據(jù)湖的時(shí)代,對(duì)象存儲(chǔ)的價(jià)值絕不應(yīng)止步于“存得住”和“取得出”。其發(fā)展的關(guān)鍵方向在于“用得好”,即演變?yōu)橹悄艿臄?shù)據(jù)服務(wù)平臺(tái)。這主要體現(xiàn)在以下幾個(gè)方面:
- 性能與智能加速:針對(duì)AI訓(xùn)練等數(shù)據(jù)密集型場(chǎng)景,對(duì)象存儲(chǔ)需要通過(guò)緩存加速、與計(jì)算框架緊耦合、支持GPU Direct Storage等技術(shù),顯著降低數(shù)據(jù)訪問(wèn)延遲,提升整體訓(xùn)練效率。智能的數(shù)據(jù)預(yù)取、分層策略可以進(jìn)一步優(yōu)化數(shù)據(jù)流轉(zhuǎn)。
- 豐富的元數(shù)據(jù)與標(biāo)簽化:強(qiáng)大的自定義元數(shù)據(jù)能力,使得對(duì)象存儲(chǔ)能夠?yàn)槊總€(gè)數(shù)據(jù)對(duì)象打上豐富的語(yǔ)義標(biāo)簽。結(jié)合AI對(duì)元數(shù)據(jù)進(jìn)行自動(dòng)分析、分類和標(biāo)注,可以極大提升數(shù)據(jù)治理水平和發(fā)現(xiàn)效率,讓數(shù)據(jù)更“易理解”、更“可搜索”。
- 內(nèi)置數(shù)據(jù)處理能力:下一代對(duì)象存儲(chǔ)開(kāi)始探索將部分計(jì)算邏輯“下推”到存儲(chǔ)層,例如支持在存儲(chǔ)側(cè)直接進(jìn)行圖片轉(zhuǎn)碼、視頻截圖、數(shù)據(jù)過(guò)濾等輕量級(jí)處理(類似于S3 Select/Object Lambda理念),減少不必要的數(shù)據(jù)移動(dòng),實(shí)現(xiàn)“存算融合”。
- 數(shù)據(jù)安全與合規(guī)智能化:利用AI能力,對(duì)象存儲(chǔ)可以更智能地識(shí)別敏感數(shù)據(jù),實(shí)現(xiàn)自動(dòng)化的分類分級(jí)、加密、脫敏和訪問(wèn)控制,并滿足日益嚴(yán)格的數(shù)據(jù)合規(guī)性要求。
- 統(tǒng)一數(shù)據(jù)視圖與流動(dòng):作為數(shù)據(jù)湖的核心,對(duì)象存儲(chǔ)需要與HDFS、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等系統(tǒng)無(wú)縫協(xié)同,提供統(tǒng)一命名空間,并智能化地調(diào)度數(shù)據(jù)在不同存儲(chǔ)層級(jí)(熱、溫、冷)及不同系統(tǒng)間的流動(dòng),支撐混合云、多云環(huán)境下的數(shù)據(jù)管理。
四、展望:構(gòu)建以數(shù)據(jù)為中心的基礎(chǔ)設(shè)施
邱尚高道,未來(lái)的競(jìng)爭(zhēng)是數(shù)據(jù)的競(jìng)爭(zhēng),更是數(shù)據(jù)利用效率的競(jìng)爭(zhēng)。對(duì)象存儲(chǔ)作為承載企業(yè)核心數(shù)據(jù)資產(chǎn)的基石,其發(fā)展必須與上層應(yīng)用(尤其是AI)的需求同頻共振。杉巖數(shù)據(jù)等廠商正在推動(dòng)對(duì)象存儲(chǔ)向更智能、更融合、更服務(wù)化的方向發(fā)展,目標(biāo)是將存儲(chǔ)基礎(chǔ)設(shè)施從成本中心轉(zhuǎn)變?yōu)橘x能業(yè)務(wù)創(chuàng)新的數(shù)據(jù)服務(wù)中心。在AI與數(shù)據(jù)湖的雙重浪潮下,對(duì)象存儲(chǔ)的旅程,才剛剛駛向更廣闊的深海。