華為分布式存儲-化作大數(shù)據(jù)產(chǎn)業(yè)支點,撬動海量數(shù)據(jù)的無限潛能
2022中國移動合作伙伴大會
智慧中臺生態(tài)創(chuàng)新高峰論壇
在廣州舉行
存儲、計算、數(shù)據(jù)服務等
產(chǎn)業(yè)鏈伙伴共聚一堂
期間,華為分布式存儲領(lǐng)域副總裁韓振興圍繞“YB數(shù)據(jù)時代下,如何打造湖倉一體創(chuàng)新存儲底座”主題進行探討,重點分享了面向大數(shù)據(jù)湖倉一體架構(gòu),華為分布式存儲在軟件、硬件與解決方案上的創(chuàng)新之舉,期望與全產(chǎn)業(yè)共同擁抱新應用、新機遇。
遍地開花的大數(shù)據(jù)應用
偌大的城市里,在我們看不見的地方,大數(shù)據(jù)正“悄悄”地改變著人們的生活:
在運營商,每秒鐘3000萬條記錄、每天數(shù)PB的數(shù)據(jù)需要被處理,正在支撐疫情防控、輔助應急救災、規(guī)避電信詐騙;
在金融業(yè),大型銀行的數(shù)據(jù)湖存儲可達50PB,正通過挖掘歷史與實時交易日志模型,聯(lián)合分析,提供精準營銷、識別支付風險;
在交通行業(yè),一座中型城市的智慧交通系統(tǒng)每年產(chǎn)生100PB數(shù)據(jù),正依靠車輛軌跡的識別處理,逐漸實現(xiàn)智能調(diào)度、提升通行效率。
這些數(shù)字,織起了百姓生活的方方面面,串聯(lián)起每一個家庭、每一個人。如今,如山似海的數(shù)據(jù)應用、數(shù)據(jù)格式正在涌現(xiàn),而如何聚焦釋放每一比特數(shù)據(jù)所蘊含的價值,是眾多企業(yè)需要反復深思的問題。
韓振興表示:
“
當前,企業(yè)的實時數(shù)據(jù)流通常匯集在數(shù)據(jù)倉庫中,而更多的歷史數(shù)據(jù)則存儲于數(shù)據(jù)湖??缭胶}的分析應用帶來了大量數(shù)據(jù)倒換與搬遷,分析結(jié)果的時延高達數(shù)天。實現(xiàn)湖倉數(shù)據(jù)融合存儲、數(shù)據(jù)格式歸一、支持混合負載,是避免資源浪費、提升分析時效的關(guān)鍵手段。
”
擁抱大數(shù)據(jù)
數(shù)據(jù)存儲該怎么做?
多、雜、亂、慢。
這是大數(shù)據(jù)處理中的四個關(guān)鍵詞。展開來看,它闡述了四個趨勢:數(shù)據(jù)集合的規(guī)模和產(chǎn)生速度持續(xù)提升、數(shù)據(jù)類型與格式更加繁冗、單位數(shù)據(jù)價值密度不斷降低、數(shù)據(jù)處理難度逐步加大。
為了破解這些問題,結(jié)合了數(shù)據(jù)分層、存算分離等理念的湖倉一體架構(gòu)應運而生。它融合了數(shù)據(jù)湖的靈活性與數(shù)據(jù)倉庫的高效率,實現(xiàn)一份數(shù)據(jù)、一套任務在湖、倉之上無縫調(diào)度和管理。而在打造這個敏捷高效的湖倉一體架構(gòu)過程中,作為數(shù)據(jù)最核心的載體,存儲也同步面臨三個“需要”:
需要開放的數(shù)據(jù)格式。一份數(shù)據(jù)能被多種計算引擎訪問,并支持對接多樣化生態(tài)。
需要數(shù)據(jù)訪問的高性能、低時延。滿足萬級客戶端并發(fā)訪問,并實現(xiàn)混合負載自適應。
需要靈活的擴展能力。大數(shù)據(jù)規(guī)模增速極快,存儲必須支持EB級數(shù)據(jù)擴展,同時滿足海量數(shù)據(jù)的存儲成本最優(yōu)。
一路以創(chuàng)新為征帆
化作大數(shù)據(jù)產(chǎn)業(yè)的支點
韓振興表示,華為致力于打造湖倉一體的最佳數(shù)據(jù)基礎設施,在時代的浪花里懷揣羅盤,勇作大數(shù)據(jù)產(chǎn)業(yè)的引渡人。華為OceanStor Pacific分布式存儲擁有三大創(chuàng)新:
首先是軟件架構(gòu)。體現(xiàn)在兩個方面:
統(tǒng)一湖、倉數(shù)據(jù)格式的訪問。通過存儲支持Hudi,實現(xiàn)一套存儲數(shù)據(jù)0遷移,既提升數(shù)據(jù)訪問效率,也降低存儲成本。
對混合負載分而治之。憑借獨創(chuàng)SmartBalance全均衡系統(tǒng)設計,能夠自適應混合業(yè)務的多樣I/O模型并采用不同處理方式,輕松應對流式處理、批量分析、查詢檢索、AI訓練的全場景,實現(xiàn)帶寬、IOPS和OPS性能全優(yōu)。
然后是硬件設計。順應了三個方向:
更高密的設計。從過去的12盤/U躍升至20盤/U,華為做到單位空間里容納更多介質(zhì)。單位容量密度的提升也映證了“更經(jīng)濟、更綠色”的存儲理念。
更快的數(shù)據(jù)加速引擎。華為采取先進的緩存介質(zhì),構(gòu)建內(nèi)存級訪問效率的分布式高速大緩存,將上層的部分處理算子、查詢過濾算法下移到存儲側(cè)執(zhí)行,有效節(jié)省了計算和網(wǎng)絡的開銷,訪問時延做到僅10+微秒。
更可靠的軟硬協(xié)同。通過定制化專用部件、專屬Firmware、針對CPU/內(nèi)存/緩存等核心硬件設計的I/O流等,簡化交付、維護和生命周期管理難度,部件故障率降低30%。
同樣還有大數(shù)據(jù)解決方案。重構(gòu)在兩個趨勢:
從存算一體,到存算解耦,再到湖倉融合。
第一步跨越,實現(xiàn)計算、存儲按需擴展,讓專屬的設備做更專業(yè)的事,幫助客戶TCO大幅降低。
而第二步跨越,實現(xiàn)數(shù)據(jù)入庫即可查,華為能做到用戶無感知的原生HDFS和S3兼容,避免數(shù)據(jù)格式轉(zhuǎn)換,向一湖多云、實時分析更進一步。
從熱溫冷數(shù)據(jù)分級,到跨域數(shù)據(jù)流動。
第一個層面,驅(qū)使數(shù)據(jù)在一套集群內(nèi)、多套集群間分級流動,華為內(nèi)置了ML(機器學習)模塊,支持Workload熱度、遷移時間、磁盤水位等的6個維度分級策略。
而第二個層面,是驅(qū)使數(shù)據(jù)在跨域跨站點間流動,順應“東數(shù)西存”,憑借GFS(全局文件系統(tǒng))實現(xiàn)跨域數(shù)據(jù)可見可查,無需人工干預,讓熱溫數(shù)據(jù)存放在東部,而低成本的冷數(shù)據(jù)流動到西部。