DOITAPP
DOIT數據智能產業媒體與服務平臺
立即打開
DOITAPP
DOIT數據智能產業媒體與服務平臺
立即打開

華為存儲李建祥:先進數據存力,釋放AI新動能

過去我們通常討論算力的重要性,伴隨數據存儲等先進技術的不斷演進,“存力”的概念逐漸嶄露頭角。華為中國政企數據存儲業務總監李建祥先生在2023閃存峰會主論壇分享題為《先進數據存力,釋放AI新動能》的精彩演講,介紹了華為存儲的多項領先技術、場景應用實踐以及AI領域創新成果,受到業界的廣泛關注。

以下為演講實錄:

大家好,今天由我和大家分享華為存儲現在的基本情況以及在支撐各行業用戶持續創新方面的產品和解決方案。

根據Gartner2022年全球存儲市場份額報告來看,華為市場份額排到全球第二,海外一些區域雖然我們沒辦法參與,依然還拿到了全球第二的排名,取得這樣的成績與我們在存儲領域持續創新有關,同時也跟我們踏準行業、產業節奏,以及匹配用戶需求是密不可分的。

2014年,當時很多用戶從虛擬化逐漸轉向了資源池化、云計算,當時我們做一個創新,將常用于運行數據庫或者虛擬化的塊存儲和用于文件共享的NAS存儲融合在了一起,推出了SAN和NAS一體化的存儲設備,滿足中小用戶混合應用,最大化節約建設成本。當時得到很多用戶的認可,正式因為這類創新技術,華為存儲在2016年進入了Gartner魔力四象限領導者象限。

2017年到2019年,是閃存的黃金時代,我們很多用戶,逐漸開始試點使用閃存存儲,當時也有行業存儲廠商,比如IBM收購了TSM, EMC收了XtremIO等產品快速轉型,但大部分廠商仍是基于傳統架構,僅僅適配SSD盤,并未做算法和架構深度優化。

當時,華為發布了基于Flash Native的原生全閃存OceanStor Dorado產品,重構軟件、算法、架構,正如鄭緯民院士講到的,固態硬盤單盤的性能與機械硬盤不是一個數量級,固態硬盤單盤IOPS性能是機器硬盤的上萬倍,帶寬是將近30倍,存儲系統要根據固態硬盤的技術優勢和特性重新設計我們的硬件、軟件和算法。2019年我們發布了OceanStor Dorado新一代產品,不僅提供高性能存儲,在企業用戶更關注的可靠性和故障冗余進一步優化,多控制器Active-Active負載均衡,前端接口,后端接口與控制器全互聯架構來支撐用戶對于高可靠的要求。

今天,云計算、大數據和AI行業應用蓬勃發展,華為OceanStor Pacific系列分布式存儲也被廣泛使用,分布式存儲以前主要用于媒資行業來存儲視頻、文件等帶寬型業務。今天的分布式存儲,一方面提供海量的空間,另外一方面要承載千變萬化的應用,支持用戶在AI和大數據方面持續創新。

我們的用戶數據中心架構基本都并行運行著兩種形態,穩態架構和敏態架構,在不同的行業、不同的用戶的敏態業務比例有所不同。高端全閃提供極致的性能,極致的可靠來支撐穩態的核心生產業務,分布式存儲提供高并發、高擴展的能力來支撐用戶的在AI、大數據、容器等穩態業務創新。

穩態的業務,數據中心最核心的資產還是運行在穩態的架構上。核心業務系統對存儲的要求是比較明確的:第一是穩定的性能,基于閃存原生的Dorado存儲,在任何條件下,數據庫、虛擬化業務模型都可以提供穩定0.5毫秒的延時,這是需要端到端全自研的硬盤、智能硬盤框(智能硬盤框集成了鯤鵬芯片和內存做RAID、重構等卸載),控制器,系統軟件,算法協同起來,才能達到這樣的穩定的延時。第二是可靠性,前端后端全互聯架構支撐存儲系統在任何部件、任何模塊,任何控制器出現連續故障,業務仍然不中斷,數據不丟失。第三是容災的能力,對于存儲來說,承載著用戶的核心資產,一套存儲往往是不夠的,特別是一些大型金融機構,他們往往是部署了雙活系統,兩地三中心,甚至是環形兩地三中心。華為OceanStor Dorado系列存儲也是國內唯一可以做到,將承載數據庫的SAN存儲和承載文件共享的NAS存儲合一,來實現SAN/NAS一體化雙活容災。

敏態業務,大部分是創新業務,包括用戶容器化改造,分布式數據庫改造,AI大模型等。

隨著容器化的越來越成熟,使用越來越廣泛,很多用戶逐漸把一些web前端、中間件、Redis、kafka、輕量數據庫等都運行在了容器上,進行了大量的容器化改造,不過有很多開發人員是不太喜歡用專業存儲。

一方面,大部分的開發人員更多精力放在應用上,并不關注存儲,簡單認為存儲等于服務器硬盤。這里存在一個誤區,服務器本地硬盤可靠性是有限的,服務器硬盤是通用硬件,通常故障率在1%;另外有限的幾塊盤,其能提供的性能和容量也是有限的。而外置的專業存儲硬盤經過深度定制微碼,進行亞健康檢測,故障預處理,故障率可大幅降低至0.2%。一套存儲可輕松提供百萬級IOPS。承載業務系統的容器需要多讀多寫能力,同時也需要一些文件共享,例如日志共享,共享代碼鏡像等,在故障切換場景,使用華為OceanStor Dorado NAS作為共享存儲,可以實現6分鐘故障漂移。存儲共享是所有業務連續性的基礎保障,只有存儲是一個共享的,上層的主機 HA切換能力,漂移的能力才能夠實現,使用專業存儲共享能力在容器場景是非常關鍵的。同時NAS存儲還具備多租戶、權限控制,滿足集群內不同業務之間的數據隔離和配額管理。所以業內已經有這樣一個共識:容器最佳的存儲底座是共享存儲,也就是說我們通常講的NAS存儲。

一方面業務開發人員,同時也是容器使用維護人員,不太擅長存儲維護操作,為了便于開發人員更好地使用存儲,我們也提供了豐富的容器插件,包括CSI、CDR等,開發人員他可以不了解存儲,只需要對存儲提應用配置要求,備份的要求,容災保護等級就可以,剩下的讓存儲自身去完成。

在信息技術應用創新走的比較靠前的一些行業,包括一些政府、金融、運營商,央國企,由于政策驅動,國產數據庫替換進程要快一些,對于分布式數據庫改造,用戶是非??鄲赖?,需要大量的業務改造,尤其是業務系統大多是多年前做的,當時的開發人員,開發團隊,甚至開發公司有可能都找不到了。業務改造工作量是非常大的。

我們提供了兩種方案:一種方案是現在金融行業走的比較快的,像工商銀行、農業銀行,數據庫集中式部署,同城雙集群故障隔離,一寫多讀,通過存儲復制,實現雙數據中心數據同步,類似傳統成熟的IOE架構,好處數據庫依然是集中式部署的,是業務部不需要大規模改造,底層通過存儲復制,不影響性能的情況下數據是實時同步。另一種方案是使用我們提供的存儲引擎,部署在數據庫上的插件,叫參天引擎,可以實現數據庫的多讀多寫,副本歸一,我們跟很多國內的數據庫的廠商正在進行合作,未來用戶在切換到分布式數據庫的時候,不再需要業務改造,即可實現以前Oracle的能力。

今天很多專家也都分享AI相關的一些創新,我們知道,AI大模型訓練的三個基本要素:算力,算法和數據,數據存儲過程,直接影響了整個AI大模型訓練的效率。由于GPU資源非常昂貴,GPU資源的等待和浪費造成極大的經濟損失,浙江本地我們一個AI大模型訓練優秀客戶分享了一組數據:如果存儲發生一次事故,故障每天將帶來160萬經濟損失,如果存儲的性能不足,性能每下降10%,直接損失兩個億。AI大模型整個計算的過程,對存力的要求是非常高的:

第一,大模型訓練數據量大,現在的訓練參數規模已經到了千億甚至萬億級的規模,一個數據集近PB級數據量,包括一些過程數據,歸檔數據,整個存力要求接近了EB級規模,要求存儲能夠支撐高擴展,海量承載。

第二,訓練的數據源是多元的,可能來自于互聯網爬蟲爬來的,可能是第三方購買來的,也可能是歷史庫或者大數據平臺抽取過來的,數據類型有文本、圖片、視頻,數據格式有文件,對象,HDFS等各種各樣的形式。在數據歸集過程,需要存儲系統能夠提供多協議,免數據拷貝。

第三,存儲高性能,在數據歸集和預處理過程中,這部分數據大部分都是小IO,希望存儲提供高IOPS, 能夠快速實現數據的讀取。在進行長時間訓練任務時,防止任務異常退出后從初始狀態開始訓練,保存訓練過程中的Checkpoint文件,如鄭院士分享的,需要每3.5個小時保存checkpoint,這時,我們不希望數據保存的過程中浪費太多的時間,要求存儲提供高帶寬,將PB級的checkpoint數據在分鐘級就快速落盤。OceanStor Pacific高效分布式存儲能能夠根據IO模型自適應,一套存儲同時提供高IOPS和高帶寬能力。

第四,存儲系統能夠根據數據訪問熱點,數據精度自動做分級,數據生命周期管理,把老化數據從高性能資源池快速流動到大容量存儲系統中,為高性能資源池減負,保持高性能能力。

以上,針對大規模的大模型訓練,OceanStor Pacific分布式存儲系統通過在預處理和數據歸集的過程,過程數據保存過程中持續優化存儲,來提升GPU的使用效率,提升整個算推有效性。

當然還有一些行業客戶,比如金融行業用戶,數據量沒那么大,又做了一些行業特色小模型,數據量PB級規模,大規模分布式存儲就不適用了,這些使用了OceanStor Dorado高端全閃來提供高帶寬高IOPS。同時針對更多中小用戶,我們也提供豐富AI訓練硬件:深度學習存儲OceanStor A310,FusionCube A3000訓/推超融合一體機。

不管是是敏態業務還是穩態業務,用戶出于數據保存,安全性,也出于監管上的要求的考慮,備份是最后一個必須要做的環節。華為自研備份一體機OceanProtect可以支持將傳統應用數據庫,虛擬化,文件,以及做創新的容器、分布式數據庫,AI等數據備份下來,同時也兼容新興的國產生態,包括國產的數據庫,國產操作系統等。

最后,我想跟大家分享的是數據安全。中央網信辦,公安部,國家密碼局行管單位相繼發布了相應的政策和法規,《數據安全法》,《個人隱私保護法》《商用密碼管理條例》陸續生效,公共事業,交通、能源、金融、運營商等關基行業,按照法規,每年進行等保評審時要進行密評,其中密評三級要求數據機密性,即數據存儲過程加密。在實際執行的時,國密改造推進非常困難,傳統技術產品和方案并不能滿足用戶需求,通常有兩種方式來改造,第一種是應用改造,消耗CPU、消耗內存資源數據處理過程中進行加解密,SM4加密算法算力的消耗是非常大的,實際上應用改造應用結果上看,通過軟件模擬來做SM4的加密,性能損耗在40%-50%,是很多用戶承擔不起的,意味著用戶要再額外再夠買雙倍資源來做數據加密。第二種,數據庫加密,使用數據庫加密,應用不需要再做改造,但是數據庫加密也有問題,Oracle、DB2有加密的能力,但只支持AES加密算法,不支持國密。國產數據庫還在百花齊放的階段,能力還在追齊Oracle,加密上能力有所欠缺。全密態數據庫也有部分國產廠商在做,但實測效果不太理想,數據庫加密在處理模糊查詢時,需要數據庫數據讀取出來,解密查詢,這個過程性能代價是非常大的,在金融客戶測試時發現,性能損耗90%,幾乎不可用。

內生安全存儲:構筑數據安全最后一道防線

我們提供數據中心內端到端的安全方案,在數據的產生和處理過程中,需要保護的核心數據庫運行在TEE隱私環境,應用程序在REE標準環境中,應用程序通過安全接口傳遞指令傳遞到TEE隱私環境中,隱私環境中的數據庫將處理結果返回給應用程序。整個環境在數據產生和數據處理的過程中,外部應用程序和人員是看不到數據庫數據的,達成數據可用但不可見的能力,避免發生有組織的攻擊,盜庫事件。從主機到存儲之間,開啟網絡IPsec/MACsec加密,保證數據傳輸安全。最后到存儲落盤,通過存儲固態硬盤進行國密加密。通過存儲硬盤來做加密有兩個好處:第一,通過芯片加密,加密效率比通過CPU軟件模擬效率要高得多。第二,一套存儲一般配幾十塊或上百塊硬盤,意味著有上百顆芯片同時在做加密處理。實際測試的效果來看,通過硬盤加密,對性能的影響5%以內,基本可以忽略。通過TEE隱私計算以及存儲加密卸載,數據產生、處理、傳輸、存儲、銷毀端到端的全流程數據安全保護,滿足監管要求。

同時,我們也提供防勒索的能力,勒索病毒善于偽裝、變種頻繁,往往使用零日漏洞、釣魚郵件、內鬼攻擊等方式進行入侵,通常還會潛伏數周到數月。網絡層以“進不來”為防范目標。而存儲作為數據的最終載體,可以始終在第一時間感知勒索軟件對數據的修改行為,通過偵測分析、安全副本、及時恢復,確保病毒“進不來、改不了” ,數據“可恢復”,構筑數據安全最后一道防線,解決很多用戶不能說的痛楚。

呼應一下閃存峰會主題,目前國內沒有機械硬盤產業的,我們也希望跟硬盤廠商一起努力,利用閃存存儲天然的高性能和低故障率優勢,實現國內存儲領域彎道超車。做好我們的國產存儲,做先進的存儲,做全球領先的存儲,一起共勉,謝謝大家。

未經允許不得轉載:DOIT » 華為存儲李建祥:先進數據存力,釋放AI新動能

欧美牲交AⅤ俄罗斯_亚洲丝丝噜第五页_日本xx18一19video_青青草原精品资源站久久