你的位置:首頁 > 互連技術 > 正文

AI時代,為什么存儲基礎設施的可靠性決定數(shù)據(jù)中心的經濟效益

發(fā)布時間:2026-04-21 來源:西部數(shù)據(jù) 責任編輯:lily

【導讀】對于在 2026 年管理EB級基礎設施的數(shù)據(jù)中心運營商而言,關鍵問題已不再僅僅是是否擁有備份,而是存儲基礎設施能否提供符合實際運營需求的數(shù)據(jù)韌性:包括在線業(yè)務所需的高可用性、跨故障域的數(shù)據(jù)持久性,以及抵御攻擊所需的不可變歸檔能力。


設施規(guī)劃中的乘數(shù)效應


云服務提供商通過糾刪碼、異地冗余和自動分層等多重保護機制,承諾提供 11 個 9(99.999999999%)的數(shù)據(jù)持久性。但現(xiàn)實的經濟邏輯是:當數(shù)據(jù)在三個可用區(qū)之間進行地理冗余時,根據(jù)復制和糾刪碼方案的不同,備份和副本數(shù)據(jù)量可能會達到原始存儲占用的 2 到 3 倍。這一“乘數(shù)效應”不僅作用于數(shù)據(jù)容量,還會同步放大以下成本維度,包括:機架空間、電力消耗、散熱需求和持續(xù)運營成本。


在當前云數(shù)據(jù)中,絕大多數(shù)仍存儲在硬盤(HDD)上,因此每TB功耗、組件壽命以及故障帶來的運營成本,已成為影響數(shù)據(jù)中心能效(PUE)和單機架成本的核心變量。  


組件故障的隱藏成本


傳統(tǒng)數(shù)據(jù)中心財務模型通常將數(shù)據(jù)持久性基礎設施視為線性乘數(shù),但這忽略了在總體擁有成本(TCO)中占據(jù)主導地位的運營成本。例如:在部署一百萬個存儲組件、且年故障率為1%的場景下,運營人員平均每天面臨約 27 次組件故障,并需要執(zhí)行重建操作。每次重建都會帶來連鎖影響:持續(xù)讀取壓力作用于相鄰設備,從而功耗增加、散熱負荷加劇、網絡帶寬被占用,觸發(fā)級聯(lián)故障的風險。


組件可靠性直接決定了重建頻率。若年故障率分別為 0.5% 和 1.5%,則每日重建操作的頻率將產生三倍的差異。這不僅會導致可量化的能耗波動和制冷負荷變化(因多個機架同時處于高利用率狀態(tài)所致),還會引發(fā)網絡擁塞,并占用技術人員用于組件更換的時間。


勒索軟件推動“不可變歸檔”成為剛需


如今,勒索軟件攻擊者已將目標轉向生產存儲系統(tǒng),甚至包括那些旨在確??捎眯缘娜哂鄼C制。這一嚴峻現(xiàn)實,使數(shù)據(jù)韌性策略——特別是日益與在線系統(tǒng)隔離或物理隔離的不可變歸檔存儲——從合規(guī)性要求提升為不可或缺的運營剛需。在線存儲側重于業(yè)務負載的可用性和持久性,而不可變歸檔則提供了抵御攻擊所需的額外保護層。


這也帶來了新的基礎設施挑戰(zhàn):可能閑置數(shù)月的歸檔存儲基礎設施,在生產系統(tǒng)受損的恢復場景下,必須瞬間提供持續(xù)的高強度讀取性能。設施管理人員必須為歸檔系統(tǒng)配置足夠的電力、散熱和網絡容量,以應對可能持續(xù)數(shù)周的多 PB 級數(shù)據(jù)恢復操作所帶來的極限吞吐量壓力。在數(shù)據(jù)恢復期間,單一存儲組件的故障會對相鄰組件造成級聯(lián)壓力,進而產生局部熱點,這不僅會增加散熱系統(tǒng)的負荷,還會提高相鄰機架發(fā)生熱致故障的風險。


AI 工作負載加劇規(guī)劃的復雜性


AI 訓練負載引入了具有獨特基礎設施需求的關鍵歸檔數(shù)據(jù)資產。傳統(tǒng)數(shù)據(jù)在歸檔層中通常處于冷數(shù)據(jù)狀態(tài),而與之不同的是,AI 訓練數(shù)據(jù)集面臨著定期的驗證讀取和周期性的重訓練循環(huán),從而產生了持續(xù)的工作負載模式,并對以下方面造成影響:


電力規(guī)劃: 歸檔系統(tǒng)從閑置切換到極限讀取狀態(tài)會產生功耗波動,進而影響容量規(guī)劃和UPS(不間斷電源)的容量選型。


散熱需求: 帶有版本控制的 AI 存儲庫會經歷高頻讀取的訪問模式,產生持續(xù)的熱負荷


網絡架構: 遷移 PB 級的 AI 檢查點會產生東西向流量,這與傳統(tǒng)的南北向流量模式截然不同


預計到 2027 年,每年將新增 130–140 個超大規(guī)模數(shù)據(jù)中心,且用于支持 AI 能力的基礎設施支出將高達數(shù)千億美元。因此,在規(guī)劃備份基礎設施時,充分考量在極端情況下確??焖倩謴退璧南到y(tǒng)電力、散熱和網絡影響,顯得至關重要。


數(shù)據(jù)中心運營者應關注的關鍵問題


數(shù)據(jù)中心運營商應審查其存儲基礎設施是否與運維實際相符:


電力與熱量的可預測性: 存儲組件在整個生命周期內是否保持穩(wěn)定的功耗區(qū)間?


持續(xù)性能: 歸檔系統(tǒng)在閑置數(shù)月后,能否在不產生散熱問題的情況下提供額定吞吐量?


故障模式的可預測性: 組件是否能夠以可控方式退化,并提供明確的故障指示,還是會增加故障排查的復雜度?


密度優(yōu)化: 電力和散熱系統(tǒng)的容量配置,是否足以應對所有存儲層在極端情況下的同時利用率?


組件級可靠性將直接影響設施的經濟效益:減少上門維修和運維人工成本、通過可預測的功耗簡化容量規(guī)劃、延長更新周期以減少破壞性的設備更替,以及在采用新一代技術時簡化驗證流程。


核心要旨


對于數(shù)據(jù)中心運營商來說,核心問題不在于是否有備份,而在于設施基礎設施能否支撐其SLA(服務等級協(xié)議)所承諾的數(shù)據(jù)韌性:在維持在線工作負載正常運行時間的同時,確保不可變歸檔能力有助于抵御攻擊。電力與散熱系統(tǒng)能否在數(shù)據(jù)恢復場景中,支撐存儲基礎設施在極限利用率下連續(xù)運行數(shù)周的壓力?


在當今時代,AI 的開發(fā)進度和客戶留存率均依賴于跨層的存儲基礎設施性能,而組件級的可靠性則是一個影響數(shù)據(jù)中心經濟效益方方面面的設施規(guī)劃變量——從電力合同到散熱系統(tǒng)選型,再到人工成本,無一例外。


作者:Stefan Mandl,西部數(shù)據(jù)全球銷售與市場營銷副總裁


100600379-421391-stefanmandlxibushujuquanqiuxiaoshouyushichangyingxiaofuzongcai1.jpg


3-958x200_20251021044704_586_20260417162153_360.png

特別推薦
技術文章更多>>
技術白皮書下載更多>>
熱門搜索

關閉

?

關閉