以多樣選擇、靈活性和效率應(yīng)對服務(wù)器冷卻挑戰(zhàn)。
戴爾科技持續(xù)“以科技創(chuàng)新推動人類進步”的過程中,亦有障礙拖慢新的解決方案的應(yīng)用。在數(shù)據(jù)中心層面,人工智能(AI)工作負載便是其中的最典型代表。AI和其他高要求的工作負載須使用最新的GPU和CPU來提供所需的應(yīng)用性能,這意味著在部署規(guī)劃過程中散熱和功耗問題時常出現(xiàn)。為解決這些問題,戴爾科技的服務(wù)器散熱工程團隊多年如一,堅持提供以客戶為中心的戴爾科技智能冷卻(Dell Smart Cooling)創(chuàng)新解決方案,曾于2016年推出早期液冷服務(wù)器產(chǎn)品Triton。到2024年,戴爾科技提供的服務(wù)器冷卻解決方案包括Verne Global正在使用的Dell DLC3000直接液冷機架、單機架功率高達115千瓦的戴爾科技模塊化數(shù)據(jù)中心等。
當(dāng)前的冷卻選擇
最新的CPU和GPU對冷卻技術(shù)提出了新的要求,戴爾科技的PowerEdge產(chǎn)品組合支持不同的冷卻方式。傳統(tǒng)風(fēng)冷在應(yīng)對最新高功率服務(wù)器每個機架所產(chǎn)生的熱量時頗顯吃力,客戶也正尋求以更加可持續(xù)且低功耗的方式運營數(shù)據(jù)中心。因此,如今的數(shù)據(jù)中心冷卻方式和策略應(yīng)能滿足客戶日益增長的多種冷卻需求。
在構(gòu)建數(shù)據(jù)中心冷卻環(huán)境時最常用的技術(shù)包含以下幾種:
· 直接液冷(DLC)使用冷板與CPU和GPU等內(nèi)部服務(wù)器元件直接接觸;然后依靠液體來冷卻冷板并將熱量從處理器中傳遞出去。
· 行內(nèi)冷卻解決方案設(shè)計用于部署在數(shù)據(jù)中心機架旁的通道中,以冷空氣進行冷卻并將其分配到精確位置。
· 背門散熱(RDHx)通過安裝在服務(wù)器機架后部的液冷式熱交換器捕獲服務(wù)器排出的熱空氣中的熱量。
· 封閉式冷卻指的是將熱氣封閉、冷卻并循環(huán),所有環(huán)節(jié)均與數(shù)據(jù)中心的任何其它冷卻空氣完全隔離。
每種冷卻技術(shù)支持的機架熱密度和效率不同,為客戶提供了多樣的冷卻方案匹配實際需求。這些解決方案的部署位置從單機架到多通道不等。結(jié)合行或機架封閉結(jié)構(gòu),行內(nèi)冷卻器可100%捕獲機架上IT設(shè)備所產(chǎn)生的熱量。如此一來,數(shù)據(jù)大廳內(nèi)的空調(diào)部署就只需照顧到工作人員即可。RDHx同樣也能捕獲IT設(shè)備所產(chǎn)生的全部熱量,用于機架上的設(shè)施水,并同時調(diào)節(jié)空間內(nèi)的空氣。由于這種空調(diào)式的功能,RDHx中設(shè)施水的水溫必須比使用行內(nèi)冷卻器時更低,前者最高約為20℃,而后者最高可達32℃。采取較高的設(shè)施水溫,能夠降低冷卻器的運行能耗,這一點雖然可喜,但冷卻方案的整體效率并不止于此。
通過將這些熱量捕獲率可達100%的技術(shù)與DLC相結(jié)合,IT設(shè)備冷卻所需的風(fēng)扇功率得以降低,進一步提高了效率。
客戶需求與戴爾科技建議的冷卻解決方案
服務(wù)器冷卻效率
不同的解決方案和方式在冷卻過程中所消耗的功率也不同。下圖顯示了在冷卻典型的雙CPU服務(wù)器機架時不同冷卻方式的年能耗,分別包含了每種冷卻方式的IT能耗和冷卻能耗。IT能耗即包含內(nèi)部風(fēng)扇在內(nèi)的服務(wù)器內(nèi)部能耗總和;冷卻能耗則代表服務(wù)器外部的冷卻裝置(如冷卻劑分配單元,CDU和機房空氣處理器,CRAH)和數(shù)據(jù)中心外部的風(fēng)冷冷卻器的能耗。
不同冷卻方式的能耗
柱狀圖中第一根柱圖表示的是典型數(shù)據(jù)中心的能耗情況,這種數(shù)據(jù)中心使用安裝在數(shù)據(jù)大廳四周的空氣處理器將空氣吹向服務(wù)器。接下來,通過采用DLC來冷卻每臺服務(wù)器的CPU,可比僅使用周邊空氣處理器進行空氣冷卻節(jié)省約11%的總能耗。而如果用部署于每個機架上的RDHx取代周邊冷卻,則每年可減少16%的能耗,在此基礎(chǔ)上再增加DLC可進一步減少2%的能耗。如上所述,如果將IT部署在帶有行內(nèi)冷卻器的封閉式機柜內(nèi),則可使用溫度較高的水,這也使得其能耗較周邊空氣處理器減少19%。最后,通過將封閉式冷卻與DLC相結(jié)合,相較傳統(tǒng)冷卻機架可降低23%的能耗。
戴爾科技解決方案的優(yōu)勢
市場上有許多可供選擇的冷卻方式。例如一些廠商選擇在其他內(nèi)部服務(wù)器組件(如內(nèi)存、網(wǎng)絡(luò)接口、存儲等)上使用直接液冷,讓DLC解決方案觸及服務(wù)器內(nèi)部的幾乎所有發(fā)熱組件。通常情況下,這類解決方案需要定制化的銅制冷板并在服務(wù)器內(nèi)部鋪設(shè)額外的管道,使所有組件都與液體接觸。在戴爾科技,昂貴且復(fù)雜的銅冷板冷卻方式絕非最佳解決之道,將液體冷卻和空氣冷卻同時加入到混合式服務(wù)器冷卻解決方案中則可以給企業(yè)帶來諸多優(yōu)勢:
· 服務(wù)器配置的靈活性顯著提高??蛻艨勺孕袥Q定服務(wù)器配置(內(nèi)存、PCIe卡、存儲等),而不必受制于某一種服務(wù)器冷板設(shè)計。
· 設(shè)計中的軟管和接頭數(shù)量大幅減少,降低發(fā)生泄露的概率。
· 現(xiàn)場服務(wù)程序簡單,便于更換服務(wù)器組件。
· 服務(wù)器選擇范圍廣泛。
戴爾科技的混合式冷卻方式復(fù)雜性較低,能夠在出現(xiàn)新的和不同的處理器和服務(wù)器平臺時更加靈活迅速地為其提供冷卻。
戴爾科技的內(nèi)部模型分析表明,如果低水溫解決方案的設(shè)計合理且管理完善,那么“風(fēng)冷+DLC”混合冷卻部署方式的冷卻能耗僅比其他一些廠商使用的“全冷板冷卻方式”高出3%-4%,并能夠帶來上述優(yōu)勢1。
充分利用新一代智能冷卻技術(shù)
戴爾科技延續(xù)其開放靈活的冷卻策略,為客戶提供具有多種選擇,而非“一刀切”的冷卻方式。目前,這些先進的數(shù)據(jù)中心冷卻方式正在從高性能計算集群向主流部署發(fā)展,為支持AI和其他高強度工作負載的下一代頂尖性能服務(wù)器提供助力。戴爾科技的智能冷卻解決方案已幫助許多PowerEdge客戶提高了服務(wù)器的整體冷卻能力、能效和可持續(xù)性。