液冷新時(shí)代智算大有為浩云長盛液冷數(shù)據(jù)中心最佳實(shí)踐

2023-08-23 00:02:19 來源: 中關(guān)村在線

浩云長盛廣州二號云計(jì)算基地，是華南區(qū)首家大型商用液冷數(shù)據(jù)中心，采用冷板式液冷技術(shù)，助力AI算力業(yè)務(wù)降本增效：提升算力性能10%，降低GPU芯片維護(hù)成本50%，節(jié)省IB線纜投資30%。

(資料圖片僅供參考)

低碳與數(shù)字雙驅(qū)動(dòng)，未來GPU資源持續(xù)火熱

數(shù)據(jù)中心是國家信息化戰(zhàn)略的重要基礎(chǔ)設(shè)施底座，發(fā)展的好壞快慢直接影響戰(zhàn)略落地。政策、經(jīng)濟(jì)、社會(huì)、技術(shù)都在為數(shù)據(jù)中心行業(yè)高質(zhì)量發(fā)展提供新動(dòng)能。《“十四五”規(guī)劃》明確指出，到2025年，數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值占GDP比重達(dá)到10%，同時(shí)到2025年單位GDP能耗下降13.5%，從發(fā)展規(guī)劃中一葉知秋，中國數(shù)字經(jīng)濟(jì)既要快速發(fā)展，更要高質(zhì)量發(fā)展。

2023年3月，Open AI的ChatGPT 4.0大模型發(fā)布，將人工智能的應(yīng)用推向了新的高度，該模型在許多專業(yè)測試中的表現(xiàn)“超出了人類水平”，“比以往任何時(shí)候都更具創(chuàng)造性和協(xié)作性”，“可以更準(zhǔn)確地解決難題”，ChatGPT單月訪問量突破10億次。與此同時(shí)，各個(gè)行業(yè)都在積極探索人工智能與行業(yè)結(jié)合之路，如微軟將ChatGPT接入Office 365，工作效率成倍增加。

這一股AI浪潮也沖擊了算力基礎(chǔ)設(shè)施底座。人工智能深度神經(jīng)網(wǎng)絡(luò)算法（DNL）需要處理大量且并行的卷積運(yùn)算，而GPU顯卡則能很好地匹配這種特性?；跇I(yè)務(wù)側(cè)的帶動(dòng)，加上A100的禁售，用于大模型訓(xùn)練的GPU一卡難求，價(jià)格變化更是按天衡量，8卡H100服務(wù)器從60萬到150萬只用了3個(gè)月的時(shí)間。未來，GPU短缺的趨勢可能會(huì)維持，OpenAI的ChatGPT GPT 4.0在大約10000-25000張A100上進(jìn)行了訓(xùn)練，而GPT 5.0將可能需要30000-50000個(gè)H100。

低碳高密風(fēng)退液進(jìn)

這一系列宏觀環(huán)境的變化，對數(shù)據(jù)中心行業(yè)發(fā)展方向產(chǎn)生了諸多影響，風(fēng)冷末端到底能不能適應(yīng)這一變化？在我們看來，風(fēng)冷不能很好匹配業(yè)務(wù)需求的變化。

首先，風(fēng)冷不能很好應(yīng)對PUE挑戰(zhàn)，目前各省對數(shù)據(jù)中心PUE已經(jīng)有明確的指導(dǎo)，以廣東省為例，廣東省工業(yè)和信息化廳印發(fā)了廣東省5G基站和數(shù)據(jù)中心（IDC）總體布局規(guī)劃（2021-2025）的通知，新建數(shù)據(jù)中心PUE不高于1.3，這對于廣東地區(qū)來說，是非常具備挑戰(zhàn)性要求。

其次，風(fēng)冷的散熱效率和制冷精度不夠高。GPU芯片的功耗一定是趨向高密的，英偉達(dá)GPU A100/H100 單卡功率接近400W，芯片熱流密度 50W/平方厘米，4U整機(jī)服務(wù)器功率接近 5.5kW/臺，英偉達(dá)主推的下一代算力卡，A800/H800算力是上一代的3倍，價(jià)格只有原來的2倍，功耗接近2倍，單卡功率接近700W，熱流密度87.5W/平方厘米，4U整機(jī)接近9kW，算力硬件功率越來越高，芯片熱流密度越來越大，傳統(tǒng)風(fēng)冷難匹配：

1. 風(fēng)冷制冷效率低，不適合高功率機(jī)柜。風(fēng)冷密閉通道支持的合理功率區(qū)間4~6kW，但單個(gè)4U的H800整機(jī)已經(jīng)接近9kW，此時(shí)風(fēng)冷制冷對于如此高密設(shè)備的散熱有點(diǎn)力不從心，少量服務(wù)器場景下，能采用隔機(jī)柜部署方式應(yīng)急，這種非集約化部署模式在規(guī)?；乃懔鼍跋拢嵝Ч⒉患?，個(gè)別客戶會(huì)把GPU服務(wù)器外殼打開，增加散熱面積。這種部署方式?jīng)]有經(jīng)過專業(yè)的CFD仿真驗(yàn)證，既不安全，又會(huì)造成機(jī)柜資源浪費(fèi)。

2. 風(fēng)冷制冷對于熱源（GPU）的制冷不夠精準(zhǔn)。純氣流組織散熱支持的芯片熱流密度極限約10W/平方厘米，達(dá)不到H800對散熱效率的要求。芯片長期工作在高溫狀態(tài)，會(huì)導(dǎo)致性能降低，英偉達(dá)同樣性能服務(wù)器，液冷版本和風(fēng)冷版本性能差距在10%；同時(shí)，根據(jù)“十度法則”，從室溫起，電子元器件每增加十度，失效率增加一倍，壽命也會(huì)降低，GPU備件失效率增加，繼而導(dǎo)致整個(gè)生命周下期算力成本增加。

實(shí)踐中常常會(huì)有通道溫度低，但是芯片溫度高的情況發(fā)生，長時(shí)間高溫運(yùn)行，GPU的壽命短和性能低，導(dǎo)致經(jīng)濟(jì)成本和時(shí)間成本都增加，由此可見在算力場景，風(fēng)冷并不是最合適的。液冷是通過高比熱容的冷液直接帶走熱量，這種高效的散熱方式逐漸進(jìn)入大家的視野。

液冷解決方案，是GPU算力的最優(yōu)解

浩云長盛廣州二號云計(jì)算基地，位于廣東省廣州市番禺區(qū)，大灣區(qū)的中心和智能汽車產(chǎn)業(yè)中心（雙中心），本項(xiàng)目按照國標(biāo)CQC A級標(biāo)準(zhǔn)設(shè)計(jì)，定位為智能制造AI算力基地，是華南區(qū)首家大規(guī)模商用液冷數(shù)據(jù)中心，支持功率密度8~19KW以上，單系統(tǒng)PUE 1.1以下，為華南區(qū)智能制造、AI超算高質(zhì)量發(fā)展提供可靠數(shù)字基礎(chǔ)設(shè)施底座。

冷板式液冷基本原理

液冷基本原理是采用液體作為傳熱工質(zhì)在冷板內(nèi)部流道流動(dòng)，通過熱傳遞對熱源實(shí)現(xiàn)冷卻的非接觸液體冷卻技術(shù)。在冷板式液冷系統(tǒng)中，需要專用的液冷服務(wù)器，服務(wù)器芯片等發(fā)熱器件不直接接觸液體，而是通過裝配在需要冷卻的電子元器件上的冷板進(jìn)行散熱，達(dá)到精確制冷的目的，讓GPU運(yùn)行溫度更低。

二次側(cè)采用25%乙二醇加去離子水的混合液，保障換熱高效的同時(shí)兼顧安全穩(wěn)定。進(jìn)水溫度35-45℃范圍之間，出水溫度在45-55℃左右，進(jìn)出水溫高，系統(tǒng)通過自然冷卻為芯片降溫，降低系統(tǒng)PUE。一次側(cè)和二次側(cè)通過板換實(shí)現(xiàn)熱交換，二次側(cè)的水泵將熱量從板換中帶出到冷卻塔散掉。

整個(gè)系統(tǒng)來看，跟傳統(tǒng)的制冷方式是有區(qū)別的：

1. 換熱次數(shù)少，傳統(tǒng)冷機(jī)系統(tǒng)5次換熱，冷板液冷3次，更少的冷量損耗；

2. 精準(zhǔn)散熱，冷板式液冷能夠針對GPU芯片單點(diǎn)降溫，且冷液的比熱容是空氣的4倍，換熱效率更高，對GPU更友好；

3. 無壓縮機(jī)，風(fēng)扇等部件，系統(tǒng)PUE更低，設(shè)備噪音更小。

冷板式液冷對比傳統(tǒng)氣流交換方式，在綜合性能上有質(zhì)的飛躍，更貼合算力業(yè)務(wù)的特點(diǎn)，液冷系統(tǒng)單柜功率密度支持19kW以上，能提高散熱效率，降低GPU工作溫度達(dá)20℃以上。

當(dāng)然，浩云長盛認(rèn)為目前最佳的方案，應(yīng)該是風(fēng)液結(jié)合的方案，通道散熱風(fēng)液結(jié)合，液冷協(xié)助GPU散熱，風(fēng)冷作為輔助散熱，帶走其余部件的熱量；液冷機(jī)柜和風(fēng)冷機(jī)柜混合部署，客戶的普通機(jī)柜和算力機(jī)柜能夠就近協(xié)作，提升配合效率，且方便維護(hù)。

液冷是算力業(yè)務(wù)的剛需

過去，對于最終用戶來說，用什么樣的制冷方式并不重要，風(fēng)冷，水冷，間接蒸發(fā)，只要能達(dá)到功率需求都可以接受，但是在算力時(shí)代，思維方式可能要做一些改變了，因?yàn)樗懔Y產(chǎn)越來越難獲取，也越來越昂貴，而制冷方式的匹配與否，直接影響到業(yè)務(wù)上線速度和投資成本。

第一，相對風(fēng)冷制冷環(huán)境，液冷能夠提升GPU性能10%。根據(jù)設(shè)定，GPU長期高溫運(yùn)行性能會(huì)降低，液冷能提供高效的熱散能力，提升GPU使用性能，根據(jù)OPPO算力團(tuán)隊(duì)在IDCC論壇上表示，通過驗(yàn)證，同樣的算力配置，服務(wù)器在液冷方式下運(yùn)行比風(fēng)冷效率提升約10%，意味著同樣的算力，液冷的學(xué)習(xí)周期比風(fēng)冷短10%，業(yè)務(wù)能更早搶占市場。

第二，液冷能夠降低IB線纜部署成本30%以上。單臺H800服務(wù)器4U即達(dá)9kW，采用傳統(tǒng)的風(fēng)冷制冷，單柜僅能放置1臺，且需隔機(jī)柜部署，如果采用冷板式液冷方式，單柜可直接布置2臺H800服務(wù)器，無需隔機(jī)柜部署。以單排微模塊15個(gè)機(jī)柜為例， 7臺H800服務(wù)器需要14個(gè)機(jī)柜位,線纜總長度49A（A為相鄰兩個(gè)機(jī)柜間的平均線纜連接距離），如果每柜可以放2臺，則只需要4個(gè)機(jī)柜位置（如下圖），線纜總長度16A，IB線纜長度節(jié)省超50%以上，而IB線纜每根價(jià)格在萬元級別，長度越長價(jià)格越貴?？紤]到價(jià)格與長度的關(guān)系非線性，且與場景有關(guān)，項(xiàng)目節(jié)省線纜金額在30%以上。

風(fēng)冷部署與液冷部署線纜使用長度對比

我們相信，傳輸距離變短也會(huì)有利于算力模塊之間的數(shù)據(jù)共享速率提升。有客戶明確要求，服務(wù)器到IB交換機(jī)柜的走線距離小于30米。

第三，液冷能夠降低GPU維護(hù)成本50%，提升投資收益。液冷冷板針對GPU精準(zhǔn)、高效的散熱，降低GPU使用溫度可達(dá)20℃，根據(jù)“十度法則”，GPU故障率減少至少50%（在風(fēng)冷故障率基礎(chǔ)之上），繼而減少GPU備件購買量，未來GPU市場的不確定性，也會(huì)導(dǎo)致GPU的采購難度會(huì)加大，采購成本增加，因此維持較低的GPU故障率能夠節(jié)省投資成本和時(shí)間成本，更不會(huì)因?yàn)镚PU卡緊缺，而影響業(yè)務(wù)連續(xù)性。

綜上，對于最終客戶來說，隨著未來技術(shù)的迭代，GPU功耗增加，液冷已經(jīng)不再是改善需求，而是智能算力的剛需。

關(guān)鍵詞：

液冷新時(shí)代智算大有為浩云長盛液冷數(shù)據(jù)中心最佳實(shí)踐

您可能也感興趣:

今日熱點(diǎn)

網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管理的十大關(guān)鍵要素

領(lǐng)證跟拍、婚宴訂單大漲 “七夕”結(jié)婚登記熱釋放服務(wù)消費(fèi)新活力

港股收盤(08.21) | 恒指收跌1.82% 大金融板塊全天走弱星空華文(06698)再重挫31%

更多

更多

排行

最近更新

今日要聞

液冷新時(shí)代 智算大有為 浩云長盛液冷數(shù)據(jù)中心最佳實(shí)踐

您可能也感興趣:

今日熱點(diǎn)

網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管理的十大關(guān)鍵要素

領(lǐng)證跟拍、婚宴訂單大漲 “七夕”結(jié)婚登記熱釋放服務(wù)消費(fèi)新活力

港股收盤(08.21) | 恒指收跌1.82% 大金融板塊全天走弱 星空華文(06698)再重挫31%

為您推薦

華是科技漲20.01%

為什么大家千萬不要領(lǐng)失業(yè)補(bǔ)助金,領(lǐng)了失業(yè)補(bǔ)助金有什么后果？

SPD概念持續(xù)走低 開開實(shí)業(yè)跌停

專家稱金價(jià)上破2000美元后會(huì)下跌，漲到6000美元不可想象！

更多

更多

排行

最近更新

今日要聞

液冷新時(shí)代智算大有為浩云長盛液冷數(shù)據(jù)中心最佳實(shí)踐

港股收盤(08.21) | 恒指收跌1.82% 大金融板塊全天走弱星空華文(06698)再重挫31%

為什么大家千萬不要領(lǐng)失業(yè)補(bǔ)助金,領(lǐng)了失業(yè)補(bǔ)助金有什么后果？

SPD概念持續(xù)走低開開實(shí)業(yè)跌停

專家稱金價(jià)上破2000美元后會(huì)下跌，漲到6000美元不可想象！