“燒錢(qián)”的大模型，如何邁過(guò)存儲(chǔ)這道坎？

2023-08-31 12:30:13 來(lái)源: Alter聊科技

幾乎每一個(gè)行業(yè)都在討論大模型，每一個(gè)行業(yè)巨頭都在訓(xùn)練大模型，人工智能已然進(jìn)入了大模型主導(dǎo)的時(shí)代。

想要占領(lǐng)大模型應(yīng)用的高地，數(shù)據(jù)和算力可以說(shuō)是不可或缺的基石。和算力相關(guān)的討論已經(jīng)有很多，以至于英偉達(dá)的市值在2023年翻了兩番。同樣不應(yīng)小覷的還有數(shù)據(jù)，除了數(shù)據(jù)量的爆炸性增長(zhǎng)，數(shù)據(jù)的讀取、寫(xiě)入、傳輸?shù)然A(chǔ)性能，開(kāi)始遇到越來(lái)越多的新挑戰(zhàn)。

01 “榨干”算力必須邁過(guò)的一道坎

在許多人的認(rèn)知里，訓(xùn)練大模型是一門(mén)燒錢(qián)的生意。坊間傳聞，GPT-4的訓(xùn)練成本高達(dá)10億美元，想要讓大模型釋放出應(yīng)有的“魔法”，“涌現(xiàn)”出對(duì)答如流的能力，需要一只“獨(dú)角獸”的前期投入。

(資料圖)

再具體一些的話，大模型訓(xùn)練的成本構(gòu)成中，硬件投資包括算力、運(yùn)力、存力，其中算力相關(guān)硬件投資占比80%。畢竟一顆80GB的A100芯片在國(guó)外的定價(jià)就高達(dá)萬(wàn)美元左右，一個(gè)千億級(jí)參數(shù)的大模型，往往需要上萬(wàn)顆A100的算力?？稍诂F(xiàn)實(shí)的訓(xùn)練過(guò)程中，GPU的平均利用率卻不足50%，制約因素包括大模型參數(shù)需要頻繁調(diào)優(yōu)、訓(xùn)練中斷后恢復(fù)周期長(zhǎng)、數(shù)據(jù)加載速度慢等等。

不客氣的說(shuō)，算力資源閑置的每一分鐘都是在燃燒經(jīng)費(fèi)，倘若可以進(jìn)一步提高算力資源的利用率，等于間接降低了大模型的訓(xùn)練成本。要提到算力利用率，必須要邁過(guò)的一道坎就是數(shù)據(jù)讀寫(xiě)性能的挑戰(zhàn)。

大模型在訓(xùn)練過(guò)程中，需要先讀取一塊數(shù)據(jù)，在數(shù)據(jù)讀取完成后進(jìn)行訓(xùn)練，訓(xùn)練過(guò)程中會(huì)讀取下一塊數(shù)據(jù)。如果訓(xùn)練結(jié)束時(shí)下一塊數(shù)據(jù)沒(méi)有讀取完成，就會(huì)造成一定的等待時(shí)間。再加上網(wǎng)絡(luò)波動(dòng)、算力故障導(dǎo)致的訓(xùn)練中斷，即Checkpoint時(shí)刻，重啟訓(xùn)練會(huì)退回到前一個(gè)節(jié)點(diǎn)，同樣會(huì)產(chǎn)生算力空置的等待時(shí)間。

不那么樂(lè)觀的是，目前的訓(xùn)練數(shù)據(jù)通常以圖片、文檔等小文件的形式存在，意味著在訓(xùn)練過(guò)程中需要頻繁地讀取和寫(xiě)入數(shù)據(jù)，并且需要支持快速地隨機(jī)訪問(wèn)。何況大模型訓(xùn)練的原始數(shù)據(jù)集動(dòng)輒幾十個(gè)TB，當(dāng)前文件系統(tǒng)的小文件加載速度不足100MB/s，無(wú)形中限制了整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)效率。

根據(jù)第一性原理，大模型訓(xùn)練時(shí)算力利用率低的誘因是海量的小文件，傳統(tǒng)存儲(chǔ)系統(tǒng)無(wú)法高效地處理這些數(shù)據(jù)，導(dǎo)致加載速度緩慢。大模型訓(xùn)練的效率要達(dá)到極致，減少不必要的浪費(fèi)，必須在數(shù)據(jù)上下功夫，準(zhǔn)確地說(shuō)，必須要在數(shù)據(jù)存儲(chǔ)性能上進(jìn)行創(chuàng)新。

而華為在高性能NAS存儲(chǔ)上深耕多年，其OceanStor Dorado全閃存NAS擁有業(yè)界領(lǐng)先性能，尤其在海量小文件場(chǎng)景，性能做到了領(lǐng)先業(yè)界30%。

在openEuler開(kāi)發(fā)者大會(huì)2023上，華為還攜手openEuler發(fā)布了NFS+協(xié)議，矛頭直指客戶(hù)端訪問(wèn)OceanStor Dorado NAS的性能，試圖通過(guò)引入外置高性能并行文件存儲(chǔ)系統(tǒng)，縮短大模型訓(xùn)練中的等待時(shí)間，盡可能把算力的價(jià)值“榨”出來(lái)。

02 華為NFS+協(xié)議帶來(lái)的“屠龍術(shù)”

揭開(kāi)華為NFS+協(xié)議的“面紗”前，似乎有必要回顧下NFS協(xié)議的歷史。作為Sun公司在1984年開(kāi)發(fā)的分布式文件系統(tǒng)協(xié)議，NFS已經(jīng)存在了近40年，廣泛應(yīng)用于金融、EDA仿真、話單、票據(jù)影像等行業(yè)。

只是在時(shí)間的推移下，“老將”NFS逐漸暴露出了一些短板。比如傳統(tǒng)NFS單個(gè)掛載點(diǎn)僅指定一個(gè)服務(wù)端IP地址，在網(wǎng)口故障或者鏈路故障場(chǎng)景下，可能出現(xiàn)掛載點(diǎn)無(wú)法訪問(wèn)的情況；一端故障時(shí)IP無(wú)法感知時(shí)，僅依靠應(yīng)用層手動(dòng)掛載文件系統(tǒng)，雙活鏈路無(wú)法自動(dòng)切換；單個(gè)掛載點(diǎn)性能受限于單個(gè)物理鏈路性能，重要業(yè)務(wù)存在性能瓶頸。

大約在兩年前，華為開(kāi)始了NFS+協(xié)議的研發(fā)，著力解決傳統(tǒng)NFS的不足，最終交出了一份“高可靠高可用”的答卷：

一是可靠性。打個(gè)比方的話，傳統(tǒng)NFS的客戶(hù)端和服務(wù)端之間僅有一條路，NFS+協(xié)議允許單個(gè)NFS掛載點(diǎn)使用多個(gè)IP進(jìn)行訪問(wèn)，等于在客戶(hù)端和服務(wù)端之間修了多條路，巧妙解決了傳統(tǒng)NFS被詬病的“可靠性”問(wèn)題。

二是多鏈路聚合。客戶(hù)端和服務(wù)端之間僅有一條路時(shí)，一旦出現(xiàn)事故就會(huì)導(dǎo)致交通擁堵；而NFS+協(xié)議在選路算法的加持下，實(shí)現(xiàn)了單個(gè)掛載點(diǎn)在多條鏈路上均衡下發(fā)IO，確保服務(wù)端和客戶(hù)端的數(shù)據(jù)傳輸暢通無(wú)阻。

三是緩存加速。大模型訓(xùn)練時(shí)，需要將元數(shù)據(jù)緩存到計(jì)算節(jié)點(diǎn)。傳統(tǒng)NFS相對(duì)保守，緩存過(guò)期的時(shí)間比較短。而NFS+協(xié)議改善了緩存大小和失效機(jī)制，可以讓元數(shù)據(jù)更多、更長(zhǎng)時(shí)間保存在主機(jī)側(cè)，以滿(mǎn)足大模型訓(xùn)練的高時(shí)延需求。

四是數(shù)據(jù)視圖同步。正如前面所提到的，大模型訓(xùn)練需要快速的隨機(jī)訪問(wèn)，NFS+協(xié)議采用了數(shù)據(jù)視圖同步的方式，大模型訓(xùn)練需要讀取某個(gè)節(jié)點(diǎn)的數(shù)據(jù)時(shí)，直接與對(duì)應(yīng)節(jié)點(diǎn)高效地放置和訪問(wèn)數(shù)據(jù)，找到最優(yōu)的訪問(wèn)鏈路。

做一個(gè)總結(jié)的話，NFS+協(xié)議采用了高性能并行文件存儲(chǔ)系統(tǒng)的設(shè)計(jì)，針對(duì)海量小文件場(chǎng)景進(jìn)行了特殊優(yōu)化，比如多鏈路聚合、緩存加速、數(shù)據(jù)視圖同步等，均在提升海量小文件的讀寫(xiě)性能，最終在大模型訓(xùn)練過(guò)程中實(shí)現(xiàn)“讀寫(xiě)快、少等待”，減少算力的空置時(shí)間。

一組Client測(cè)試數(shù)據(jù)印證了NFS+協(xié)議的路線正確：相較于傳統(tǒng)的文件存儲(chǔ)，訓(xùn)練樣本小IO隨機(jī)讀性能提升了4倍以上，CheckPoint大文件切片+多路徑傳輸提升了4-6倍的帶寬能力，足以滿(mǎn)足大模型訓(xùn)練的苛刻要求。

03 數(shù)據(jù)存儲(chǔ)進(jìn)入到“大模型時(shí)代”

某種程度上說(shuō)，大模型訓(xùn)練催生的數(shù)據(jù)存儲(chǔ)性能要求，不過(guò)是文件存儲(chǔ)系統(tǒng)加速演變的一個(gè)側(cè)面。

直到今天，文件存儲(chǔ)的需求仍在不斷更新，文件系統(tǒng)的創(chuàng)新也在持續(xù)發(fā)生，就像大模型訓(xùn)練需求所折射出的演進(jìn)方向。

要知道，英偉達(dá)的一個(gè)訓(xùn)練節(jié)點(diǎn)，每秒就可以處理2萬(wàn)張圖片，每個(gè)節(jié)點(diǎn)需要8萬(wàn)IOPS，大模型典型配置有是千億參數(shù)千卡，單位時(shí)間內(nèi)對(duì)海量小文件的讀寫(xiě)頻率要求極高。

這恐怕也是華為和openEuler聯(lián)合發(fā)布NFS+協(xié)議的原因，市場(chǎng)對(duì)于文件系統(tǒng)的創(chuàng)新需求驟然加快，勢(shì)必會(huì)引發(fā)頭部科技企業(yè)圍繞數(shù)據(jù)存儲(chǔ)的“軍備競(jìng)賽”，華為無(wú)疑是這場(chǎng)競(jìng)賽中沖在最前面的玩家之一。

但對(duì)文件存儲(chǔ)系統(tǒng)的市場(chǎng)格局稍作了解的話，華為自研NFS+協(xié)議，還隱藏著另一重深意。

一方面，Lustre、GFPS、BeeGFS等并行系統(tǒng)的MDS方案，將元數(shù)據(jù)和文件數(shù)據(jù)訪問(wèn)分開(kāi)，仍存在性能和可靠性的瓶頸；而NFS+協(xié)議的元數(shù)據(jù)不再聚焦于某個(gè)性能節(jié)點(diǎn)，而是分配到集群的所有節(jié)點(diǎn)里面，可以在主機(jī)側(cè)實(shí)現(xiàn)多連接，消除了大模型語(yǔ)境下高頻處理小文件的底層瓶頸。

另一方面，站在大多數(shù)用戶(hù)的角度上，NFS+協(xié)議可以更好的兼容已有的使用習(xí)慣，原先建立在傳統(tǒng)NFS上的運(yùn)維機(jī)制和知識(shí)體系不作廢，文件系統(tǒng)的切換過(guò)程更平緩，不用修改操作系統(tǒng)數(shù)據(jù)面，即可讓NAS存儲(chǔ)訪問(wèn)性能提升6倍、可靠性提升3倍，以極低的成本擁抱大模型訓(xùn)推浪潮。

無(wú)可否認(rèn)的是，大模型正在從前臺(tái)的“火熱”，轉(zhuǎn)向整個(gè)產(chǎn)業(yè)鏈條的協(xié)同驅(qū)動(dòng)，數(shù)據(jù)存儲(chǔ)正是其中的關(guān)鍵一環(huán)。

在這樣的趨勢(shì)下，行業(yè)注意力將從“煉?！币徊讲睫D(zhuǎn)向更高效、更快速的“煉?！保Ａ啃∥募牟杉图虞d性能、算力資源的利用率等指標(biāo)，將被越來(lái)越多的企業(yè)所關(guān)注，勢(shì)必會(huì)掀起一場(chǎng)化繁為簡(jiǎn)的文件存儲(chǔ)革命。

關(guān)鍵詞：

“燒錢(qián)”的大模型，如何邁過(guò)存儲(chǔ)這道坎？

01 “榨干”算力必須邁過(guò)的一道坎

02 華為NFS+協(xié)議帶來(lái)的“屠龍術(shù)”

03 數(shù)據(jù)存儲(chǔ)進(jìn)入到“大模型時(shí)代”

您可能也感興趣:

今日熱點(diǎn)

8月29日三聯(lián)鍛造漲停分析：新能源車(chē)零部件，汽車(chē)零部件，新能源汽車(chē)...

p4550凱撒（p4550!!!!!!!）

加拿大一原住民寄宿學(xué)校舊址新發(fā)現(xiàn)93個(gè)疑似無(wú)標(biāo)記墓地

更多

更多

排行

最近更新

今日要聞

“燒錢(qián)”的大模型，如何邁過(guò)存儲(chǔ)這道坎？

01 “榨干”算力必須邁過(guò)的一道坎

02 華為NFS+協(xié)議帶來(lái)的“屠龍術(shù)”

03 數(shù)據(jù)存儲(chǔ)進(jìn)入到“大模型時(shí)代”

您可能也感興趣:

今日熱點(diǎn)

8月29日三聯(lián)鍛造漲停分析：新能源車(chē)零部件，汽車(chē)零部件，新能源汽車(chē)...

p4550凱撒（p4550!!!!!!!）

加拿大一原住民寄宿學(xué)校舊址新發(fā)現(xiàn)93個(gè)疑似無(wú)標(biāo)記墓地

為您推薦

鄉(xiāng)村振興板塊8月30日跌0.75%，廈門(mén)象嶼領(lǐng)跌，主力資金凈流出3.93億元

下雨了抒發(fā)心情的說(shuō)說(shuō)

怎么算無(wú)期徒刑假釋考驗(yàn)期

酒駕應(yīng)該如何處,法律是如何規(guī)定的

更多

更多

排行

最近更新

今日要聞

“燒錢(qián)”的大模型，如何邁過(guò)存儲(chǔ)這道坎？

8月29日三聯(lián)鍛造漲停分析：新能源車(chē)零部件，汽車(chē)零部件，新能源汽車(chē)...

鄉(xiāng)村振興板塊8月30日跌0.75%，廈門(mén)象嶼領(lǐng)跌，主力資金凈流出3.93億元