IT之家7月24日消息,埃隆?馬斯克的孟菲斯超級(jí)計(jì)算集群(Memphis Supercluster)已上線,據(jù)馬斯克介紹稱,該集群在單個(gè) RDMA fabric 上使用 10 萬(wàn)張液冷 H100,是“世界上最強(qiáng)大的 AI 訓(xùn)練集群”。
如此龐大的算力自然需要驚人的電力供應(yīng),每個(gè) H100 GPU 至少消耗 700 瓦電力,這意味著整個(gè)數(shù)據(jù)中心同時(shí)運(yùn)行需要超過(guò) 70 兆瓦的電力,這還不包括其他服務(wù)器、網(wǎng)絡(luò)和冷卻設(shè)備的耗電量。令人驚訝的是,由于與當(dāng)?shù)仉娋W(wǎng)的供電協(xié)議尚未敲定,馬斯克目前使用 14 臺(tái)大型移動(dòng)發(fā)電機(jī)為這個(gè)巨型設(shè)施供電。
AI 和半導(dǎo)體分析師 Dylan Patel 最初在社交媒體上表示,由于電力限制,馬斯克的孟菲斯超級(jí)計(jì)算集群可能無(wú)法運(yùn)行。他指出,目前僅從電網(wǎng)抽取了 7 兆瓦電力,只能支持約 4000 個(gè) GPU 運(yùn)行。田納西河谷管理局(TVA)將在 8 月 1 日之前向該設(shè)施提供 50 兆瓦電力,前提是 xAI 能簽署相關(guān)協(xié)議。Patel 還觀察到,xAI 場(chǎng)地的 150 兆瓦變電站仍在建設(shè)中,預(yù)計(jì)將于 2024 年第四季度完工。
然而,通過(guò)衛(wèi)星圖像分析,Patel 很快發(fā)推文稱他發(fā)現(xiàn)了馬斯克的解決辦法 —— 使用 14 臺(tái) VoltaGrid 移動(dòng)發(fā)電機(jī)連接到看起來(lái)像四個(gè)移動(dòng)變電站的設(shè)備。
每臺(tái)半掛車(chē)大小的發(fā)電機(jī)可提供 2.5 兆瓦電力,14 臺(tái)總共能提供驚人的 35 兆瓦電力。加上從電網(wǎng)獲得的 8 兆瓦電力,總共為 43 兆瓦,足以以有限功率運(yùn)行 3.2 萬(wàn)個(gè) H100 GPU。
如果田納西河谷管理局在 8 月初為其提供所需的 50 兆瓦電力,馬斯克將有足夠的電力同時(shí)運(yùn)行 6.4 萬(wàn)個(gè) GPU。Patel 表示,運(yùn)行 10 萬(wàn)個(gè) GPU 需要 155 兆瓦電力,但 xAI 需要變電站才能達(dá)到這個(gè)水平。因此,要么變電站提前完工,要么馬斯克將部署更多移動(dòng)發(fā)電機(jī)來(lái)滿足電力需求。
巨大的電力消耗及其對(duì)全球變暖的影響是目前 AI 數(shù)據(jù)中心面臨的主要問(wèn)題。僅 2023 年售出的所有數(shù)據(jù)中心 GPU 的耗電量就超過(guò)了 130 萬(wàn)個(gè)普通美國(guó)家庭耗電量的總和,給電網(wǎng)帶來(lái)了巨大壓力。而且,僅僅建設(shè)更多的發(fā)電廠并不能滿足數(shù)據(jù)中心的需求,還需要建設(shè)高壓輸電線路、變電站等額外基礎(chǔ)設(shè)施,才能將電力從發(fā)電廠輸送到服務(wù)器。
除了建設(shè) AI 計(jì)算所需電廠的時(shí)間和成本外,還必須考慮溫室氣體排放。雖然馬斯克在孟菲斯超級(jí)計(jì)算集群部署的移動(dòng)發(fā)電機(jī)使用天然氣作為燃料(比煤炭或石油更清潔),但在運(yùn)行過(guò)程中仍然會(huì)向大氣中排放碳。
IT之家注意到,谷歌最近透露,由于數(shù)據(jù)中心能源需求,其碳足跡自 2019 年以來(lái)增長(zhǎng)了 48%。因此可以預(yù)見(jiàn),除非馬斯克轉(zhuǎn)向更清潔的能源生產(chǎn)方式,否則 xAI 也將面臨同樣的問(wèn)題。
馬斯克正全力推動(dòng) xAI 成為 AI 開(kāi)發(fā)領(lǐng)域的領(lǐng)跑者,并為此不惜一切手段。希望使用移動(dòng)發(fā)電機(jī)只是暫時(shí)的解決方案,孟菲斯超級(jí)計(jì)算機(jī)集群需要過(guò)渡到更清潔的能源,而田納西河谷管理局可以提供這種能源。由于后者使用核能、水電和化石燃料發(fā)電的組合,如果 xAI 從其采購(gòu)電力而不是依賴僅使用天然氣的移動(dòng)發(fā)電機(jī),其碳足跡會(huì)更小。
評(píng)論