馬斯克旗下xAI只用了122天就建成了名為“巨像”的超算,而業(yè)內(nèi)平均建設(shè)周期需要4年。 孟菲斯數(shù)據(jù)中心建設(shè)之所以如此迅速,是因馬斯克省略了幾個關(guān)鍵步驟,如在沒有獲得充足電力供應(yīng)的情況下就先啟動了建設(shè),這種策略在他旗下多家公司屢試不爽。 xAI建造超算的速度將是大多數(shù)企業(yè)的五倍,馬斯克親自參與監(jiān)督了數(shù)據(jù)中心的如期交付。 亞馬遜、微軟、谷歌以及OpenAI等公司正嘗試效仿馬斯克的方法,來建造規(guī)模更大的數(shù)據(jù)中心。 作為全球首富,埃隆·馬斯克(Elon Musk)在極短的時間內(nèi),摒棄了企業(yè)構(gòu)建數(shù)據(jù)中心的傳統(tǒng)方式,為他旗下人工智能新興企業(yè)xAI部署了當(dāng)前世界上規(guī)模最大、速度更快的超級計算機(jī)。此舉不僅令業(yè)界競爭對手深感震撼,同時也加劇了OpenAI、微軟、谷歌等公司在超大規(guī)模數(shù)據(jù)中心領(lǐng)域的競爭態(tài)勢。 “巨像”在兩個方面驚呆對手 今年10月份一個陽光明媚的日子,一架螺旋槳飛機(jī)在美國田納西州孟菲斯市中心附近一座被翠綠草坪環(huán)繞的宏偉工業(yè)建筑上空盤旋,機(jī)上的乘客紛紛記錄下該設(shè)施的影像資料。 此次飛行實則是一次秘密偵察行動。馬斯克近期將這棟原本是家用電器制造工廠改造成了數(shù)據(jù)中心,內(nèi)部有世界上規(guī)模最大的服務(wù)器集群,專門用于人工智能模型的訓(xùn)練。馬斯克為xAI打造的人工智能超級計算機(jī),其建設(shè)速度之快,在OpenAI等競爭對手的高層中引發(fā)了廣泛的憂慮與不解。 據(jù)看過這些照片的知情人士透露,機(jī)上乘客來自一家與馬斯克數(shù)據(jù)中心構(gòu)成競爭關(guān)系的企業(yè),他們試圖深入了解這個被嚴(yán)密防護(hù)的數(shù)據(jù)中心的運(yùn)營細(xì)節(jié)。這些知情者還觀察到,馬斯克利用卡車運(yùn)送了多臺燃?xì)鉁u輪機(jī)至現(xiàn)場,為設(shè)施提供電力支持,并努力探尋xAI如何高效管理建筑內(nèi)服務(wù)器散熱的解決方案。 孟菲斯上空的偵察飛行,凸顯了科技領(lǐng)域最燒錢競賽中的一場高風(fēng)險較量。微軟、Meta、谷歌和亞馬遜等科技巨頭都在競相投資新建數(shù)據(jù)中心,以支持ChatGPT等人工智能技術(shù)。 這是一個冒險的豪賭,它基于一個簡單的信念:服務(wù)器集群的規(guī)模越大,其訓(xùn)練出來的人工智能表現(xiàn)就越出色。2022年末,OpenAI推出的聊天機(jī)器人ChatGPT風(fēng)靡全球,不僅在科技行業(yè)掀起軒然大波,也加劇了各方對超大規(guī)模服務(wù)器集群的激烈爭奪。 作為OpenAI的聯(lián)合創(chuàng)始人及早期資助者(盡管后來分道揚(yáng)鑣),馬斯克在數(shù)據(jù)中心競賽的序幕剛剛拉開之時便已加入戰(zhàn)局。憑借非凡的雄心壯志、不懈的努力以及對傳統(tǒng)數(shù)據(jù)中心建設(shè)常規(guī)的挑戰(zhàn),他成功地在業(yè)界掀起了軒然大波。 馬斯克的超級計算機(jī)“巨像”(Colossus)在兩個方面令競爭對手瞠目結(jié)舌:其龐大的規(guī)模以及xAI驚人的建造速度。這臺超級計算機(jī)配備了10萬顆GPU,它是訓(xùn)練和運(yùn)行人工智能軟件的理想選擇,其規(guī)模遠(yuǎn)超Meta等科技巨頭以往打造的類似超級計算機(jī)。 四年建設(shè)周期縮短至122天 將如此龐大的GPU集群整合到一臺超級計算機(jī)中絕非易事,因為服務(wù)器需要消耗巨額的電力,且連接芯片的網(wǎng)絡(luò)設(shè)備也面臨著嚴(yán)重的帶寬瓶頸。xAI如此迅速地完成這一項目,實屬前所未聞。 馬斯克與為“巨像”提供GPU的人工智能芯片領(lǐng)軍企業(yè)英偉達(dá)共同宣布,該數(shù)據(jù)中心與超級計算機(jī)僅耗時122天便宣告竣工。在最近的播客訪談中,英偉達(dá)首席執(zhí)行官黃仁勛坦言,如此規(guī)模的GPU集群往往需要三年的規(guī)劃與設(shè)計周期,再加上一年的建設(shè)時間方能投入使用。 談及“巨像”項目時,黃仁勛在播客中感慨道:“毋庸置疑,現(xiàn)在大家都輾轉(zhuǎn)難眠了!據(jù)我所知,全球唯有馬斯克一人具備這樣的能力,他對工程、建筑、大型系統(tǒng)構(gòu)建以及資源調(diào)配的獨到見解,堪稱舉世無雙! 馬斯克之所以能在孟菲斯迅速建成數(shù)據(jù)中心,部分歸因于他省略了幾個關(guān)鍵步驟。例如,他在尚未從電網(wǎng)獲取足夠電力以運(yùn)行“巨像”的情況下便啟動了建設(shè)。然而,這種打破常規(guī)的做法正是馬斯克在多家公司屢試不爽的策略之一。 例如,在特斯拉,馬斯克曾在一個停車場為Model 3汽車搭建了一條生產(chǎn)線,從而繞過了在加州擴(kuò)建汽車廠所需的繁瑣許可流程。在SpaceX,他不斷催促工程師精簡火箭上他認(rèn)為不必要的部件,或采用非太空專用設(shè)計的更廉價部件。 盡管xAI的人工智能工具目前仍顯著落后于OpenAI,但馬斯克建造超級計算機(jī)的速度已引起了OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)的高度警覺。據(jù)內(nèi)部消息透露,在馬斯克于X平臺發(fā)帖后,奧特曼與微軟的基礎(chǔ)設(shè)施高層發(fā)生了爭執(zhí),他表達(dá)了對xAI發(fā)展速度可能超越微軟的擔(dān)憂。 奧特曼還憂慮xAI可能會迅速擁有比OpenAI更強(qiáng)大的超級計算機(jī)。這一擔(dān)憂促使OpenAI首次考慮尋求微軟以外的合作方案。目前,一個備選方案正在得克薩斯州阿比林(Abilene)的一片荒蕪平地上緊鑼密鼓地建設(shè)中,有些公司正為即將落成的數(shù)據(jù)中心做前期準(zhǔn)備,該中心預(yù)計明年將為OpenAI部署10萬顆芯片。 得克薩斯州阿比林的一處數(shù)據(jù)中心建設(shè)現(xiàn)場,預(yù)計明年將部署擁有10萬個芯片的OpenAI超級計算機(jī) 現(xiàn)場施工進(jìn)展異常迅速。在最近的一次現(xiàn)場探訪中,一位項目承包商透露,多數(shù)建筑尚未砌墻。承包商正在場外預(yù)制該設(shè)施的大部分組件,以便到場后迅速組裝。 或許不久的將來,即便是阿比林和孟菲斯的超級計算機(jī)也會顯得相對渺小。包括微軟在內(nèi)的一些科技巨頭已著手討論建設(shè)規(guī)模更為龐大的數(shù)據(jù)中心項目,這些項目將包含數(shù)百萬個GPU,每個項目的成本預(yù)計超過1000億美元。 這一趨勢極可能持續(xù)發(fā)酵,因為數(shù)據(jù)中心行業(yè)的幾乎所有參與者都在密切關(guān)注競爭對手的每一步動向。 “數(shù)據(jù)中心市場相對狹小,每個人都緊盯著行業(yè)內(nèi)的一舉一動”,DPR Construction高級數(shù)據(jù)中心團(tuán)隊的負(fù)責(zé)人約翰·阿塞洛(John Arcello)表示。DPR Construction曾為Meta等大型企業(yè)建造數(shù)據(jù)中心,目前正參與阿比林的項目建設(shè)。 建設(shè)“計算超級工廠” 今年早些時候,馬斯克開始著手整合創(chuàng)建xAI所需的龐大算力。xAI是他在2023年創(chuàng)立的一家公司,迅速成為人工智能領(lǐng)域的強(qiáng)勁對手。當(dāng)時,馬斯克已向甲骨文租用GPU,用于訓(xùn)練xAI的大語言模型Grok的初始版本。 為了進(jìn)一步提升Grok的性能,馬斯克亟需擴(kuò)充算力資源。今年5月,他通過視頻連線與潛在的xAI投資者進(jìn)行了交流,作為籌集數(shù)十億美元資金的前期鋪墊。據(jù)一位參會投資者透露,馬斯克在會上描繪了一幅打造全球最大超級計算機(jī)的愿景,他將其命名為“計算超級工廠”,就像特斯拉在全球布局的龐大生產(chǎn)基地一樣。 馬斯克與xAI不足12人的團(tuán)隊圍坐一桌,詳細(xì)闡述了他的計劃:將10萬顆英偉達(dá)H100(當(dāng)時市場上最尖端的GPU)集成至一個超級計算機(jī)集群中。屏幕上展示的一張圖表清晰地顯示,xAI建造超級計算機(jī)的速度將是大多數(shù)企業(yè)的五倍之快。該公司正以“令人難以置信的速度”全速前進(jìn),并鄭重承諾:“馬斯克將親自監(jiān)督數(shù)據(jù)中心的如期交付! 馬斯克向投資者透露,他尚未就是否與云計算服務(wù)提供商合作,還是獨立推進(jìn)該項目做出最終決定。 數(shù)周后,甲骨文的多位高層管理人員與馬斯克舉行了視頻會議,共同探討第一種合作方案。據(jù)知情人士透露,馬斯克向甲骨文提議,由甲骨文為xAI打造超級計算機(jī),此舉將使這家人工智能初創(chuàng)企業(yè)一躍成為甲骨文的重要客戶之一。 孟菲斯電器設(shè)備制造商Electrolux的工廠如今成為xAI超級計算機(jī)的所在地 馬斯克原本寄望于將xAI數(shù)據(jù)中心落戶于孟菲斯的Electrolux前工廠遺址,并期待在2024年秋季順利竣工。然而,據(jù)與會者透露,在一次電話會議中,甲骨文的高管向馬斯克坦言,他們難以按照馬斯克所期望的速度完成建設(shè)任務(wù)。 據(jù)知情人士透露,甲骨文高管指出,馬斯克所選中的大樓電力供應(yīng)不足,無法滿足他計劃安裝的芯片數(shù)量所需的能源。馬斯克很快就對甲骨文高管的反對意見感到失望與沮喪。最終,他決定讓xAI拋開甲骨文,獨立開發(fā)孟菲斯數(shù)據(jù)中心。 馬斯克在社交媒體上寫道:“甲骨文無疑是一家偉大的公司……但是,當(dāng)我們的命運(yùn)取決于成為迄今為止最快的公司時,我們必須親自掌舵,而非僅僅作為乘客坐在后座!” 打破常規(guī),采用臨時供電計劃 為了能在預(yù)期時間內(nèi)完工,馬斯克催促孟菲斯當(dāng)?shù)毓賳T以前所未有的速度批準(zhǔn)這個建設(shè)項目。而孟菲斯方面也表現(xiàn)得頗為急切,渴望滿足馬斯克的需求,以便能吸引他的業(yè)務(wù),為這座城市帶來發(fā)展機(jī)遇。 大孟菲斯商會主席泰德·湯森(Ted Townsend)在接受訪問時表示:“我們不分晝夜加班加點地工作,隨時都在接收短信和電話,力求展現(xiàn)出與xAI及其期望相匹配的干勁和效率! 今年6月初,湯森公開宣布,馬斯克已經(jīng)選定了孟菲斯作為xAI超級計算機(jī)的落戶地。緊接著的幾個星期里,馬斯克和他xAI的團(tuán)隊迅速拆除了孟菲斯的舊工廠,為放置英偉達(dá)GPU的機(jī)架騰出了大片空間,并開始安裝各種電氣、機(jī)械和管道設(shè)備,并為服務(wù)器部署了先進(jìn)的水冷系統(tǒng)。 然而,在這種飛快的施工進(jìn)度中,電力供應(yīng)卻成為了一個不小的障礙。起初,孟菲斯的這座工廠所提供的電力根本無法滿足xAI所有高能耗GPU的需求。通常情況下,這類問題很可能會讓數(shù)據(jù)中心項目的進(jìn)度脫軌或是延期。 但馬斯克總能想出巧妙的應(yīng)對之策:在等待地方當(dāng)局批準(zhǔn)他提出的在現(xiàn)場增加100兆瓦電力的請求期間,他引入了移動天然氣渦輪機(jī)來作為臨時的電力補(bǔ)充。而田納西河谷管理局也在上周通過了他的這一請求。 但馬斯克的這一舉動很快就引發(fā)了當(dāng)?shù)丨h(huán)保組織的強(qiáng)烈反對。他們向當(dāng)?shù)氐男l(wèi)生部門致信,指責(zé)xAI在未經(jīng)許可的情況下擅自運(yùn)行天然氣渦輪機(jī),對空氣造成了嚴(yán)重的污染。一位在微軟數(shù)據(jù)中心工作的高管也表示,考慮到微軟在氣候方面所設(shè)定的目標(biāo)和倡議,該公司絕不可能做出類似的事情來。 南方環(huán)境法中心的高級律師阿曼達(dá)·加西亞(Amanda Garcia)對田納西河谷管理局的決定表示反對,她表示:“使用天然氣渦輪機(jī),就像是在未獲得批準(zhǔn)的情況下偷偷建造違規(guī)發(fā)電廠,這著實令人震驚。畢竟,空氣污染已經(jīng)是孟菲斯西南部面臨的一個巨大挑戰(zhàn)。” 然而,馬斯克能夠迅速完成這個項目,背后或許還有其他一些助力因素。數(shù)據(jù)中心業(yè)務(wù)的高管們透露,在xAI開始使用這一超級計算機(jī)集群之前,“巨像”超算很可能無需經(jīng)過任何合規(guī)性測試。這主要是因為xAI計劃將這臺超級計算機(jī)專用于自身需求,而非出租給其他客戶。 相比之下,微軟在將服務(wù)器移交給OpenAI或其他Azure云客戶之前,必須經(jīng)過多次數(shù)據(jù)安全測試。這些客戶通常希望服務(wù)器能達(dá)到一定的正常運(yùn)行時間或隱私標(biāo)準(zhǔn)。 數(shù)據(jù)中心運(yùn)營商DataBank的首席執(zhí)行官勞爾·馬丁內(nèi)克(Raul Martynek)表示:“我們必須通過所有這些不同的行業(yè)認(rèn)證。我可以肯定地說,xAI數(shù)據(jù)中心目前還無法通過這些認(rèn)證! 馬斯克打造“巨像”超算的努力確實遭到了不少質(zhì)疑。多位數(shù)據(jù)中心高管認(rèn)為,將制造工廠等建筑改造為適用于GPU服務(wù)器和液體冷卻系統(tǒng)的設(shè)施極其困難。據(jù)兩名與xAI員工交談過的人士透露,在過去幾個月里,該設(shè)施的改造多次中斷。 但這些問題似乎并未拖慢xAI的腳步。馬斯克和英偉達(dá)表示,在首個服務(wù)器機(jī)架進(jìn)入數(shù)據(jù)中心僅僅19天后,他們就已經(jīng)開始了下一代Grok模型的首次訓(xùn)練。 在最近的一次訪談中,馬斯克的密友、他旗下多家公司的長期投資者安東尼奧·格拉西斯(Antonio Gracias)透露,xAI正在重新思考構(gòu)建數(shù)據(jù)中心的整個流程,“我們從最基本的原則出發(fā),努力使其更經(jīng)濟(jì)、更高效、更快捷! 格拉西斯繼續(xù)說道:“我在特斯拉、SpaceX等公司都看到過這種情況。在這些公司里,馬斯克是領(lǐng)航者,同時也有幾十名工程師在他的帶領(lǐng)下,共同致力于創(chuàng)造出盡可能最優(yōu)、最有效的系統(tǒng)! 其他科技巨頭緊緊追趕 今年夏天,隨著馬斯克在超級計算機(jī)領(lǐng)域取得顯著進(jìn)展的消息逐漸傳開,亞馬遜、微軟和谷歌這些巨頭的數(shù)據(jù)中心高管們紛紛致電英偉達(dá),詢問同一個問題:馬斯克是如何在超級計算機(jī)項目上取得如此神速進(jìn)展的? 據(jù)與這些公司有過交流的人士透露,不僅如此,包括Meta在內(nèi)的其他一些公司的高管們還聯(lián)系了一家小型云提供商,探詢這些公司是否能以比他們自己建設(shè)數(shù)據(jù)中心更快的速度為他們提供所需的容量。 隨著有關(guān)孟菲斯數(shù)據(jù)中心的信息不斷被披露,這些公司對于揭開該項目成功奧秘的渴望愈發(fā)強(qiáng)烈。數(shù)據(jù)中心和云計算業(yè)務(wù)的管理人員們對該設(shè)施的圖像進(jìn)行了仔細(xì)研究,試圖從中收集到關(guān)于其設(shè)計的任何信息。 馬斯克在社交媒體平臺X上發(fā)布了幾張數(shù)據(jù)中心內(nèi)部的照片,進(jìn)一步滿足了公眾的好奇心。上個月,一位行業(yè)分析師在參觀了“巨像”所在設(shè)施后,還在YouTube上發(fā)布了一段視頻。 xAI孟菲斯數(shù)據(jù)中心內(nèi)部 與此同時,在與xAI的談判于今年夏天破裂之后,甲骨文迅速與OpenAI達(dá)成了提供計算能力的協(xié)議。據(jù)悉,新的OpenAI數(shù)據(jù)中心將落戶阿比林,為此,甲骨文已經(jīng)與創(chuàng)業(yè)公司Crusoe和Lancium共同簽署了一項開發(fā)協(xié)議。 上個月,Crusoe成功籌集了超過30億美元的資金,用于推進(jìn)數(shù)據(jù)中心的初期建設(shè)。這個數(shù)據(jù)中心將配備10萬顆英偉達(dá)即將推出的新型GPU,即GB 200。 與馬斯克在孟菲斯的項目一樣,Crusoe也在全力推動項目的快速完成。DPR公司的阿塞洛承擔(dān)了該項目的建設(shè)工作,并表示這是他參與過的建設(shè)速度最快的項目之一。兩家公司從3月份開始討論數(shù)據(jù)中心的設(shè)計方案,到了6月份就已經(jīng)破土動工。 幾個星期前,阿比林的工地上,建筑工人們正緊鑼密鼓地砍伐樹木,為新電站騰出空間,并且每天都在盡可能地加快混凝土澆筑工作。據(jù)三名知情人士透露,為了確保能夠按時向現(xiàn)場供電,OpenAI已經(jīng)要求項目合作伙伴考慮使用天然氣渦輪機(jī)作為備用方案。 在最近的一次現(xiàn)場參觀中,當(dāng)被問及為何數(shù)據(jù)中心的快速建設(shè)會引起如此大的關(guān)注時,一位承包商回答道:“誰能更快地制造出自己的超級計算機(jī),誰就幾乎可以統(tǒng)治世界!” 本文來源:騰訊科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選