馬斯克的Grok-3,又給英偉達(dá)續(xù)命了? 用了20萬(wàn)張GPU訓(xùn)練的Grok-3,一下子讓市場(chǎng)重新找回對(duì)英偉達(dá)的信心——「力大磚飛」依然有效! 現(xiàn)在,英偉達(dá)的股價(jià)已經(jīng)重新回到DeepSeek-R1發(fā)布前的水平。 AI大佬們議論說(shuō),Grok-3證明——Scaling Law的神話并未終結(jié)。 在算力提升10倍的情況下,Scaling Law仍在呈線性增長(zhǎng)。既然能通過(guò)擴(kuò)大預(yù)訓(xùn)練規(guī)模,成功打造一個(gè)性能頂尖的非推理模型,就說(shuō)明盡管預(yù)訓(xùn)練代價(jià)高昂,但仍有很大發(fā)展空間。 LLM要發(fā)展往下發(fā)展,還要繼續(xù)囤GPU、堆算力嗎?Grok 3的發(fā)布,讓很多人又不確定了。 無(wú)論事實(shí)如何,最重要的是,市場(chǎng)和投資人的信心回來(lái)了。 Grok-3硬件成本被曝高達(dá)30億美金! 在多項(xiàng)基準(zhǔn)測(cè)試中,OpenAI和DeepSeek的模型紛紛被Grok-3超越;LMSYS Arena中,Grok-3直接屠榜,拿到1400的超高Elo評(píng)分,各大模型無(wú)出其右。 這就意味著,DeepSeek輸了嗎? 并不! 這是因?yàn),?xùn)練Grok-3的代價(jià),實(shí)在是太大了…… 馬斯克透露說(shuō),在預(yù)訓(xùn)練階段,Grok-3用掉的算力比Grok-2多10倍。 有人算了下xAI在孟菲斯中心GPU的總成本,如果按10萬(wàn)塊H100,每塊GPU費(fèi)用按30000美元計(jì)算,那Grok-3的總硬件消耗就在30億美元。 總成本:超過(guò)30億美元 訓(xùn)練時(shí)長(zhǎng):2億GPU小時(shí) 硬件投入:10萬(wàn)塊GPU(另有說(shuō)法是20萬(wàn)塊) 這些數(shù)字加起來(lái)看,實(shí)在驚人。 在直播中,xAI工程師對(duì)于未來(lái)Grok 3能訓(xùn)練到什么程度,也并不確定。 而相比之下,DeepSeek-V3的紙面訓(xùn)練成本是557.6萬(wàn)美元,用了2048塊英偉達(dá)H800,對(duì)比之下是高下立判。 來(lái)自「大師兄商業(yè)觀察」 另外,目前Grok-3是閉源的,每月收費(fèi)30美元,僅在未來(lái)幾個(gè)月計(jì)劃開源Grok-2。 而DeepSeek已經(jīng)以開源策略吸引了全球開發(fā)者,集成到了微信、百度、騰訊等主流應(yīng)用,在生態(tài)上領(lǐng)先一步。 總之,一個(gè)是大力出奇跡,一個(gè)是技術(shù)普惠,兩條路線孰優(yōu)孰劣,就讓我們靜觀后續(xù)吧。 Grok-3全網(wǎng)實(shí)測(cè) 話說(shuō)回來(lái),號(hào)稱全球最聰明的Grok-3,真的比DeepSeek-R1更快更好嗎? DeepSeek的前員工、現(xiàn)西北大學(xué)的博士生王子涵(Zihan Wang),馬上體驗(yàn)了Grok-3 beta版,問(wèn)了3個(gè)問(wèn)題: 這些小學(xué)生都能答對(duì)的問(wèn)題,Grok-3 beta回答全錯(cuò)了! 他表示這是天才不屑于笨問(wèn)題: 雖然多問(wèn)幾次后,Grok-3有時(shí)也能答對(duì)其中的一道題。 這引起了xAI的研究科學(xué)家、參與Grok項(xiàng)目的林禹臣(Bill Yuchen Lin)的注意,他表示目前Grok-3還在測(cè)試,但每天都應(yīng)該更好、更穩(wěn)定。 在不少網(wǎng)友的實(shí)測(cè)中,Grok-3的表現(xiàn)還是十分酷炫的。 Grok 3可以制作出類似馬里奧的小游戲。 有了Grok-3,你也可以自學(xué)編程。 一位網(wǎng)友在同樣的提示下,對(duì)比了Grok-3和DeepSeek(實(shí)際是R1)。 1. AI趨勢(shì)分析 在這道題中,兩個(gè)模型需要分析馬斯克關(guān)于AI安全的最近50篇文字,確定關(guān)鍵主題,并與LeCun發(fā)表的法語(yǔ)帖子進(jìn)行對(duì)比。 結(jié)果是Grok-3完勝,它有效確定了關(guān)鍵主題和對(duì)比的位置;而DeepSeek敗在了多語(yǔ)言解析和上下文分析這一步。 2. 媒體合成 這一題的任務(wù)是,「根據(jù)Prater博士在X上關(guān)于量子比特?cái)U(kuò)展的帖子,生成一張F(tuán)LUX風(fēng)格的量子計(jì)算機(jī)設(shè)計(jì)圖! 最終,Grok-3基于提取的數(shù)據(jù),創(chuàng)建出了對(duì)應(yīng)的圖像;而DeepSeek-V3由于不是多模態(tài)模型,因此沒能給出結(jié)果。 3. 代碼工作流 使用BeautifulSoup編寫一個(gè)Python腳本,從EDGAR抓取SEC文件,并包含針對(duì)速率限制的錯(cuò)誤處理。 最終,Grok-3提供了一個(gè)結(jié)構(gòu)化腳本,還使用了速率限制處理;而DeepSeek花了248秒來(lái)思考問(wèn)題,但并未執(zhí)行。 4. 限制下的創(chuàng)意發(fā)揮 「用莎士比亞風(fēng)格的十四行詩(shī),以五步抑揚(yáng)格解釋區(qū)塊鏈共識(shí)機(jī)制! 這道題,是DeepSeek-V3勝利了。它用完美無(wú)瑕的結(jié)構(gòu)化押韻,模仿了莎士比亞的風(fēng)格;而Grok-3則被難倒了。 在剩下的道德挑戰(zhàn)、爭(zhēng)議話題處理、內(nèi)容合規(guī)等方面,雙方都打成平手。 最終,Grok-3以4:3的比分勝出。 Ai2大佬:Grok-3,讓AI發(fā)展進(jìn)入新階段 艾倫人工智能研究所(Ai2)的Nathan Lambert認(rèn)為,Grok-3的發(fā)布的確意味著AI發(fā)展新階段。 xAI在直播中表示,他們幾乎「每天」都會(huì)更新Grok-3。曾經(jīng)那個(gè)AI公司喜歡壓著新模型不發(fā)的時(shí)代,即將結(jié)束。 自DeepSeek-V3/R1發(fā)布以來(lái),AI技術(shù)的發(fā)展既不是少數(shù)幾家公司的專利,發(fā)展速度也沒有放緩。 這是AI行業(yè)普遍認(rèn)同的趨勢(shì),而Grok-3的發(fā)布進(jìn)一步強(qiáng)化了這種趨勢(shì)。 在2023年和2024年,真正頂尖的AI技術(shù)主要集中在OpenAI、Anthropic和谷歌手中。 這些公司可以從容地將模型從訓(xùn)練到發(fā)布,同時(shí)憑借著「技術(shù)護(hù)城河」在能力上仍遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。 當(dāng)R1發(fā)布時(shí),最受歡迎的模型是Claude 3.5 Sonnet,它在「9-12個(gè)月前」就已完成訓(xùn)練。而像Claude 3.5 Opus或GPT-4.5(又稱Orion)等更強(qiáng)大的模型,都因各種原因沒有對(duì)用戶開放。 快速發(fā)布是最佳的方式 在DeepSeek和Grok帶來(lái)的競(jìng)爭(zhēng)壓力下,加上國(guó)內(nèi)外環(huán)境的變化,這些傳統(tǒng)的領(lǐng)先實(shí)驗(yàn)室將不得不加快產(chǎn)品發(fā)布節(jié)奏。 此前模型發(fā)布延遲的很大一部分原因是「安全測(cè)試」,但具體有多少是因?yàn)榘踩珳y(cè)試,多少是出于成本收益考慮(以及法務(wù)審查等大公司特有的問(wèn)題),我們并不清楚。 對(duì)于這些公司來(lái)說(shuō),擁有「最智能模型」的品牌和文化極為重要,但維持絕對(duì)領(lǐng)先的技術(shù)優(yōu)勢(shì)往往會(huì)帶來(lái)難以承受的財(cái)務(wù)壓力。 競(jìng)爭(zhēng)的加劇和監(jiān)管的減少,讓普通用戶能在更短的時(shí)間內(nèi)獲得更強(qiáng)大的AI。 實(shí)踐反復(fù)證明,擁有最強(qiáng)模型至關(guān)重要。而吸引新用戶的唯一方法,就是展示模型在某些能力或行為上與眾不同。 在當(dāng)前技術(shù)快速發(fā)展的背景下,要想最大限度地發(fā)揮影響力,最有效的方式就是盡可能縮短從訓(xùn)練到部署的時(shí)間。 如今,DeepSeek和xAI證明了,即使是在技術(shù)實(shí)力和資源配置上稍處劣勢(shì),也能夠在競(jìng)爭(zhēng)中脫穎而出,超越OpenAI、Anthropic等刻意按兵不動(dòng)、選擇不發(fā)布最新模型的公司。 預(yù)訓(xùn)練Scaling Law還能打?從技術(shù)層面來(lái)看,Grok-3無(wú)疑非常龐大。雖然沒有具體的細(xì)節(jié),但可以合理推測(cè),Scaling仍然有助于提升性能(但可能在成本方面并非如此)。 xAI的方法以及放出的消息一直是,盡快啟動(dòng)最大的計(jì)算集群。在獲得更多細(xì)節(jié)之前,最簡(jiǎn)單的解釋是,Scaling Law依然有效。但也有可能,Grok的表現(xiàn)更多來(lái)自于其他技術(shù),而不僅僅是單純的Scaling。 Nathan Lambert認(rèn)為,Grok-3是Scaling Law的又一次勝利: Grok 3憑借規(guī)模優(yōu)勢(shì)超越現(xiàn)有模型的情況,讓人回想起Nemotron 340B超越Llama 3 70B的時(shí)刻。當(dāng)時(shí)Nemotron雖然成為了開源模型中的佼佼者,但由于其性能提升相對(duì)于成本投入來(lái)說(shuō)性價(jià)比不高,市場(chǎng)接受度一直較低。 總的來(lái)說(shuō),盡管Grok-3在技術(shù)上取得了重大突破,但這并不意味著在模型高效訓(xùn)練領(lǐng)域的競(jìng)爭(zhēng)格局發(fā)生了實(shí)質(zhì)性改變。 xAI顯然正在追趕OpenAI、Anthropic,尤其是谷歌。但現(xiàn)有的各項(xiàng)指標(biāo)都表明,在模型訓(xùn)練效率方面,這些研究機(jī)構(gòu)仍然處于領(lǐng)先地位。 值得高興的是,這種競(jìng)爭(zhēng)態(tài)勢(shì)迫使這些機(jī)構(gòu)將重點(diǎn)放在提升模型的絕對(duì)智能水平上,而不是僅僅繼續(xù)優(yōu)化其性價(jià)比。 進(jìn)展的方向如果AI模型,以及整個(gè)行業(yè)都在加速發(fā)展,那么重要的是思考它們加速發(fā)展的方向是什么。 現(xiàn)在用來(lái)評(píng)估領(lǐng)先模型的大多數(shù)方法,并不具有代表性。在許多情況下,它們實(shí)際上與正常生活完全脫節(jié)。 解決像AIM之類的競(jìng)賽數(shù)學(xué)問(wèn)題或所謂的「Google Proof」問(wèn)題有什么價(jià)值?或許時(shí)間會(huì)給出證明,但對(duì)于普通用戶來(lái)說(shuō),其用處肯定有限。 在ChatBotArena評(píng)測(cè)中的微小進(jìn)步僅僅表明了系統(tǒng)穩(wěn)定性的略微提升。這種穩(wěn)健性會(huì)隨著時(shí)間的推移而累積,但遠(yuǎn)不能說(shuō)明該模型在絕對(duì)意義上更智能。 事實(shí)上,從研究界最新的評(píng)估方法來(lái)看,測(cè)試標(biāo)準(zhǔn)似乎更注重難度而非實(shí)用性。 隨著模型變得愈發(fā)強(qiáng)大,研究人員自然會(huì)尋找更具挑戰(zhàn)性的任務(wù)來(lái)測(cè)試它們,但這反而使得追蹤技術(shù)進(jìn)展和相關(guān)交流變得更加困難。 各大公司都有眾多未公開的內(nèi)部評(píng)估指標(biāo)。提高這方面的透明度,將有助于更好地理解什么才是真正有意義的進(jìn)展。 目前,在缺乏這些指標(biāo)的情況下,用戶只能通過(guò)模型與產(chǎn)品的整合程度來(lái)判斷其發(fā)展。雖然這種協(xié)同確實(shí)能帶來(lái)極具價(jià)值的工作方式,但以此衡量AI進(jìn)展的方式終究是間接的。 回顧2024年,雖然表面上看似進(jìn)展有限,但實(shí)際上卻有著不少有實(shí)質(zhì)性的突破,只是最終僅有很少一些交付給了用戶。 直到年底才等來(lái)了o1,其他模型要么被認(rèn)為「規(guī)模過(guò)大無(wú)法部署」,要么缺乏必要的緊迫性。 正是DeepSeek帶來(lái)了鯰魚效應(yīng),給這些公司帶來(lái)了緊迫感,讓2025年成為智能進(jìn)入用戶手中的一年。 底層技術(shù)的進(jìn)展速度將繼續(xù)保持高速。此前預(yù)測(cè)的所謂AI發(fā)展「瓶頸」并未出現(xiàn)。 參考資料:JHNYZ https://www.interconnects.ai/p/grok-3-and-an-accelerating-ai-roadmap https://x.com/testerlabor/status/1862970027059683465 https://x.com/alex_prompter/status/1891932871457210518 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選