首頁 > 科技要聞 > 科技> 正文

人形機器人:通用之戰(zhàn)和未解之題

鈦媒體 整合編輯:龔震 發(fā)布于:2024-05-02 00:15

不論你接受與否,人工智能技術(shù)已經(jīng)開始對于現(xiàn)實世界的重重改造。

消費電子領(lǐng)域,手機和電腦廠商們正在將不同種類的AI大模型,植入到各種終端產(chǎn)品中。這些公司普遍認(rèn)為,AI能極大程度地改善困于創(chuàng)新瓶頸中的行業(yè)現(xiàn)狀,重新激發(fā)用戶的購買需求。汽車行業(yè),特斯拉4月初向全美國的170萬車主推送了FSD(完全自動駕駛)正式版本,端到端的神經(jīng)網(wǎng)絡(luò)AI系統(tǒng)讓駕駛決策更像人類司機,比如連續(xù)跨越4車道轉(zhuǎn)向。更為重要的是,目前為止特斯拉FSD還沒有被曝出發(fā)生任何重大事故。

AI的下一站會在哪?習(xí)慣于捕捉趨勢的風(fēng)險投資人,開始在人形機器人行業(yè)集結(jié)共識。

在中國的一級市場,2023年10月,人形機器人初創(chuàng)公司逐際動力完成近2億元的天使和Pre-A輪融資;同年12月,成立不到一年的智元機器人拿到6億元的融資資金;2024年1月,成立不足半年的星動紀(jì)元宣布完成過億元天使輪融資;2024年2月,宇樹科技完成B2輪融資,金額達(dá)到10億元。

“中國機器人行業(yè)的發(fā)展經(jīng)歷了好幾輪起伏。2013-2014年,工業(yè)機器人的投資開始起步;2016-2017年,協(xié)作式機器人領(lǐng)域又掀起了一輪投資熱潮。從2022年開始,通用人形機器人成為了行業(yè)關(guān)注的焦點。”

峰瑞資本副總裁顏黔杭對鈦媒體APP表示,中國國產(chǎn)工業(yè)機器人的市場滲透率已經(jīng)達(dá)到了1/3左右,整個機器人行業(yè)正在逐步成熟。而 AI 大模型產(chǎn)生的質(zhì)變,讓大家意識到機器人的智能化程度會越來越高,并逐步通用化。

至于通用人形機器人何時能夠真正走上產(chǎn)線、走進(jìn)家門,行業(yè)內(nèi)的創(chuàng)業(yè)公司則有著不同的判斷。逐際動力方面認(rèn)為,通用人形機器人要代替產(chǎn)線上人類的精細(xì)操作,還需要5-8年;真正走向家用市場,則需要8到10年。宇樹科技的創(chuàng)始人王興興則對鈦媒體APP表示,“2025年底前,更加通用化的人形機器人會出現(xiàn),我感覺已經(jīng)看到了方向。”

馬斯克,一呼百應(yīng)

是什么點燃了人形機器人的“這把火”?幾乎所有的受訪者都給出了一致的答案,那就是特斯拉的創(chuàng)始人——埃隆·馬斯克。

2022年2月,特斯拉完成了Optimus開發(fā)平臺制造;7個月后的特斯拉人工智能日2.0上,馬斯克帶著Optimus平臺研發(fā)的擎天柱機器人原型亮相,該款機器人已能夠獨立行走和搬運物品。2023年年底,第二代Optimus正式亮相,重量減輕10千克、行走速度提高30%,并擁有更靈巧的手和自由度更高的脖子。

馬斯克入局之后,人形機器人的創(chuàng)業(yè)潮被徹底引爆。

特斯拉人形機器人 Optimus

2023年以來,包括宇樹H1、智元遠(yuǎn)征A1、傅利葉GR—1、星動紀(jì)元“小星”、逐際動力CL—1、小鵬PX5在內(nèi)的一批國內(nèi)人形機器人產(chǎn)品被推出。二級市場,被稱為國內(nèi)“人形機器人第一股”的優(yōu)必選,盤中股價一度上漲超過88%,盡管這家公司目前的主要收入來源并非人形機器人產(chǎn)品。

海外市場,2023年5月,挪威人形機器人初創(chuàng)公司1X宣布完成由OpenAI領(lǐng)投的2350萬美元A2輪融資。幾乎同時,美國人形機器人公司Figure拿到了7000萬美元A輪融資。2024年1月,1X再次完成1億美元B輪融資,投資方包括EQT Ventures和三星NEXT等。一個月之后,F(xiàn)igure宣布完成6.75億美元B輪融資,投資方包括微軟、OpenAI、英偉達(dá)等。

“2022年,OpenAI還沒有發(fā)布ChatGPT,但馬斯克可能先于行業(yè)看到了GPT的能力。”

王興興對鈦媒體APP表示,馬斯克之前不論是在汽車行業(yè)還是商業(yè)航天領(lǐng)域,都證明了他的成功。因此,當(dāng)馬斯克開始做人形機器人之后,政府、市場、資本機構(gòu)都認(rèn)為必須加快入場,不能等特斯拉真正做出來了大家再去追。當(dāng)然,人形機器人受到關(guān)注的更本質(zhì)原因是,AI大模型的出現(xiàn)。

據(jù)王興興介紹,此前宇樹科技并未有涉足人形機器人賽道的想法,因為人形機器人太復(fù)雜,用傳統(tǒng)算法根本沒辦法駕馭這種復(fù)雜機器。但是,目前AI技術(shù)的發(fā)展已經(jīng)遠(yuǎn)超其預(yù)期。比如,以前一到兩年才能讓人形機器人學(xué)會走路,現(xiàn)在利用AI算法訓(xùn)練一個月就可以實現(xiàn)。

“傳統(tǒng)人形機器人的訓(xùn)練算法,相當(dāng)于是靠一些聰明的人類大腦去寫一些數(shù)學(xué)方程式,然后去求解這個方程,制定機器人的運動軌跡。但這些方程式有很大的局限性,一旦環(huán)境出現(xiàn)變化,可能就沒法用了,需要重新設(shè)計新的方程式。”

王興興進(jìn)一步解釋稱,這樣的訓(xùn)練方式會導(dǎo)致代碼量非常大,而且當(dāng)系統(tǒng)復(fù)雜到一定程度,單純靠人力是無法維護(hù)這個系統(tǒng)的。但是對于AI來說,只要模型搭建得足夠好,然后不斷給AI投喂數(shù)據(jù)和算力,AI就可以不斷地試錯。利用強化學(xué)習(xí)算法中的獎勵機制,AI就能自動把好的訓(xùn)練結(jié)果留下來,壞的扔掉,訓(xùn)練效率得到質(zhì)的提升。

靠著AI帶來的效率提升,宇樹科技僅花了半年的時間,就推出了旗下的第一款人形機器人產(chǎn)品。在2024年GTC大會“壓軸”環(huán)節(jié),英偉達(dá)CEO黃仁勛與九個人形機器人一起登場。其中,左起第二個人形機器人就是是宇樹科技旗下的Unitree H1。

圖片來源:英偉達(dá)官網(wǎng)

需要注意的是,人形機器人的這波熱潮,甚至倒逼了該領(lǐng)域的鼻祖——波士頓動力,做出改變。

波士頓動力是一家美國的工程與機器人設(shè)計公司,成立于1992年。2013年,波士頓動力在美國國防部競賽中公布了人形機器人Atlas 。

多次迭代之后,Atlas可以實現(xiàn)完成各種復(fù)雜動作,比如快速奔跑、360 度旋轉(zhuǎn)跳躍、翻越障礙物等。運動控制方面,Atlas采用的正是“大量方程式求解”的傳統(tǒng)算法,并由液壓裝置提供動力。

“Atlas之前披露過的成本是200萬美元左右一臺。而目前市面上在售的人形機器人,宇樹科技的產(chǎn)品售價約為60萬元,傅利葉則為100萬元左右。”星動紀(jì)元聯(lián)合創(chuàng)始人席悅對鈦媒體APP表示,這就是波士頓動力和新一代人形機器人在成本上的巨大差距。

2024年4月16日,波士頓動力宣布液壓版Atlas正式“退役”。之后,波士頓動力推出了新款全電動Atlas,和目前所有的人形機器人產(chǎn)品一樣,利用電池提供動力來源。接下來的控制算法,波士頓動力大概率也會引用效率更高的AI模型。

三大未解之題:大腦、小腦和本體

“人形機器人現(xiàn)在的熱度,相當(dāng)于是一個小火苗,才剛剛開始燃燒起來。如果AI和硬件每年都持續(xù)迭代,這個行業(yè)對于現(xiàn)實世界的顛覆將會非常強。”

王興興表示,到明年年底前,全球至少有一家公司可以把比較通用的機器人大模型開發(fā)出來。這個基礎(chǔ)大模型就像是一個完整的積木,大語言模型只是其中一塊,其他組成部分還包括視覺感知、力覺感知、決策和交互等。

不過,這樣的判斷在人形機器人行業(yè)中還未達(dá)成共識。更主流的觀點認(rèn)為,人形機器人想要實現(xiàn)更大程度的通用化,需要在大腦、小腦和本體上同時取得突破,這在短時間內(nèi)幾乎是無法完成的。

所謂大腦,指的是機器人的理解能力,也就是機器人對于人類指令的理解以及環(huán)境感知。小腦,是指機器人的精細(xì)化運動控制能力;本體,則是構(gòu)成人形機器人原型的各類零部件,比如關(guān)節(jié)、四肢、頭等。

“大模型的出現(xiàn),主要提升了機器人的大腦能力。”峰瑞資本執(zhí)行董事劉鵬琦對鈦媒體APP表示。

顏黔杭則對鈦媒體APP稱,但就像“缸中之腦”一樣,現(xiàn)在大模型只是一個向外輸入和輸出語言類或者多模態(tài)信息的大腦,獨立于機器或本體存在。未來大模型到底應(yīng)該接入什么樣的身體,才能完全發(fā)揮通用化功能?目前,不管是投資人還是創(chuàng)業(yè)者,大家都在探索的一個過程中。

而在小腦方面,目前的人形機器人已經(jīng)在直立行走方面取得了長足的進(jìn)展,不論是平地還還是崎嶇的山路。在細(xì)分場景中,F(xiàn)igure 01成為了第一個“拿起蘋果”的人形機器人;斯坦福團(tuán)隊的Mobile ALOHA,則展現(xiàn)了不錯的炒菜、收拾物品等能力。

圖片來源:Figure官方

但是,人形機器人想要實現(xiàn)完全通用化,這些進(jìn)展還遠(yuǎn)遠(yuǎn)不夠。無論是拿蘋果還是炒菜,體現(xiàn)的都是機器人的模仿學(xué)習(xí)能力,也就是通過一遍遍模仿人類動作,學(xué)習(xí)單一技能。

“機器人跟物理世界交互的高質(zhì)量數(shù)據(jù)其實難獲得,所以模仿學(xué)習(xí)有其用武之地——通過用人去教他,去積累一些數(shù)。不過當(dāng)下的模仿學(xué)習(xí)只是單純地教機器人復(fù)制人的動作,但它并不能理解每一個動作的驅(qū)動要素是什么。或者說,機器人不明白為什么動作要這么做。”顏黔杭表示,如果讓機器人完成“端杯水然后加點糖”這類復(fù)雜的人類操作,模仿學(xué)習(xí)可能就無法實現(xiàn)。

“視覺傳感器的引入,可能讓機器人不再瞎了。但還有更多其他維度的感知能力,今天的機器人都是欠缺的。”顏黔杭稱,比如觸覺、力覺的傳感器市面上雖然有,但現(xiàn)在目前并沒有在機器人領(lǐng)域普及,主要原因是這些傳感器集成度低、價格貴,體積相對與人形機器人來說也太大。

“強化學(xué)習(xí)就是不斷試錯的過程,相比于模仿學(xué)習(xí)有更強的泛化性。”

星動紀(jì)元聯(lián)合創(chuàng)始人席悅對鈦媒體APP表示,類似于自動駕駛的訓(xùn)練方式一樣,強化學(xué)習(xí)可以通過構(gòu)建仿真環(huán)境,讓機器人在真實場景的模擬環(huán)境中進(jìn)行訓(xùn)練,在不斷地試錯中優(yōu)化自己的行為。“強化學(xué)習(xí)訓(xùn)練出來以后,機器人不僅能走樓梯,它也能走雪地,也能走草地,實現(xiàn)更好的泛化性。”

但需要注意的是,仿真環(huán)境與真實世界無法做到完全相同,現(xiàn)實世界的交互環(huán)境以及交互對象相比于仿真環(huán)境會更復(fù)雜。這就會導(dǎo)致,仿真訓(xùn)練結(jié)果遷移到真實世界會出現(xiàn)偏差,這也是目前整個行業(yè)面臨的挑戰(zhàn)。

鈦媒體APP曾獨家獲悉,星動紀(jì)元已經(jīng)將Humanoid-Gym訓(xùn)練框架進(jìn)行開源。Humanoid-Gym開源后,用戶可以借助該框架通過sim-to-sim轉(zhuǎn)換接口,在更高精度的仿真環(huán)境Mujoco中進(jìn)行機器人訓(xùn)練驗證,繼而提升sim-to-real(仿真到現(xiàn)實)轉(zhuǎn)換的效率和成功率。

而除去大腦和小腦的訓(xùn)練之外,人形機器人能否走向通用的最后一道門檻,則是本體是否可以完全承接軟件算法傳遞的動作指令。

“人形機器人的硬件技術(shù)產(chǎn)品主要圍繞傳感器、執(zhí)行器和驅(qū)動器、能源管理及新型材料等開展工作。”

IDC中國研究經(jīng)理李君蘭對鈦媒體APP表示,目前,盡管已有多種傳感器被應(yīng)用于人形機器人,但在精度、響應(yīng)速度和集成度方面仍有提升空間。同時,人形機器人的能量消耗較大,高能效的能源動力管理和儲能技術(shù)也是一個重要挑戰(zhàn)。

“視覺傳感器的引入,可能讓機器人不再瞎了。但還有更多其他維度的感知能力,今天的機器人都是欠缺的。”顏黔杭稱,比如觸覺、力覺的傳感器有很多,但現(xiàn)在目前并沒有在機器人領(lǐng)域普及,主要原因是這些傳感器集成度低、價格很貴,體積相對與人形機器人來說也太大。

也正是因為種種方面的掣肘,人形機器人的通用之路變得更加漫長。

更現(xiàn)實的當(dāng)下,有可能的未來

當(dāng)人形機器人的“通用時刻”還未到來時,如何活下去,成為了創(chuàng)業(yè)公司最真實的現(xiàn)實處境。

“我們公司商業(yè)化上的策略就是四個字——沿途下蛋。”

逐際動力方面稱,具身智能(包括人形機器人、四足機器人等多種產(chǎn)品形態(tài))的應(yīng)用場景非常廣泛,相比人形機器人,四足機器人的商業(yè)化落地能力會更強。而后者,則是逐際動力需要下的蛋——依靠四足機器人成熟的移動能力,去實現(xiàn)產(chǎn)品商業(yè)化落地。

目前,逐際動力產(chǎn)品包括人形機器人CL1,雙點足機器人P1以及四(輪)足機器人W1。其中,雙點足機器人P1以及四(輪)足機器人W1落地應(yīng)用聚焦在工業(yè)巡檢、物流配送、特種作業(yè)等領(lǐng)域。

圖片來源:逐際動力官方

同樣的,成立更早的宇樹科技的主要營收也來自于四足機器人。這也是宇樹科技創(chuàng)立之初發(fā)力的業(yè)務(wù)方向,目前已經(jīng)有Go2、B2、Aliengo等多個產(chǎn)品。公開數(shù)據(jù)顯示,目前宇樹科技的四足機器人產(chǎn)品占全球出貨量的60%以上,處于全球歷年銷量領(lǐng)先的位置。

星動紀(jì)元方面則表示,汽車和消費電子的細(xì)分場景,比如,工廠巡檢、汽車總裝產(chǎn)線的物流部分,是公司目前探索的商業(yè)化方向。同時,類似于商場迎賓等服務(wù)性質(zhì)的工作,也存在商業(yè)化的可能。

“當(dāng)然,對于人形機器人的創(chuàng)業(yè)公司而言,融資肯定是必須的。”星動紀(jì)元聯(lián)合創(chuàng)始人席悅對鈦媒體APP表示,因為人形機器人這個行業(yè)還太早期,技術(shù)門檻更高、研發(fā)周期相對來說也更長,早期肯定需要融資才能活下去。

事實上,人形機器人行業(yè)出現(xiàn)的此刻,也是國內(nèi)自動駕駛行業(yè)經(jīng)歷的過去。

2017-2018年間,國內(nèi)開始涌現(xiàn)大批的自動駕駛創(chuàng)業(yè)公司,并吸引了大量的風(fēng)險投資機構(gòu)進(jìn)場。與人形機器人類似,自動駕駛領(lǐng)域也需要長周期的技術(shù)開發(fā),所以在早期對于投資機構(gòu)的依賴度很強。但很快,隨著投資熱潮的褪去,自動駕駛公司的商業(yè)化能力開始受到質(zhì)疑。再之后,就是大批的自動駕駛團(tuán)隊解散、裁員,甚至是對簿公堂。

“從技術(shù)門檻、創(chuàng)始團(tuán)隊和行業(yè)影響力等方面來看,人形機器人和自動駕駛的確非常像。但是,這一輪人形機器人公司的估值普遍沒有上一輪自動駕駛公司的估值高。”

一位同時在自動駕駛和人形機器人領(lǐng)域工作過的業(yè)內(nèi)人士表示,這是一件好事,大家不用一味只去追求公司估值,而忽略了商業(yè)化。“人形機器人這一波的創(chuàng)業(yè)者,部分已經(jīng)看到了上一波自動駕駛發(fā)展中的問題和風(fēng)險,所以會對產(chǎn)品商業(yè)化的認(rèn)知程度更高。”

除此之外,該人士還表示自動駕駛的創(chuàng)業(yè)潮中,大家習(xí)慣于單打獨斗。

但在人形機器人產(chǎn)業(yè)中,更強調(diào)的是合作。比如,目前北京、上海、深圳都由政府相關(guān)部門牽頭,成立了人形機器人的創(chuàng)新中心。由政府部門出面去拉通產(chǎn)業(yè)鏈的上下游,有做技術(shù)的,做機器人關(guān)節(jié)的,做商業(yè)化落地的。“大家形成一個實體,上下游公司均是股東單位,可以整個鏈條打通。”

通用人形機器人母平臺“天工” 圖片來源:官方

以北京為例,4月27日,北京人形機器人創(chuàng)新中心在北京經(jīng)開區(qū)發(fā)布全球首個純電驅(qū)擬人奔跑的全尺寸人形機器人“天工”,能以6公里/小時的速度穩(wěn)定奔跑。“天工”身高163cm,輕量化體重達(dá)43kg,機器人配備多個視覺感知傳感器,搭載了每秒550萬億次操作算力、高精度的慣性測量單元(IMU)和3D視覺傳感器。

發(fā)布會上,創(chuàng)新中心總經(jīng)理熊友軍表示,為解決人形機器人行業(yè)通用問題,推動產(chǎn)業(yè)整體發(fā)展,北京人形機器人創(chuàng)新中心致力于行業(yè)關(guān)鍵共性核心技術(shù)研發(fā),打造軟、硬兩個通用母平臺。目前,已成功研發(fā)出通用人形機器人母平臺“天工”。

北京經(jīng)濟技術(shù)開發(fā)區(qū)相關(guān)負(fù)責(zé)人介紹,作為北京市重要的機器人產(chǎn)業(yè)集聚地,北京亦莊目前匯集機器人生態(tài)企業(yè)110家,形成覆蓋核心零部件、整機到應(yīng)用的機器人全產(chǎn)業(yè)鏈體系。在人形機器人領(lǐng)域,不僅有小米、優(yōu)必選等人形機器人頭部企業(yè)落地發(fā)展,還有高精密減速器、伺服系統(tǒng)等人形機器人零部件產(chǎn)品。

而在機器學(xué)習(xí)的軟件算法層面,特斯拉FSD(完全自動駕駛)的成功,也讓人形機器人行業(yè)看到了有可能的未來。

在特斯拉最新的FSD V12版本中,F(xiàn)SD Beta更名為FSD (Supervised)。根據(jù)特斯拉官方的說法,在車主的監(jiān)督下,最新版FSD Supervised幾乎可以在任何地方駕駛特斯拉。

在FSD V12之前,特斯拉的自動駕駛方案一直依賴于規(guī)則判斷,任何駕駛行為的背后都有代碼作為支撐,F(xiàn)SD V11 C++代碼多達(dá)30多萬行。而在FSD V12版本版本中,依賴于手動編碼規(guī)則的方案被徹底拋棄,轉(zhuǎn)而全面采用端到端的神經(jīng)網(wǎng)絡(luò)AI系統(tǒng),代碼行業(yè)縮減到只有3000行。

特斯拉FSD的端到端方案,本質(zhì)上是完全基于數(shù)據(jù)驅(qū)動。通過將上千萬個甚至上億個人類駕駛視頻的高質(zhì)量數(shù)據(jù),壓縮到了大模型中,特斯拉FSD就可以AI的方式去思考——遇到場景直接輸入傳感器數(shù)據(jù),輸出轉(zhuǎn)向、制動和加速信號,而且這個過程中沒有任何編碼。

據(jù)特斯拉2022年10月公布的信息顯示,Optimus人形機器人使用與特斯拉汽車相同的完全自動駕駛(FSD)電腦,以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù)。

這也就意味著,人形機器人完全可以利用FSD同樣的訓(xùn)練方式,走向通用之路。據(jù)王興興介紹,目前宇樹科技人形機器人,從行走奔跑到舞蹈空翻等,已經(jīng)完全采用類似端到端的解決方案,從視覺感知到腿部執(zhí)行,一個模型就可以實現(xiàn),沒有任何中間過程和編碼。

“人形機器人硬件部分的成熟,只是時間問題。最重要的,還是通用人形機器人的AI基礎(chǔ)大模型。”王興興稱,樂觀的估計,基礎(chǔ)大模型的突破可能會在明年年底前發(fā)生。但是,也有可能不會發(fā)生。“有時候技術(shù)的突破,需要看全球人類的運氣。就像當(dāng)年如果沒有愛因斯坦,他的理論大概率也會有人發(fā)現(xiàn),只不過會晚個幾年到幾十年。”

文章來源:鈦媒體

 

 

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部