此前,人形機(jī)器人Ameca「大夢初醒」的神情,已讓許多人感受到了真正的「恐懼」。 隨著ChatGPT橫空出世,得到加持的人形機(jī)器人雖擅長語言交流,但是在非語言交流,特別是面部表情,還差得很遠(yuǎn)。 未來,如果人類真的要生活在一個(gè)充滿機(jī)器人的世界之中,機(jī)器人必須要有像人類一樣能自主通過面部表情獲取人類的信任的能力。 顯然,設(shè)計(jì)一款不僅能做出各種面部表情,還能知道何時(shí)表現(xiàn)的機(jī)器人,一直是一項(xiàng)艱巨的任務(wù)。 來自哥倫比亞大學(xué)工程學(xué)院的創(chuàng)新機(jī)器實(shí)驗(yàn)室,5年來一直致力于這一挑戰(zhàn)。 最近,研究團(tuán)隊(duì)推出了一款機(jī)器人Emo——能夠預(yù)測人類面部表情,并與人類同時(shí)做出表情。 最新研究已發(fā)表在Science子刊上。 論文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724 Emo的自我監(jiān)督學(xué)習(xí)框架,就像人類照鏡子來練習(xí)面部表情。 有趣的是,Emo甚至學(xué)會(huì)了在一個(gè)人微笑前840毫秒提前預(yù)測,并同時(shí)與人類一起微笑。 這種快速及時(shí)的表情回應(yīng),能讓人類感受到機(jī)器人的真誠和被理解的感覺。 而且,它還可以做出眼神互動(dòng)。 Emo如何能夠做到精準(zhǔn)預(yù)測人類表情? 人機(jī)交互革命正來臨 由Hod Lipson帶領(lǐng)的研究團(tuán)隊(duì)稱,在開發(fā)機(jī)器人Emo之前,需要解決兩大挑戰(zhàn)。 首先是硬件方面,如何機(jī)械地設(shè)計(jì)一個(gè)涉及復(fù)雜硬件和驅(qū)動(dòng)機(jī)制,且具有表現(xiàn)力的多功能機(jī)器人人臉。 另一方面,就是設(shè)計(jì)好的機(jī)器人臉,需要知道生成哪種表情,讓其看起來自然、及時(shí)和真實(shí)。 而且更進(jìn)一步,研究小組還希望訓(xùn)練機(jī)器人能夠預(yù)測人類的面部表情,并與人同時(shí)做出這些表情。 具體來說,Emo臉部配備了26個(gè)執(zhí)行器,可以呈現(xiàn)出多種多樣的微妙面部表情。 在執(zhí)行器之外,Emo的臉使用了硅膠皮設(shè)計(jì),方便快速定制和維護(hù)。 為了進(jìn)行更加逼真的互動(dòng),研究人員為機(jī)器人的眼睛配備了高分辨率攝像頭。 因此Emo還可以做到眼神交流,這也是非語言交流中重要的一部分。 此外,研究小組還開發(fā)了兩個(gè)人工智能模型:一個(gè)是通過分析目標(biāo)面部的細(xì)微變化來預(yù)測人類的面部表情,另一個(gè)使用相應(yīng)的面部表情生成運(yùn)動(dòng)指令。 為了訓(xùn)練機(jī)器人如何做出面部表情,研究人員將Emo放在相機(jī)前,讓它做隨機(jī)的動(dòng)作。 幾個(gè)小時(shí)后,機(jī)器人學(xué)會(huì)了他們的面部表情和運(yùn)動(dòng)指令之間的關(guān)系。 團(tuán)隊(duì)將其稱為「自我建模」,與人類想象自己做出特定表情的樣子。 然后,研究小組為Emo播放了人類面部表情的視頻,通過逐幀觀察并學(xué)習(xí)。 經(jīng)過幾個(gè)小時(shí)的訓(xùn)練后,Emo可以通過觀察人們面部的微小變化,來預(yù)測他們的面部表情。 這項(xiàng)研究主要作者Yuhang Hu表示,「我認(rèn)為,準(zhǔn)確預(yù)測人類面部表情是人機(jī)交互(HRI)的一場革命。傳統(tǒng)上,機(jī)器人的設(shè)計(jì)并不考慮人類在交互過程中的表情」。 「現(xiàn)在,機(jī)器人可以整合人類的面部表情作為反饋。當(dāng)機(jī)器人與人實(shí)時(shí)進(jìn)行共同表達(dá)時(shí),不僅提高了交互質(zhì)量,還有助于在人類和機(jī)器人之間建立信任。未來,在與機(jī)器人互動(dòng)時(shí),它會(huì)像真人一樣,觀察和解讀你的面部表情」。 接下來,一起看看Emo背后設(shè)計(jì)的具體細(xì)節(jié)。 技術(shù)介紹 機(jī)械控制結(jié)構(gòu) Emo 配備了26個(gè)執(zhí)行器(下圖),提供了更高的面部自由度,可以做出不對稱的面部表情。 (1 和 2) 用磁鐵連接的連桿控制眉毛。(3) 上眼瞼。(4) 下眼瞼。(5) 眼球連桿。(6) 眼球框架。(7) 相機(jī) (8至10和13) 口形被動(dòng)連桿機(jī)構(gòu)。(11 和 12)二維五桿機(jī)制(2D five-bar mechanism)的連桿。 Emo設(shè)計(jì)的主要區(qū)別之一是使用直接連接的磁鐵來使可更換的面部皮膚變形。這種方法可以更精確地控制面部表情。 此外,Emo的眼睛內(nèi)嵌攝像頭,可實(shí)現(xiàn)仿人視覺感知。 這些高分辨率的 RGB(紅、綠、藍(lán))攝像頭,每只眼睛的瞳孔內(nèi)都有一個(gè),增強(qiáng)了機(jī)器人與環(huán)境互動(dòng)的能力,并能更好地預(yù)測對話者的面部表情。 眼睛模塊控制眼球、眉毛和眼瞼的運(yùn)動(dòng),如上圖所示。 每個(gè)眼框都裝有一個(gè)高分辨率 RGB 攝像頭。眼框分別由兩個(gè)電機(jī)通過平行四邊形機(jī)構(gòu)在俯仰和偏航兩個(gè)軸上驅(qū)動(dòng)。 這種設(shè)計(jì)的優(yōu)點(diǎn)是在眼框中央創(chuàng)造了更多空間,使研究人員能夠?qū)z像頭模塊安裝在與人類瞳孔相對應(yīng)的自然位置。 這種設(shè)計(jì)有利于機(jī)器人與人類進(jìn)行更自然的面對面互動(dòng)。 它還能實(shí)現(xiàn)正確自然的注視,這是近距離非語言交流的一個(gè)關(guān)鍵元素。 除了這些硬件升級(jí)外,研究人員還引入了一個(gè)由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成的學(xué)習(xí)框架——一個(gè)用于預(yù)測Emo自身的面部表情(自我模型),另一個(gè)用于預(yù)測對話者的面部表情(對話者模型)。 研究人員的軟皮人臉機(jī)器人有23個(gè)專用于控制面部表情的電機(jī)和3個(gè)用于頸部運(yùn)動(dòng)的電機(jī)。 整個(gè)面部皮膚由硅膠制成,并用30塊磁鐵固定在機(jī)器人面部之上。 機(jī)器人面部皮膚可以更換成其他設(shè)計(jì),以獲得不同的外觀和皮膚材質(zhì)。 表情生成模型 研究人員還提出了一個(gè)升級(jí)版逆向模型,可使機(jī)器人在相同的計(jì)算硬件上生成電機(jī)指令的速度比上一代產(chǎn)品快五倍以上。 他們提出了一種自我監(jiān)督學(xué)習(xí)過程,以訓(xùn)練研究人員的面部機(jī)器人在沒有明確的動(dòng)作編排和人類標(biāo)簽的情況下生成人類面部表情。 控制機(jī)器人的傳統(tǒng)方法依賴于運(yùn)動(dòng)學(xué)方程和模擬,但這只適用于具有已知運(yùn)動(dòng)學(xué)的剛體機(jī)器人。 機(jī)器人有柔軟的可變形皮膚和幾個(gè)帶有四個(gè)套筒關(guān)節(jié)的被動(dòng)機(jī)構(gòu),因此很難獲得機(jī)器人運(yùn)動(dòng)學(xué)的運(yùn)動(dòng)方程。 研究人員利用基于視覺的自我監(jiān)督學(xué)習(xí)方法克服了這一難題,在這種方法中,機(jī)器人可以通過觀察鏡子中的自己來學(xué)習(xí)運(yùn)動(dòng)指令與所產(chǎn)生的面部表情之間的關(guān)系。 機(jī)器人的面部表情由19個(gè)電機(jī)控制,其中18個(gè)電機(jī)對稱分布,一個(gè)電機(jī)控制下頜運(yùn)動(dòng)。 在研究人員的案例中,面部數(shù)據(jù)集中的表情都是對稱的; 因此,對稱分布的電機(jī)在控制機(jī)器人時(shí)可以共享相同的電機(jī)指令。 因此,實(shí)際的控制指令只需要11個(gè)歸一化為 [0, 1] 范圍的參數(shù)。 面部反演模型是利用機(jī)器人自身生成的數(shù)據(jù)集(下圖)進(jìn)行訓(xùn)練的,其中包括電機(jī)指令和由此產(chǎn)生的面部地標(biāo)。 研究人員以自我監(jiān)督的方式,通過隨機(jī)的 「電機(jī)咿呀學(xué)語 」過程收集數(shù)據(jù)。在將指令發(fā)送到控制器之前,該過程會(huì)自動(dòng)刪除可能會(huì)撕裂面部皮膚或?qū)е伦耘鲎驳碾姍C(jī)指令。 在伺服電機(jī)到達(dá)指令定義的目標(biāo)位置后,研究人員使用RGB攝像頭捕捉機(jī)器人的面部圖像,并提取機(jī)器人的面部地標(biāo)。 通過將自我模型和預(yù)測對話者模型相結(jié)合,機(jī)器人可以執(zhí)行協(xié)同表達(dá)。 表情預(yù)測模型 研究人員還開發(fā)了一個(gè)預(yù)測模型,它可以實(shí)時(shí)預(yù)測對話者的目標(biāo)面部表情。 為使機(jī)器人能及時(shí)做出真實(shí)的面部表情,它必須提前預(yù)測面部表情,使其機(jī)械裝置有足夠的時(shí)間啟動(dòng)。 為此,研究人員開發(fā)了一個(gè)預(yù)測面部表情模型,并使用人類表情視頻數(shù)據(jù)集對其進(jìn)行了訓(xùn)練。該模型能夠根據(jù)一個(gè)人面部的初始和細(xì)微變化,預(yù)測其將要做出的目標(biāo)表情。 首先,研究人員使用每組面部地標(biāo)與每個(gè)視頻中初始(「靜止」)面部表情的面部地標(biāo)之間的歐氏距離來量化面部表情動(dòng)態(tài)。 研究人員將靜止面部地標(biāo)定義為前五幀的平均地標(biāo),目標(biāo)面部地標(biāo)則定義為與靜止面部地標(biāo)差異最大的地標(biāo)。 靜態(tài)面部地標(biāo)的歐氏距離與其他幀的地標(biāo)的歐氏距離會(huì)不斷變化,并且可以區(qū)分。 因此,研究人員可以通過地標(biāo)距離相對于時(shí)間的二階導(dǎo)數(shù)來計(jì)算表情變化的趨勢。 研究人員將表情變化加速度最大時(shí)的視頻幀作為 「激活峰值」。 為了提高準(zhǔn)確性并避免過度擬合,研究人員通過對周圍幀的采樣來增強(qiáng)每個(gè)數(shù)據(jù)。 具體來說,在訓(xùn)練過程中,預(yù)測模型的輸入是從峰值激活前后總共九幀圖像中任意抽取四幀圖像。 同樣,標(biāo)簽也是從目標(biāo)臉部之后的四幀圖像中隨機(jī)取樣的。 數(shù)據(jù)集共包含45名人類參與者和970個(gè)視頻。其中80%的數(shù)據(jù)用于訓(xùn)練模型,其余數(shù)據(jù)用于驗(yàn)證。 研究人員對整個(gè)數(shù)據(jù)集進(jìn)行了分析,得出人類通常做出面部表情所需的平均時(shí)間為0.841 ± 0.713秒。 預(yù)測模型和逆向模型(僅指研究人員論文中使用的神經(jīng)網(wǎng)絡(luò)模型的處理速度)在不帶 GPU 設(shè)備的 MacBook Pro 2019上的運(yùn)行速度分別約為每秒 650 幀(fps)和 8000 幀(fps)。 這一幀頻還不包括數(shù)據(jù)捕獲或地標(biāo)提取時(shí)間。 研究人員的機(jī)器人可以0.002秒內(nèi)成功預(yù)測目標(biāo)人類面部表情并生成相應(yīng)的電機(jī)指令。這一時(shí)間留給捕捉面部地標(biāo)和執(zhí)行電機(jī)指令以在實(shí)體機(jī)器人面部生成目標(biāo)面部表情的時(shí)間約為0.839秒。 為了定量評估預(yù)測面部表情的準(zhǔn)確性,研究人員將研究人員的方法與兩個(gè)基線進(jìn)行了比較。 第一種基線是在逆模型訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇一張圖片作為預(yù)測對象。 該基線的數(shù)據(jù)集包含大量由咿呀學(xué)語產(chǎn)生的機(jī)器人表情圖片。 第二條基線是模仿基線,它選擇激活峰值處的面部地標(biāo)作為預(yù)測地標(biāo)。如果激活峰值接近目標(biāo)臉部,那么該基線與研究人員的方法相比就很有競爭力。 然而,實(shí)驗(yàn)結(jié)果表明,研究人員的方法優(yōu)于這一基線,表明預(yù)測模型通過歸納面部的細(xì)微變化,而不是簡單地復(fù)制最后輸入幀中的面部表情,成功地學(xué)會(huì)了預(yù)測未來的目標(biāo)面部。 圖4B顯示了對預(yù)測模型的定量評估。 研究人員計(jì)算了預(yù)測地標(biāo)與地面實(shí)況地標(biāo)之間的平均絕對誤差,地面實(shí)況地標(biāo)由維度為113×2的人類目標(biāo)面部地標(biāo)組成。 表格結(jié)果(表S2)表明,研究人員的方法優(yōu)于兩種基線方法,表現(xiàn)出更小的平均誤差和更小的標(biāo)準(zhǔn)誤差。 Emo下一步:接入大模型 有了能夠模擬預(yù)測人類表情的能力之后,Emo研究的下一步便是將語言交流整合到其中,比如接入ChatGPT這樣的大模型。 隨著機(jī)器人的行為能力越來越像人類,團(tuán)隊(duì)也將關(guān)注背后倫理問題。 研究人員表示,通過發(fā)展能夠準(zhǔn)確解讀和模仿人類表情的機(jī)器人,我們正在向機(jī)器人可以無縫地融入我們的日常生活的未來更近一步,為人類提供陪伴、幫助。 想象一下,在這個(gè)世界,與機(jī)器人互動(dòng)就像與朋友交談一樣自然和舒適。 作者介紹 Yuhang Hu(胡宇航)是這篇論文的通訊作者。 目前,他是哥倫比亞大學(xué)的博士生,專注于機(jī)器人和機(jī)器學(xué)習(xí)的研究。 參考資料: https://www.engineering.columbia.edu/news/robot-can-you-say-cheese 文章來源:新智元
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選