首 頁 要聞 要論 協(xié)商 統(tǒng)戰(zhàn) 黨派 委員講堂 理論 人事 社會 法治 視頻 文化

首頁>專題>科技中國 使命擔(dān)當(dāng)>聚焦

具身智能模型學(xué)習(xí)方式與兒童相似

2025年02月06日 14:12 | 作者:張夢然 | 來源:科技日報 分享到: 

日本沖繩科學(xué)技術(shù)研究所認(rèn)知神經(jīng)機(jī)器人團(tuán)隊開發(fā)了一種具有新穎架構(gòu)的具身智能模型。它允許科學(xué)家訪問神經(jīng)網(wǎng)絡(luò)的各種內(nèi)部狀態(tài),并且能夠以與人類兒童相似的方式學(xué)習(xí)泛化,揭曉了神經(jīng)網(wǎng)絡(luò)中認(rèn)知發(fā)展和信息處理的關(guān)鍵信息。該成果發(fā)表在新一期《科學(xué)·機(jī)器人學(xué)》雜志上。

1

具身智能模型揭示機(jī)器人和幼兒如何學(xué)習(xí)。圖片來源:日本沖繩科學(xué)技術(shù)研究所官網(wǎng)

對人工智能(AI)至關(guān)重要的大型語言模型(LLM)主要依賴于大規(guī)模數(shù)據(jù)集,但其無法像人類那樣有效地從有限信息中進(jìn)行泛化。而具身智能是一種基于物理實體進(jìn)行感知和行動的智能系統(tǒng)。它可以通過智能體與環(huán)境的交互來獲取信息、理解問題、做出決策并執(zhí)行行動。

此次的具身智能模型基于預(yù)測編碼啟發(fā),變分遞歸神經(jīng)網(wǎng)絡(luò)框架,通過集成視覺、本體感覺和語言指令三種感官輸入進(jìn)行訓(xùn)練。具體來說,該模型處理了以下輸入:觀看機(jī)械臂移動彩色塊的視頻;感知人體四肢運(yùn)動的感覺及機(jī)械臂移動時的關(guān)節(jié)角度;以及語言指令如“把紅色物體放在藍(lán)色物體上”。

該模型的靈感,是大腦不斷根據(jù)過去的經(jīng)驗預(yù)測感官輸入,并采取行動將預(yù)測與觀察之間的差異降至最低。因為大腦的工作記憶和注意力有限,所以必須按順序處理輸入并更新其預(yù)測,而不是像LLM那樣一次性處理所有信息。

研究表明,新模型只需更小的訓(xùn)練集和更少的計算資源就可實現(xiàn)泛化學(xué)習(xí)。盡管它比LLM犯錯更多,但這些錯誤類似于人類的錯誤。

這意味著,將語言與行為相結(jié)合可能是兒童快速語言學(xué)習(xí)的重要因素。這種具身智能不僅提高了透明度,還能更好地了解AI的行為效果,為未來更安全、更合乎道德的AI發(fā)展指明了方向。

這項研究為理解和模擬人類認(rèn)知提供了一個新的視角,展示了如何通過整合多種感官輸入來實現(xiàn)高效的泛化能力。這不僅有助于開發(fā)更加智能和靈活的AI系統(tǒng),也為認(rèn)知科學(xué)提供了寶貴見解。

總編輯圈點(diǎn)

何為泛化?人類就很擅長從少量示例中泛化知識。例如,給一個蹣跚學(xué)步的孩子展示紅球、紅色卡車和紅玫瑰后,他很可能也會正確識別出西紅柿是紅色的,即便這是他第一次看到西紅柿。這種能力的關(guān)鍵在于組合性——即將整體分解為可重復(fù)使用的部分的能力。而理解人類如何獲得這種能力,是發(fā)育神經(jīng)科學(xué)和AI研究中的一個重要問題。本文的成果對研究AI決策過程的科學(xué)家們非常有用。借此,可以進(jìn)一步探索人類認(rèn)知和機(jī)器學(xué)習(xí)之間的復(fù)雜聯(lián)系,從而推動AI技術(shù)的進(jìn)步。

編輯:馬嘉悅