首頁 資訊 > 研究 > 正文

深度思維推出可自我訓(xùn)練“機器貓”,可快速學(xué)習新任務(wù)


【資料圖】

圖片來源:深度思維

谷歌“深度思維”公司研究人員最近將人工智能與一款名為“機器貓”的機器人結(jié)合起來,預(yù)計它將在自我訓(xùn)練機器人的世界中實現(xiàn)一大飛躍。利用大型語言模型背后的相同技術(shù)研發(fā)的“機器貓”,不僅可快速學(xué)習新任務(wù),還可通過構(gòu)建自己的性能數(shù)據(jù)來提高性能。研究論文發(fā)表在預(yù)印本服務(wù)器arXiv上。

到目前為止,機器人通常執(zhí)行特定的、預(yù)先編程的任務(wù)。隨著大型語言模型的引入,機器人技能集開始擴大。研究人員表示,“機器貓”具有良性的訓(xùn)練循環(huán)。學(xué)習的新任務(wù)越多,它學(xué)習更多新任務(wù)的能力就越好。

“機器貓”領(lǐng)會新任務(wù)的速度非???,例如學(xué)會將各種形狀的拼圖塊放入適當?shù)目字谢驅(qū)⑺湃胪胫小kS后它還能夠“基于數(shù)百萬條軌跡的數(shù)據(jù)集” 繼續(xù)前進并執(zhí)行更復(fù)雜的任務(wù),這些數(shù)據(jù)集來自先前的任務(wù)和新的自生成數(shù)據(jù),這類似于人類在特定領(lǐng)域加深學(xué)習時發(fā)展出的更多樣化的技能。

隨著“機器貓”技術(shù)的改進,其新學(xué)到的行為將被轉(zhuǎn)移到其他機器人上,而其他機器人又以這些技能為基礎(chǔ)。演示中,該機器人通過人類控制的機械臂進行了100到1000次演示,微調(diào)了其性能,然后對衍生模型進行特定任務(wù)的訓(xùn)練,并將數(shù)據(jù)輸入到通用指令池中。

“機器貓”最初在接觸以前未學(xué)過的任務(wù)時,有36%的成功率,但隨著時間的推移,通過自我訓(xùn)練,它的成功率提高了一倍。目前它只需100次演示就可完成一項新任務(wù)。

研究人員表示,這一研發(fā)成果減少了對人類監(jiān)督訓(xùn)練的需求,是創(chuàng)建通用機器人的重要一步。

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團隊 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - 670818.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號-3