在高維靈活性環(huán)境中,Eureka實現(xiàn)了更大的收益。

英偉達用ChatGPT-4訓(xùn)練機器人,代碼水平超過人類專家

2023-10-23 17:01:04發(fā)布     來源:多知網(wǎng)    作者:Doris  

  多知網(wǎng)10月23日消息,全球AI領(lǐng)導(dǎo)者英偉達(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓(xùn)練實體機器人的動作指令,例如,轉(zhuǎn)筆、開抽屜、使用剪刀等超復(fù)雜動作。具備零樣本生成、編寫代碼和語境改進等能力,可對強化學(xué)習(xí)的獎勵設(shè)計流程、代碼進行大幅度優(yōu)化,達到人類專家級水平。

  英偉達AI高級研究總監(jiān)兼該論文作者Anima Anandkumar表示,在過去十年,強化學(xué)習(xí)取得了空前成功,但仍面臨許多困難,例如,獎勵設(shè)計需要不斷試錯才能完成。Eureka的出現(xiàn)開創(chuàng)了一種全新的算法,將生成式AI與強化學(xué)習(xí)相結(jié)合以實現(xiàn)更高的執(zhí)行效率。

  強化學(xué)習(xí)是機器學(xué)習(xí)的一種類型,其目標(biāo)是讓一個智能體在與環(huán)境的交互中學(xué)習(xí)如何實現(xiàn)最優(yōu)行為,以獲取最大累積獎勵。

  在強化學(xué)習(xí)中,需智能體不斷地從環(huán)境中獲取狀態(tài),并在此基礎(chǔ)上選擇一個行動。環(huán)境對智能體的行動給出反饋,這個反饋稱為“獎勵”。強化學(xué)習(xí)的目標(biāo)是找到一個最優(yōu)的策略,關(guān)鍵元素包括智能體、環(huán)境、狀態(tài)、行動和獎勵。

  研究人員對Eureka在多樣化的實體機器人和任務(wù)中進行了全面評估,測試了其生成獎勵函數(shù)、解決新任務(wù)等能力。

  測試環(huán)境由由10個不同的機器人和29個使用IsaacGym模擬器實現(xiàn)的任務(wù)組成。首先,包括了來自IsaacGym(Isaac)的9個原始環(huán)境,涵蓋了從四足動物、雙足動物、四旋翼、協(xié)作機器人臂到靈巧手的多樣化機器人形態(tài)。除了對機器人形態(tài)因素的覆蓋,還通過包含雙手操作基準(zhǔn)中的所有20個任務(wù),確保了評估的深度。

  結(jié)果顯示,Eureka可以生成超過人類水平的獎勵函數(shù)。在29個任務(wù)中,Eureka的獎勵在83%的任務(wù)中,超過了人類專家編寫的獎勵函數(shù),平均規(guī)范化改進為52%。尤其是在高維靈活性環(huán)境中,Eureka實現(xiàn)了更大的收益。