苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作,平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询 联系微信:esay8168 ,联系:电话18888186853微信同号

扫微信二维码

联系

电话18888186853微信同号




这里是文章模块栏目内容页
英伟达最新AI AgentEureka开源 可完成转笔等复杂动作

要点:

  • 英伟达最新AI AgentEureka使用GPT-4生成奖励函数,教会机器人完成多项复杂任务,包括转笔、打开抽屉、抛球等,表现超越人类专家。

  • Eureka采用混合梯度架构,结合无梯度的情境学习和强化学习,通过上下文来实现人类水平的奖励算法设计,大幅提升机器人性能。

  • 这项研究受到广泛关注,开源项目可在机器人领域应用,尤其在处理复杂任务和高维电机控制方面表现出色,甚至有时与人类策略负相关。

站长之家(ChinaZ.com)10月21日 消息:英伟达最新的AI AgentEureka搭载了强大的GPT-4模型,通过生成奖励函数的方式,使机器人能够完成多项复杂任务,其中包括一些看似简单但难以实现的动作,如转笔、打开抽屉、抛球等。这一成就令人瞩目,尤其是在转笔这项技能上,即便是靠人类逐帧制作动画,也难以达到如此高水准。研究结果显示,Eureka在超过80%的任务中都超越了人类专家,使机器人的平均性能提升了50%以上。

image.png

论文链接:

https://arxiv.org/abs/2310.12931

GitHub链接:

https://github.com/eureka-research/Eureka

Eureka的关键创新在于采用了一种混合梯度架构,结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化。在外循环中,GPT-4细化奖励函数,而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能,而不需要特定的提示工程和奖励模版。

Eureka还支持一种新形式的上下文强化学习,它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。在对29种不同的开源RL环境进行基准测试时,Eureka在83%的测试中超越了人类,并实现了52%的改进。这些测试环境包括10种不同的机器人形态,如四足机器人、四旋翼机器人、双足机器人和机械手等。

最令人惊讶的是,Eureka在处理复杂、高维电机控制的任务上表现更佳,有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效,类似于AlphaGo在下棋策略上的表现。这项研究由英伟达、宾夕法尼亚大学、加州理工学院和德州大学奥斯汀分校的研究人员合作完成,其中近半数研究人员都是华人。这一成就为机器人学习和强化学习领域带来了革命性的突破,也引发了广泛的关注和期待。

()

免责声明:本站文章部分内容为本站原创,另有部分容来源于第三方或整理自互联网,其中转载部分仅供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对其内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。
传媒行业的商业全面服务 与您共创美好未来
合作共赢
  • 交互式网络传媒领域
  • 资源丰富,体系完善
  • 创造更加精准、有效的,线上线下互动品牌整合服务
  • 多年传媒行业尽管,见证品牌及产品的蜕变、递增和成长
创造优势
苏州钰尚传媒-商业品牌企业运营服务商最新资讯
致力于传媒行业领域的专业公司
长沙 北京 广州 上海 深圳 中山 珠海 河北 山西 广东 山东 河南 浙江 四川 安徽 湖北 湖南 陕西 福建 辽宁 云南 广西 江西 贵州 甘肃 吉林 黑龙江 海南 内蒙古 西藏 宁夏 青海 重庆 天津 香港 台湾 澳门 江苏 南京 苏州 无锡 徐州 常州 南通 扬州 盐城 淮安 泰州 镇江 宿迁 连云港 苏州吴中区 苏州相城区 苏州平江区 苏州沧浪区 苏州金阊区 苏州工业园区 苏州园区 苏州高新区 苏州新区 苏州虎丘区 苏州张家港 苏州常熟 苏州昆山 苏州太仓 苏州吴江