英伟达最新AI AgentEureka开源可完成转笔等复杂动作、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作，平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

QQ：

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

英伟达最新AI AgentEureka开源可完成转笔等复杂动作

baixun

2023-10-21 14:37:39

要点:
英伟达的最新AI AgentEureka使用GPT-4生成奖励函数，教会机器人完成多项复杂任务，包括转笔、打开抽屉、抛球等，表现超越人类专家。
Eureka采用混合梯度架构，结合无梯度的情境学习和强化学习，通过上下文来实现人类水平的奖励算法设计，大幅提升机器人性能。
这项研究受到广泛关注，开源项目可在机器人领域应用，尤其在处理复杂任务和高维电机控制方面表现出色，甚至有时与人类策略负相关。

站长之家（ChinaZ.com）10月21日消息:英伟达最新的AI AgentEureka搭载了强大的GPT-4模型，通过生成奖励函数的方式，使机器人能够完成多项复杂任务，其中包括一些看似简单但难以实现的动作，如转笔、打开抽屉、抛球等。这一成就令人瞩目，尤其是在转笔这项技能上，即便是靠人类逐帧制作动画，也难以达到如此高水准。研究结果显示，Eureka在超过80%的任务中都超越了人类专家，使机器人的平均性能提升了50%以上。

论文链接:

https://arxiv.org/abs/2310.12931

GitHub链接:

https://github.com/eureka-research/Eureka

Eureka的关键创新在于采用了一种混合梯度架构，结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化。在外循环中，GPT-4细化奖励函数，而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能，而不需要特定的提示工程和奖励模版。

Eureka还支持一种新形式的上下文强化学习，它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。在对29种不同的开源RL环境进行基准测试时，Eureka在83%的测试中超越了人类，并实现了52%的改进。这些测试环境包括10种不同的机器人形态，如四足机器人、四旋翼机器人、双足机器人和机械手等。

最令人惊讶的是，Eureka在处理复杂、高维电机控制的任务上表现更佳，有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效，类似于AlphaGo在下棋策略上的表现。这项研究由英伟达、宾夕法尼亚大学、加州理工学院和德州大学奥斯汀分校的研究人员合作完成，其中近半数研究人员都是华人。这一成就为机器人学习和强化学习领域带来了革命性的突破，也引发了广泛的关注和期待。

（）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

有帮助

上一篇：超大特大城市积极稳步推进城中村改造

下一篇：章小蕙单场直播带货超1亿元买手挑大梁的小红书要在“双11”狂飙？

栏目索引