> 海外 >

正文 >Google DeepMind AI学会创造性地摆脱障碍

Google DeepMind AI学会创造性地摆脱障碍

   2017-07-11 12:12   作者:   编辑:郭晴天
字号:T T



加强学习(RL)是通过使用奖励制度来教导和指导行为的做法。理想行为产生奖励; 不良行为不行。它是机器学习中常用的工具,现在字母表团队已经用它来教导DeepMind AI成功导航跑酷课程。


团队希望看到简单的回报是否能在复杂的环境中工作。他们建立了一个虚拟的跑步课程,有滴,障碍和俯卧撑,并为进步取得了积极的回报。在最基本的层面上,系统如下:AI移动越过地形越快,奖励就越大。为更复杂的计划增加了额外的激励和惩罚。

代理在跑酷中玩乐!来自DeepMind的同事的酷文https://t.co/X0PwKXrQ2M?ncid=txtlnkusaolp00000618pic.twitter.com/yMT6XCNv45

- Oriol Vinyals(@OriolVinyalsML)2017年7月10日

 

您可以在此视频中看到完整的结果; 所有的棒状图的导航都是通过强化学习教导的。AI使用一个试错系统来确定如何尽快向前移动,而不会“终止”。

很明显,DeepMind正在使用创造性的解决方案来克服所提供的障碍; 大多数时候,提供最有效解决方案的运动并不完全是自然而然的。它为未来的AI提供了有趣的可能性,因为机器人实际上不必将自己限制在人类的运动中,以达到设定的目标。看看这是否会对未来的AI和机器人开发产生影响,这将是有趣的。