当前位置:首页 > 篮球资讯 > 正文内容

谷歌发布一个新的强化学习环境:Google Research Football

杏彩体育3年前 (2023-02-02)篮球资讯332

本文为 AI 研习社编译的技术博客,原标题 : Introducing Google Researc
打开凤凰新闻,查看更多高清图片

本文为 AI 研习社编译的技术博客,原标题 :

Introducing Google Research Football: A Novel Reinforcement Learning Environment

作者 | Karol Kurach、Olivier Bachem

翻译 | 汪鹏       编辑 | 王立鱼

原文链接:

https://ai.googleblog.com/2019/06/introducing-google-research-football.html

强化学习(RL)的目标是培养能够与环境互动并解决复杂任务的智能体,实现在机器人,自动驾驶汽车等领域中的实际应用。通过让智能体玩游戏,如标志性的 Atari console games  , Alphago  ,或大型游戏,如Dota 2或魔兽世界 2 ,所有这些都提供了新算法和新算法的挑战性环境,推动了这一领域的快速发展。可以以安全,可重复的方式快速测试想法。对于RL来说,足球比赛尤其具有挑战性,因为它需要在短期控制,学习概念(如传球)和高水平战略之间实现自然平衡。

今天我们很高兴地宣布推出 Google Research Football Environment,这是一个全新的RL环境,智能体的目标是掌握世界上最受欢迎的体育足球。以流行的足球游戏为模型,足球环境提供基于物理的3D足球模拟,其中智能体控制他们团队中的一个或所有足球运动员,学习如何在他们之间传球,并设法克服对手的防守以进球。足球环境提供了几个关键组件:高度优化的游戏引擎,一系列严格的研究问题,称为足球基准,以及足球学院,一组逐步变硬的RL场景。为了便于研究,我们在Github上发布了基础开源代码的测试版。

足球引擎

足球环境的核心是一个高级的足球模拟,称为足球引擎,它基于大量修改版本的游戏足球。根据两支对方球队的输入动作,它模拟了足球的比赛,包括进球,犯规,角球和点球,以及越位。 足球引擎采用高度优化的C ++代码编写,允许它在现成的机器上运行,无论是GPU还是没有基于GPU的渲染。这使其在单个六核机器上达到每天大约2500万步的性能。

足球引擎是一种先进的足球模拟,支持所有主要的足球规则,如开球(左上),进球(右上),犯规,牌(左下),角球和点球(右下)和越位。

足球引擎还具有针对RL的额外功能。首先,它允许从不同的状态表示中学习,这些状态表示包含诸如玩家位置之类的语义信息,以及从原始像素学习。其次,为了研究随机性的影响,它可以在随机模式(默认启用)中运行,其中在环境和对手AI动作中都存在随机性,并且在确定性模式中,其中没有随机性。第三,足球引擎开箱即用,与广泛使用的OpenAI Gym API兼容。最后,研究人员可以通过使用键盘或游戏手柄与对方或其代理人对战来获得对游戏的感觉。

足球基准

通过足球基准测试,我们为基于足球引擎的RL研究提出了一系列基准问题。这些基准的目标是针对固定的基于规则的对手进行足球的“标准”游戏,该对手是为此目的而手工设计的。我们提供三个版本:简单足球难度,中等难度和困难难度,对手的实力不同。

作为参考,我们提供两种最先进的强化学习算法的基准测试结果:DQN和IMPALA,它们既可以在一台机器上的多个过程中运行,也可以在多台机器上同时运行。我们研究了为算法提供的唯一奖励是获得的目标以及我们为将球移近目标而提供额外奖励的设置。

我们的研究结果表明,足球基准是各种困难的有趣研究问题。特别是,简单足球难度似乎适用于单机算法的研究,而足球困难基准则证明即使对于大规模分布式RL算法也具有挑战性。基于环境的性质和基准的难度,我们期望它们可用于研究当前的科学挑战,例如样本有效RL,稀疏奖励或基于模型的RL。

不同基线的不同难度级别的代理与对手的平均目标差异。 简单的对手可以被训练为2000万步的DQN代理打败,而中等和困难的对手需要分布式算法,例如训练2亿步的IMPALA

足球学院及未来方向

完整足球基准下,训练智能体可能具有挑战性,我们还提供足球学院,各种难度的各种场景。这使研究人员能够开始研究新的研究思路,允许测试高级概念(例如传递),并为研究课程学习研究思路提供基础,智能体可以从逐渐困难的情景中学习。足球学院场景的示例包括智能体必须学习如何针对空目标进行评分的设置,他们必须学习如何在玩家之间快速传递,以及他们必须学习如何执行反击。使用简单的API,研究人员可以进一步定义自己的场景并训练代理来解决它们。

热门:一个成功的策略,朝着目标(根据需要,因为一些对手追逐我们的球员)和对阵守门员的比分。第二:驾驶和完成反击的美妙方式。第三:解决2对1比赛的简单方法。底部:角球后角球得分。

足球基准和足球学院考虑标准的RL设置,其中智能体与固定的对手竞争,即,对手可以被认为是环境的一部分。然而,实际上,足球是一个双人游戏,两个不同的团队竞争,而一个人必须适应对方团队的行动和战略。足球引擎为研究这种环境提供了独特的机会,一旦我们完成了实现自我发挥的持续努力,就可以研究更有趣的研究设置。雷锋网雷锋网雷锋网

点击谷歌发布一个新的强化学习环境:Google Research Football】即可访问!

今日资源推荐:

一份可以作为Python编程语言的指南或者教程。它主要是为新手而设计,不过对于有经验的程序员来说,它同样有用。即便你对计算机的了解只是如何在计算机上保存文本文件,你都可以通过本书学习Python。如果你有编程经验,你也可以使用本书学习Python。

点击链接即可获取:https://ai.yanxishe.com/page/resourceDetail/535

扫描二维码推送至手机访问。

版权声明:本文由杏彩体育-专注全球体育资讯发布,如需转载请注明出处。

本文链接:http://www.redirected.net/?id=10309

分享给朋友:

“谷歌发布一个新的强化学习环境:Google Research Football” 的相关文章

「篮球」是一种什么样的运动?

「篮球」是一种什么样的运动?

概述 篮球运动是在一系列规则下双方队员以将球放入对方篮筐为目的的包含身体对抗的运动。起源于1891年,詹姆斯·奈史密斯(James Naismith,1861年11月6日—1939年11月)看见当地儿童喜欢用球投向桃子筐(当地盛产桃子,各家...

打了这么多年的篮球,这些小知识你都知道吗?

打了这么多年的篮球,这些小知识你都知道吗?

篮球场上的五个位置 (1号位)控球后卫 PointGuard/PG 控球后卫在防守上要挡死对方的对位球员,进攻上有时负责跑快攻,有时负责组织快攻,阵地战会组织全队的进攻,投远距离投篮,保持外线运球的流动性,负责强侧的联结。...

U球直播孟菲斯灰熊vs萨克拉门托国王 国王可否连胜

U球直播孟菲斯灰熊vs萨克拉门托国王 国王可否连胜

 北京时间2022年11月23日9:00,2022-2023NBA常规赛,6连胜的国王面对灰熊,可否作客拿下7连胜的佳绩。 基本分析:   本赛季的国王得分效率高得突破我们常规认知。   上赛季的灰熊以黑马的身份进入季后赛,但是由于经验的不足,球队无法走的...

CCTV5直播篮球公园+CBA辽篮vs首钢,5+录播中国女篮,app转女排

CCTV5直播篮球公园+CBA辽篮vs首钢,5+录播中国女篮,app转女排

  CCTV5直播篮球公园+CBA辽篮VS首钢,5+录播中国女篮,APP转女排世锦赛半决赛   北京时间10月14日(周五),中央广播电视总台发布了体育频道(CCTV5)、体育赛事频道(CCTV5+)、奥林匹克频道(CCTV16)和央视体育客户端(CCTV5APP)今日最新节目单。...

CCTV5或调整转播计划,中国男篮世预赛暂未安排直播,球迷惋惜

CCTV5或调整转播计划,中国男篮世预赛暂未安排直播,球迷惋惜

最近中国男篮已经奔赴伊朗当地,即将开始新的比赛。对于中国男篮而言,这一次的世预赛非常重要堪称是生死大战,如果能够打败伊朗男篮,甚至打败后续的巴林男篮取得11月份两连胜,中国男篮这一次基本上就能够拿到世界杯的门票。而世界杯的比赛,是能够有助我们进入后续巴黎奥运会的重要一战,所以务必要打好接下...

蔡徐坤前经纪公司爆料,疑似蔡徐坤整容,造谣蹭流量还是实锤

蔡徐坤前经纪公司爆料,疑似蔡徐坤整容,造谣蹭流量还是实锤

相信大家都很熟悉蔡徐坤的对比。一段打篮球的视频,包括粉丝和路人。基本上没有不认识他的年轻人。他是一个响亮的交通明星。 除了总流量,蔡徐坤的歌曲《情人》也很好,动人的旋律和他英俊的外表吸引了大量的粉丝...