超级快3
超级快3

超级快3

1 超级快3全称

超级快3:玩躲猫猫游戏 AI学会攻防术-山西经济资讯

2 超级快3简介

 张煜欢摄  医共体改革归根究底为了减轻百姓看病就医负担。

可是这样并不一定是最好的方式。

3 超级快3的由来

糖系客厅客厅可以说是家中的“门面”,回到家第一时间就想瘫倒在客厅的沙发上。超级快3早在2006年,教育部办公厅印发的《全国普通高等学校公共艺术课程指导方案》中就明确提出:每个学生在校学习期间,至少要在艺术限定性选修课程中选修1门并且通过考核。

展开本节剩余内容

4 超级快3详细介绍

超级快3:玩躲猫猫游戏 AI学会攻防术-山西经济资讯

【警方通报扔车执法】

超级快3

(科技日报纽约9月17日电)

为什么选择躲猫猫♀◇?该论文的第一作者、OpenAI研究员博文·贝克认为◇⊙π,躲猫猫被选为一个有趣的起点△,主要是因为其规则很简单〇∵。所有游戏中的代理(Agent〇∵∴,也称智能体?,指能自主活动的软件或硬件实体)都被模拟为球形对象◇,可执行3种类型的操作:导航、抓住并移动物体、锁定对象♀π□,且只能由该代理的队友解锁☆。

超级快3

总部位于旧金山的OpenAI公司近日发表的一篇新论文提出∴△∴,在儿童的“躲猫猫”游戏中训练模型▽↑,并在数以千万计的竞赛中使它们相互对抗∵∟♂,可导致模型自动发展出类似人类的行为┊〇,从而提高智力并改善后续行动的性能┊π。

作为回应∴﹡,躲藏者学会了将坡道移入他们的房间♂∟,因此寻找者无法用它来越过墙壁?♂。随着环境变得越来越复杂☆△⌒,躲藏者学会了使用细长箱子建造更强大的“堡垒”π。虽然OpenAI认为这将是最终的策略⌒∴∵,但在游戏进行到3.8亿回合时⊿,寻找者再次成功反击◇♀﹡,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”♀,越过墙壁进入堡垒﹡∟﹡。

超级快3

OpenAI的最终目标是构建能够在一个通用系统中执行多项任务的人工通用智能(AGI)⌒。虽然可能会有不同的目标∟,但OpenAI正在大力投资由大规模计算能力实现的强化学习研究♂。OpenAI最近与微软签署了一份价值10亿美元的为期10年的计算合同﹡。

AI如何玩躲猫猫∟⊙?在经过数亿次的游戏后┊﹡,AI代理经历了几个阶段的策略发展过程π〇⊿。在初始阶段⊿∴⌒,躲藏者(蓝色)和寻找者(红色)通过在空间中移动而不操纵任何物体∟∵♂,制定了非常粗糙的躲避和追逐策略∴。

躲猫猫游戏研究也激发了OpenAI□♂,因为随着环境复杂性的增加▽∴,游戏中的代理不断地通过新策略自我适应新的挑战▽〇﹡。贝克表示:“如果扩展像这样的流程△,并将其放入更复杂的环境中□〇♂,那么你可能会得到足够复杂的代理□♂,以便为我们解决实际任务∟。”

在最后阶段⊙∟□,躲藏者学会在建造堡垒之前锁定所有箱子☆∟,以防止“箱子冲浪”∟∵∵。研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”⊿∵π。“自动课程”这一术语是今年由DeepMind创造的⊙,适用于多个代理逐渐创造新任务以在特定环境中相互挑战〇∵☆。OpenAI的研究人员认为π↑π,这个过程在自然选择方面具有相似之处□▽。

超级快3

尽管机器学习在诸如围棋和Dota 2等复杂游戏中取得了显著进步﹡∟∵,但在这些领域掌握的技能并不一定能推广到真实场景中实际应用π。越来越多的研究人员正在寻求建立一种机器智能♂∵,使其行为、学习和进化更像人类〇。

然而∵□,在游戏进行了7500万回合之后▽♂﹡,寻找者发现了一个反策略♀?。他们学会了在躲藏者的要塞旁边移动一个坡道♂,并用它来爬过墙壁⌒π。

超级快3

在经历2500万个回合后〇┊∵,游戏变得更加复杂π。躲藏者学会了移动和锁定在环境中的箱子和路障♂,以在自己周围建立堡垒◇〇,这样寻找者就永远看不到它们了♂△。不仅如此◇◇⊿,他们还制定了协调战略?⌒∴,例如相互传递物体⊙〇□,以加快建造堡垒的进程♂⌒。

研究人员在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻找者”┊,房间的边界是静态墙﹡。环境中还包括不同尺寸的可移动箱子和可移动坡道♂。

挑战在哪里π♂△?游戏代理有时会表现出令人惊讶的行为♂△。例如〇,躲藏者试图完全逃离游戏区域□△,直到研究人员对此施加惩罚〇π△。

其他挑战可能归因于模拟环境设计中的物理缺陷∴〇┊。例如?♀,躲藏者了解到♂◇,如果他们在拐角处向墙壁推动斜坡♀↑⌒,斜坡将由于某种原因穿过墙壁然后消失♂。这种“作弊”说明了算法的安全性如何在机器学习中发挥关键作用⊿⊿。研究人员说:“在它发生之前▽△,你永远不会知道⊙∴。这类系统总是存在缺陷☆。我们所做的基本上是观察⌒,以便我们可以看到这种奇怪的事情发生〇,然后试着修复物理缺陷♂﹡□。”

这项研究为啥很重要┊┊⌒?鉴于躲猫猫相对简单的目标♂⊙♂,通过竞争性自我游戏训练的多个代理学会了使用工具♂?☆,并采用人类相关技能来获胜♂▽△。OpenAI认为♂,这为未来的智能代理开发和部署提供了一个有前景的研究方向▽。OpenAI正在开源其代码和环境﹡┊,以鼓励在该领域进一步研究﹡♀△。

研究人员使用强化学习来训练游戏代理◇,并遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐〇,或是寻找者成功找到躲藏者⊙┊。

展开本节剩余内容
显示剩余内容

分享到

编辑

超级快3超级快3创建

分类

热门关键词

友情链接