用 AI 算法玩游戏,打破人类玩家的记录,是一种什么体验?
其中不乏我们熟悉的打砖块、蒙特祖玛的复仇、小蜜蜂等经典游戏。
游戏广告系统开发,游戏广告开发,游戏广告源码开发,游戏广告平台开发,游戏广告app开发,游戏广告系统多少钱,游戏广告价格,游戏广告app功能,游戏广告平台介绍,游戏广告系统搭建。
可能有些朋友不知道 Atari,这里简单介绍一下。
1976 年,Atari 公司在美国推出了 Atari 2600游戏机,这是史上部真正意义上的家用游戏主机系统。
80 后、90 后非常熟悉的 FC红白机(超级马里奥、魂斗罗、松鼠大作战、坦克等等)则是十几年之后的事情了。
正是这样的一台主机创立了现在上千亿美元的家用游戏机产业。
要说的主角 DreamerV2 就是在这样一系列具有纪念意义的游戏中的 agent (智能体),Google的新力作。
在没有人为的干预下,DreamerV2 agent可以学习自己打游戏,并且比肩人类,甚至超越。
这样一个看似高大上的算法,咱们现在都能玩!
DreamerV2 刚刚开源,并且只需要一个 GPU就能跑!
强化学习是机器学习的一个领域。
这就像训练宠物一样。当宠物做出了指定动作之后,我们给它一些食物作为奖励,使它更加坚信只要做出那个动作就会得到奖励。
这种训练叫 Reinforcement Learning(强化学习,简称 RL)。
DreamerV2 就是一种 RL算法,举个简单的例子,说明下工作原理。
游戏屏幕的图像是输入数据,经过卷积层和全链接层,后映射到游戏手柄所有可能的动作。
强调如何基于环境而行动,以取得大化的预期利益。
其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得大利益的习惯性行为。
在强化学习的世界里,我们的算法被称为 Agent,它与环境发生交互。
Agent从环境中获取状态(state),并决定自己要做出的动作(action)。
环境会根据其自身的逻辑给 Agent 予以奖励(reward)。这个奖励有正向和反向之分。
比如,动物生活在大自然中,吃到食物即是一个正向的奖励,而挨饿甚至失去生命就是反向的奖励。
动物们靠着自己的本能趋利避害,增大自己得到正向奖励的机会。
如果反过来说,就是避免得到反向的奖励,而挨饿什么的终会导致死亡。
动物生存的唯一目的其实就是避免死亡。