在电子游戏世界(特指Atari2600这一类的简单游戏。不包括推理解密类的游戏)中:
环境指的是游戏本身,包括其内部的各种逻辑;
Agent指的是操作游戏的玩家,当然也可以是指操作游戏的AI算法;
游戏广告系统开发,游戏广告开发,游戏广告源码开发,游戏广告平台开发,游戏广告app开发,游戏广告系统多少钱,游戏广告价格,游戏广告app功能,游戏广告平台介绍,游戏广告系统搭建。
状态就是指游戏在屏幕上展现的画面。游戏通过屏幕画面把状态信息传达给Agent。如果是棋类游戏,状态是离散的,状态的数量是有限的。但在动作类游戏(如打飞机)中,状态是画面中的每个物体(飞机,敌人,子弹等等)所处的位置和运动速度的组合。状态是连续的,数量几乎是无限的。
动作是指手柄的按键组合,包括方向键和按钮的组合,当然也包括什么都不按(不做任何动作)。
奖励是指游戏的得分,每击中一个敌人都可以得到一些得分的奖励。
策略是Agent脑子里从状态到动作的映射。也就是说,每当 Agent看到一个游戏画面(状态),就应该知道该如何操纵手柄(动作)。RL 算法的任务就是找到佳的策略。
DreamerV2 是一种理解环境的强化学习算法,我们称为 Model-BasedRL。
DreamerV2只需要输入游戏的图像画面,即可学习。它建立在循环状态空间模型(RSSM)的基础上,在训练过程中,编码器会对图像进行随机表示,并整合到世界模型的循环状态中。
由于画面表示是随机的,Agent 需要提取有效信息再进行预测,这样可以让 Agent对未见过的画面更具鲁棒性。
算法需要使用 Tensorflow 2,版本为 2.3.1,用的游戏环境是 OpenAI 的Gym。
这是一个支持 Python 语言的游戏环境库,一款用于研发和比较强化学习算法的工具包,它支持训练 Agent做任何事情,从行走到玩游戏。
直接安装需要的第三方库。