通用网格世界 (2022)
幻灯片内容
2022年3月,硕士研究生毕业设计答辩。主要创新点:
- 内容设计了一个基于Python的多智能体通用网格世界统一框架,定义了相应的网格世界的部分可观测随机博弈问题。该框架创新性地提出了基于混入式扩展组件设计,研究人员可以灵活定义需要的环境方块、智能体动作集、智能体属性以及时间步规则函数等一系列网格世界环境中的基本要素,并且支持对这些要素进一步封装成为新的组件。对于较复杂任务也能自定义智能体视野,可以映射到为多维分层观测向量,并兼容PettingZoo框架规定的ParallelEnv风格接口以及AEC风格接口两种接口,以便深度算法进行学习训练。该框架的高度可扩展性可以有效提高环境开发效率,降低相关领域环境的开发难度。
- 设计了与囚徒困境近似等价的复杂博弈环境,使用PSRO算法并行训练不同玩家的多个深度元策略网络,将这些不同策略至于同一环境中模拟对抗,得到经验收益矩阵。在经验博弈理论分析框架下根据收益矩阵求解策略响应图,分析复杂场景博弈中的不同元策略博弈行为结构,并对关键元策略分析相对占优情况,研究它的复制动力学与策略演化关系。
- 基于oTree研发了一套支持人人、人机在线博弈的平台,支持与有限状态机策略的机器人玩家进行重复型博弈研究,同时将囚徒困境的近似等效二维世界场景接入实验平台,支持与训练所得智能体进行在线实时复杂场景上的博弈研究,在环境支持的情况下也可以进行合作博弈和协作任务的研究;最后,本文研发了一套oTree公开链接管理平台,便于实验组织者分发实验链接,也便于实验参与者加入实验,隐藏后端实现等。
幻灯片 - master.pptx
在线浏览