“ 不完整信息博弈中的人工智能入门世界上充满了多主体交互相关的任务。历史上,人类是这些多人情境下的主要参与者,但随着人工智能的发展,我们有机会将算法引入日常生活,作为平等的参与者和我们可以与之互动的代理。目前,类似的计算机代理正在解决许多任务:从自动电话系统这样简单无害的任务,到安全管理甚至自动驾驶交通管理这样关键的任务。这使得我们能够显著自动化许多日常流程,将决策权转移给算法,从而减轻人类的负担。与信息完全可用的同等规模博弈相比,具有不对称性和不完整信息的博弈在决策方面需要更复杂的方法。任何给定时间的最佳解决方案取决于对对手策略的了解,而对手的策略又取决于对我们隐藏且仅他们可获得的信息,而这些信息只能通过他们的过往行为来评估。然而,他们之前的行为也取决于对我们行动隐藏的信息以及我们的行动如何揭示这些信息。这个递归过程显示了构建有效决策算法的主要困难。
“ 编程AI代理的挑战代理是指在过程中做出决策的任何自主参与者,无论是人类还是计算机。在多主体环境中,代理之间会相互作用,并且并不总是了解其他代理的策略、目标和能力。代理在这种环境中最大化其结果的最佳行为取决于其他代理的行动。要在多主体环境中构建一个有效的代理,有必要适应其他代理的行为,模拟它们的策略并根据它们的行为进行学习。为了使代理能够实时适应,它们需要在实现其结果的同时选择最优行动。如果使用基于强化学习的方法,代理将为其行动积累奖励。代理还将平衡遵循其计划行为(利用)和实验性探索性行动(探索)之间的关系,试图学习关于其他玩家策略的有用信息。除了已经复杂的问题陈述之外,代理还将面临与在不完整信息的多主体环境中工作相关的其他限制。这些包括有限的观察、观察的随机性、观察信息的不足以及动态行为。
原始链接:https://habr.com/ru/companies/sberbank/articles/337264/
评论(0)