“ 不完全情報ゲームにおけるAI入門
世界は複数のエージェント間の相互作用に関連するタスクに満ちています。歴史的に、これらのマルチエージェント状況の主な参加者は人間でしたが、AIの発展により、アルゴリズムを私たちの日常生活に、対話できる同等の参加者およびエージェントとして導入する機会が得られました。現在、同様のコンピューターエージェントは多くのタスクを解決しています。自動電話システムのような単純で無害なものから、セキュリティ管理、さらには自律輸送管理のような重要なものまで。これにより、多くの日常プロセスを大幅に自動化し、意思決定をアルゴリズムに移管することで、人間の負担を軽減できます。非対称性と不完全情報を持つゲームは、いつでも完全に利用可能な理想的な情報を持つ同様のサイズのゲームと比較して、意思決定に大幅に複雑なアプローチが必要です。任意の時点で最適な解決策は、相手の戦略を知ることに依存しますが、それは私たちから隠されており、相手のみが利用できる情報に依存しており、過去の行動からのみ評価できます。しかし、彼らの過去の行動も、私たちの行動に関する隠された情報と、私たちの行動がその情報をどのように明らかにしたかに依存します。この再帰的なプロセスは、効果的な意思決定アルゴリズムを構築する上での主な困難を示しています。
“ AIエージェントのプログラミングにおける課題
エージェントとは、人間であれコンピューターであれ、意思決定を行うプロセスにおける自律的な参加者です。マルチエージェント環境では、エージェントは互いに相互作用し、他のエージェントの戦略、目標、能力を常に知っているわけではありません。このような環境で結果を最大化するエージェントの最適な行動は、他のエージェントの行動に依存します。マルチエージェント環境で効果的なエージェントを構築するには、他のエージェントの行動に適応し、それらの戦略をモデル化し、それらの行動に基づいて学習する必要があります。エージェントがリアルタイムで適応できるようにするには、結果を達成しながら最適な行動を選択する必要があります。強化学習に基づくアプローチを使用する場合、エージェントは行動に対して報酬を蓄積します。エージェントは、計画された行動に従うこと(活用)と、実験的な探索行動(探索)との間でバランスを取り、他のプレイヤーの戦略に関する有用な情報を学ぼうとします。すでに複雑な問題設定に加えて、エージェントは不完全情報を持つマルチエージェント環境での作業に関連する他の制限に直面します。これらには、限定的な観測、観測の確率性、観測情報の不完全性、および動的な行動が含まれます。
“ ポーカーAIソリューションの実用的な応用
ポーカーボットの現実世界のタスクへの適用性は限定的であるように見えますが、その開発により、カードゲームから実践に移管できる多くの方法が得られました。最高の人間プレイヤーを打ち負かす現代のポーカーボットのアルゴリズムは普遍的であり、一般的に不完全で非対称な情報を持つ環境でエージェントをトレーニングすることを目的としています。これらは、セキュリティからマーケティング(オーディエンスの入札をシミュレートできる)まで、同様に複雑な環境での意思決定が必要な多くのアプリケーションに移管できます。銀行セクターにも、高度なポーカーボットの背後にあるアルゴリズムが応用を見つける多くの実用的なタスクがあります。Sberbankのそのようなビジネスタスクの中で、主にリスクリターン管理と多数の他の銀行オブジェクトとの市場での価格設定に言及する価値があります。しかし、これらのアプリケーションのリストは、顧客価値管理やネクストベストアクションなどのタスクに簡単に拡張できます。
“ ソリューションの準備と提出
ボットを実行するための環境は、特別に準備されたDockerイメージです。ZIPアーカイブにパッケージ化されたボットコードは、検証システムに送信する必要があります。アーカイブには、Dockerイメージとエントリーポイントを指定するmetadata.jsonファイルを含める必要があります。実行可能なコマンドは、stdin/stdoutを介してゲームシミュレーターと交換されます。シミュレーターは、event_type<\t>dataの形式で1行ずつstdinにイベントを送信します。ここで、dataはイベントパラメータを含むJSONオブジェクトです。declare_actionイベントに応答して、ボットは割り当てられた時間内にstdoutでaction<\t>amountの形式の行で応答する必要があります。
元のリンク: https://habr.com/ru/companies/sberbank/articles/337264/
コメント(0)