Команда DeepMind под названием Open-Ended Learning Team разработала новый способ обучения систем ИИ для игр. Вместо того чтобы обучать систему на основе тысяч предыдущих игровых сессий, как это делается с другими игровыми системами ИИ, группа DeepMind дала агентам своей новой системы ИИ набор минимальных навыков, которые они используют для достижения простой цели (например, обнаружить другого игрока в виртуальном мире), а затем развивают их.
Исследователи создали красочный виртуальный мир под названием XLand. В нем игроки с искусственным интеллектом, которых исследователи называют агентами, отправляются на достижение общей цели, по мере достижения которой они приобретают навыки, которые могут использовать для достижения других целей. Затем исследователи меняют игру, ставя перед агентами новую цель, но позволяя им сохранять навыки, полученные в предыдущих играх.
Один из примеров включает в себя попытку агента добраться до самой высокой точки виртуальной локации, к которой нет прямого доступа. Пошарив вокруг, агент обнаруживает, что может передвинуть найденный плоский предмет и использовать его в качестве пандуса, и таким образом проложить себе путь наверх. Чтобы дать возможность агентам приобрести больше навыков, исследователи создали 700 000 сценариев, в которых перед агентами стояло около 3,4 млн уникальных задач.
Используя этот подход, агенты смогли научиться играть в различные игры, такие как салки, захват флага и прятки. Исследователи называют свой подход бесконечно сложным. Еще один интересный аспект XLand заключается в том, что существует некий надзиратель, который следит за агентами и отмечает, какие навыки они изучают, а затем создает новые игры для закрепления их навыков. При таком подходе агенты будут учиться до тех пор, пока им будут давать новые задания.
Управляя виртуальным миром, исследователи обнаружили, что агенты приобретали новые навыки, как правило случайно, а затем развивали их, что привело к появлению более продвинутых навыков, таких как экспериментирование при нехватке вариантов, сотрудничество с другими агентами и использование объектов в качестве инструментов. Они считают, что их подход — это шаг к созданию алгоритмов, которые могут самостоятельно учиться играть в новые игры. Эти навыки в один прекрасный день могут быть использованы автономными роботами.
Исследователи подробно описали свою работу в документе (PDF).