Как пишет N+1 специалистам удалось научить алгоритм адаптироваться к постоянно меняющимся картам популярной игры. Для этого они использовали обучение с подкреплением. Особенность этого вида машинного обучения, заключается в том, что алгоритм учится, не имея при этом обучающей выборки в виде пары "входные данные – ответ": в ходе тренировки программа получает отклик от среды (например, очки за успешное прохождение уровня или штрафные баллы за ошибки) и за счет этого улучшает эффективность своих действий.
Для тренировки программы под названием For The Win (FTW) исследователи из DeepMind выбрали режим игры под названием "Захват флага", в котором игроки делятся на две команды, а цель состязания состоит в том, чтобы захватить флаг соперников, удержав при этом свой. Победа присуждается той команде, которая за пять минут сумеет получить и удержать флаг оппонента большее количество раз.
В процессе обучения FTW должен был вырабатывать стратегию поведения в игре, а не запомнить игровую карту. Для этого дизайн уровней постоянно менялся, а ИИ учился как человек: алгоритм наблюдал за окружением и выполнял различные действия через эмулятор игрового контроллера. При этом разработчики одновременно обучали нескольких ИИ-агентов, которые могли объединяться друг с другом.
Для проверки качества обучения в DeepMind провели турнир, в котором приняли участие 40 человек. Люди и агенты в играх были случайно перемешаны: они могли попасть как в одну команду, так и в противоположные. По итогам соревнования FTW одержала больше побед, чем настоящие игроки. Кроме того, в опросе после игры, участники отметили, что алгоритм был больше расположен к сотрудничеству, чем сами люди.
По мнению разработчиков, в перспективе такая система ИИ может пройти обучение и на более сложных играх, включая StarCraft II или Dota 2.