Как напоминает N+1, большинство существующих алгоритмов искусственного интеллекта, предназначенных для анализа и освоения различных игр, используют обучение с подкреплением. Суть этого метода состоит в том, что в процессе тренировки программа получает отклик от среды (очки за успешное прохождение или штрафные баллы за ошибки) и благодаря этому улучшает свою работу. Как правило, алгоритм учится выполнять конкретную задачу - попадая в новые условия, он не может применить ранее полученные навыки.
Предложенный DeepMind подход позволяет отдельным частям обучаться выполнению сразу нескольких задач, а потом обмениваться знаниями между собой. Тренировка алгоритма IMPALA на датасете DMLab-30, включающем 57 игр компании Atari, показала, что при наличии достаточного числа процессоров программа может обрабатывать примерно 250 тысяч кадров в секунду, или 21 миллиард кадров в день, что является абсолютным рекордом. Для сравнения DeepMind опубликовала на YouTube ролики, демонстрирующие прохождение одной из игр человеком и новым алгоритмом компании.
Как полагают в DeepMind, в перспективе подобные алгоритмы могут найти применение в робототехнике - с их помощью роботы смогут быстрее адаптироваться к окружающей среде и работать эффективнее.
Напомним, что в декабре прошлого года созданная DeepMind программа AlphaZero за восемь часов освоила игру го, потратила четыре часа на обучение шахматам и всего два часа - на освоение сёги. Во всех случаях после обучения AlphaZero уверенно обыграла лучшие в мире программы для каждой из игр.