Как пишет N+1, большинство систем искусственного интеллекта, предназначенных для прохождения видеоигр, используют обучение с подкреплением. Это метод, при котором система получает оценку своих действий от игры, зарабатывая очки за прохождение. Алгоритм совершает случайные действия до получения награды, а затем пытается повторить их в будущем.
Стэнфордские студенты предложили иной подход к обучению. Чтобы ускорить процесс обучения, они решили сначала научить нейросеть понимать команды, написанные естественным языком, а для обучения использовали данные в виде пар команда - скриншот действия игрового персонажа. В качестве среды разработчики выбрали игру "Месть Монтесумы", которая часто используется для тренировки искусственного интеллекта. Особенность этой игры состоит в том, что в ней редко встречаются "награды", необходимые для успешного прохождения, и поэтому искусственному интеллекту трудно понять, какие действия ведут к победе.
После обучения командам разработчики дали нейросети набор команд, выполнение которых позволяло пройти каждую из игровых комнат. Чтобы проверить, что алгоритм научился понимать команды, авторы дали ему пройти комнату с набором команд вроде "поднимись по лестнице" без накопленных данных о предыдущих тренировках. В ходе этой проверки искусственный интеллект смог правильно интерпретировать команды человека и пройти уровень. При этом программа игнорировала команды, если находила более оптимальную стратегию для прохождения.
Оценка, проведенная при помощи платформы для разработки и сравнения алгоритмов обучения с подкреплением OpenAI Gym, показала высокую эффективность новой методики. Разработанный студентами алгоритм набрал 3500 очков против 2500 у самого успешного конкурента. На данный момент только алгоритм Google DeepMind набрал больше (6600 очков), однако его тренировка продолжалась вдвое дольше.
В перспективе разработчики рассчитывают усовершенствовать алгоритм, сделав его более независимым за счет уменьшения количества инструкций.