Разработанная исследователями программа анализирует видео, захватываемое с помощью камер. Речь человека была разделена на две составляющие - фонемы и виземы, которые представляют собой визуальный эквивалент фонем. При этом оказалось, что фонем больше, чем визем, для системы распознания потребовалась двухуровневая иерархическая система.
Сначала, отмечает N+1, ученые обучали классификаторы соотносить виземы со звуками, затем количество классификаторов было увеличено с тем, чтобы каждой виземе соответствовало несколько фонем.
Эффективность созданной системы пока невелика. При распознании непрерывной речи машина понимает точно 10-15% сказанного, когда произносятся отдельные фонемы, этот показатель возрастает до 25%. Ученые надеются усовершенствовать систему, чтобы применять ее в ситуациях, когда голоса на записи плохо слышны или аудиодорожка испорчена. Компьютерное чтение по губам также может быть востребовано в криминалистике.