Британские ученые научили компьютер читать по губам

время публикации: 29 марта 2016 г., 13:31 | последнее обновление: 29 марта 2016 г., 13:53

Ученые из университета Аст-Англии представили в Шанхае на конференции ICASSP компьютерную систему, способную читать человеческую речь по движению губ.

Разработанная исследователями программа анализирует видео, захватываемое с помощью камер. Речь человека была разделена на две составляющие - фонемы и виземы, которые представляют собой визуальный эквивалент фонем. При этом оказалось, что фонем больше, чем визем, для системы распознания потребовалась двухуровневая иерархическая система.

Сначала, отмечает N+1, ученые обучали классификаторы соотносить виземы со звуками, затем количество классификаторов было увеличено с тем, чтобы каждой виземе соответствовало несколько фонем.

Эффективность созданной системы пока невелика. При распознании непрерывной речи машина понимает точно 10-15% сказанного, когда произносятся отдельные фонемы, этот показатель возрастает до 25%. Ученые надеются усовершенствовать систему, чтобы применять ее в ситуациях, когда голоса на записи плохо слышны или аудиодорожка испорчена. Компьютерное чтение по губам также может быть востребовано в криминалистике.

ССЫЛКИ ПО ТЕМЕ

Исследователи компании Baidu создали алгоритм, который догнал людей в распознавании речи на английском и мандаринском

Технологии | 17 декабря 2015 г.,

"Яндекс" представил мобильное приложение "Разговор" для глухих и слабослышащих

Технологии | 01 сентября 2015 г.,

Microsoft открыла тестирование приложения для общения носителей разных языков (ВИДЕО)

Технологии | 15 декабря 2014 г.,