Блог Stack SystemsИсследователи из университета Восточной Англии достигли прогресса в технологии распознавания речи по губам на видеоизображении. Их достижения позволят узнать, что говорят те, кого снимают камеры видеонаблюдения. Технология автоматичного визуального распознавания речи, может применяется в местах, где без неё нельзя понять, что говорят люди в кадре. Уличные камеры ведут съёмку в шуме машин, а панорамные показываю тех, кто находится далеко от микрофона.

Расшифровка речи по губам поможет озвучить видеонаблюдение

05.03.2018

Исследователи из университета Восточной Англии достигли прогресса в технологии распознавания речи по губам на видеоизображении. Их достижения позволят узнать, что говорят те, кого снимают камеры видеонаблюдения.

Технология автоматичного визуального распознавания речи, может применяется в местах, где без неё нельзя понять, что говорят люди в кадре. Уличные камеры ведут съёмку в шуме машин, а панорамные показываю тех, кто находится далеко от микрофона. Где-то звук вообще не записывают. Во всех этих случаях автоматическое чтение по губам многократно повысит эффективность видеонаблюдения.

«Чтение по губам – одна из самых сложных задач для искусственного разума», — говорит Ричард Харви. Представьте, насколько одинаково выглядят губы, произносящие звуки «б», «п» и «м». Поэтому исследователи так гордятся своими достижениями. Им удалось научить компьютер расшифровать речь лучше, чем это делает человек, владеющий навыком чтения по губам.

«Видеонаблюдение – это пока еще вызов: множество факторов работает в нём против нас – говорит Ричард Харви. — Например, на большинстве записей губы имеют достаточно маленький размер и скорости кадров не хватает, что бы фиксировать все их движения».

В результате учёные пока не готовы предложить индустрии безопасности готовый продукт, но в будущем, несомненно сделают это.

Последние статьи из блога: