Судя по новостям, посвященным системам распознавания речи, уже в недалеком будущем нас может ожидать настоящий прорыв в этой области. Американские исследователи из университета Ватерлоо и компании DarwinAI заявили о создании нейронной сети, способной с очень высокой точностью распознавать человеческую речь. Важно, что система нетребовательна к ресурсам и способна успешно функционировать даже на самых простых смартфонах, со ссылкой на журнал Arxiv.org, сообщает EverCare.
В процессе разработки учитывались все современные решения в области распознавания речи от таких гигантов, как Amazon, Qualcomm, Intel, ирландской компании Voysys, представившей не так давно оффлайновую голосовую модель WaveNet, а для отработки работоспособности своего детища использовали Google Speech Commands, содержащей короткие команды и фоновые шумы.
Было создано несколько голосовых моделей, одна из которых добилась точности распознавания в 97%, а другая успешно работала на смартфоне, используя менее 1 Мб оперативной памяти с задержкой всего 34 мс.
А исследовательское подразделение Microsoft Research Asia похвастало тем, что сумело создать технологию SilentVoice, способную распознавать человеческую речь, даже если в окружающем шуме её совсем не будет слышно. Пользователю достаточно поднести смартфон к губам и говорить с артикуляцией, но даже без использования голосовых связок, и особый фильтр распознает движение воздуха на микрофоне, и распознает речь с точностью до 98,8%, пишет ИКС Медиа. Предполагается, что возможности, предоставляемые технологией, можно будет использовать для создания "умных" часов, колец или даже кулонов.