Google научилась распознавать голос в офлайне

Компания Google создала офлайновую систему распознавания речи, которая быстрее и точнее сопоставимых систем с доступом в Интернет. Хотя научные статьи обычно крайне теоретические, новая система уже работает и была протестирована на смартфоне Nexus 5.

Сейчас приложение Android Google без выхода в глобальную сеть имеет весьма ограниченные возможности. Сложные команды должны передаваться на сервер и выполняться там. Результатом становятся задержки выполнения и временами полное невыполнение команд из-за проблем с подключением. Альтернатива — «встроенная система распознавания речи, которая работает на мобильных устройствах локально». Однако такая система может быть не слишком точной, расходовать много памяти и других системных ресурсов.

Используя различные методики машинного обучения, компания Google создала систему размером 20,3 Мб, которая в 7 раз быстрее подключаемых к интернету и обладает уровнем ошибок распознавания слов всего 13,5%. Система была установлена и протестирована на вышедшем более двух лет назад смартфоне Nexus 5 с 4-ядерным процессором и 2 ГБ оперативной памяти.

Чтобы достичь такого размера и сэкономить ресурсы, система использует единую модель надиктовки текста и распознавания голосовых команд. Дополнительные техники сжатия используются для уменьшения размера системы. Она была натренирована на распознавание 3 млн. анонимных образцов голоса, что составляет примерно 2000 часов, из поиска Google. Каждый образец голоса имеет 20 искаженных версий, взятых из видео на портале YouTube.

Будем надеяться, что подобные системы найдут применение в современных смартфонах уже в ближайшем будущем. В описании говорится, что такая система не ограничена применением только в смартфонах и может войти в состав носимых устройств.

CompNovosti