Это поможет в формировании субтитров.
Сотрудники СПбГУ обучили искусственный интеллект распознавать эмоциональную речь. В будущем это поможет создавать субтитры и пересказ основных мыслей говорящего. Сейчас нейросети не умеют распознавать эмоциональную речь, поэтому задача осложняется.
При обучении нейросети Wav2Vec 2.0 использовались интервью с жертвами Холокоста, которые рассказывали о сильных эмоциональных потрясениях, пережитых ими. Видео предоставил Фонд мемориального комплекса истории Холокоста Яд ва-Шем. Интервью собирались по крупицам более 50 лет.
Ученые петербургского университета обработали более 26 часов видео. Был определен пол говорящего, социолингвистическая разметка и родной язык. По словам специалистов, эти факторы существенно влияют на акцент людей, а это отражается на том, насколько качественно нейросеть может распознавать человеческую речь.
«Идея ее работы заключается в том, чтобы выучить сопоставление каждого звука устной речи человека соответствующей букве алфавита», — рассказали ученые.
Распознавание речи — важная задача для искусственного интеллекта. То, насколько качественно нейросеть сможет делать это, напрямую отражается на качестве итогового материала. На данный момент ИИ не может понять, что говорит человек, если его речь сильно эмоциональна.
Фото: Steve Johnson / Unsplash.com
Температура поднимется до +26 градусов. В эти субботу и воскресенье в городе ожидается теплая летняя…
Последние отключения произошли в полдень. В Петербурге окончательно завершился отопительный сезон. Топить последние батареи перестали…
Количество вакансий с работой сверх прописанного в договоре выросло на 40%. Российские работодатели пытаются решить…
Порядок контроля за продажей продукции улучшат. Законопроект о запрете продажи энергетиков несовершеннолетним могут принять уже…
Работы продлятся 1,5 года. В Павловском парке восстановят павильон XVIII века «Храм Дружбы». Сдать готовый…
Среди экспонатов – самый маленький в мире велосипед. В здании бывшего Варшавского вокзала в Петербурге…