Это поможет в формировании субтитров.

Сотрудники СПбГУ обучили искусственный интеллект распознавать эмоциональную речь. В будущем это поможет создавать субтитры и пересказ основных мыслей говорящего. Сейчас нейросети не умеют распознавать эмоциональную речь, поэтому задача осложняется.

При обучении нейросети Wav2Vec 2.0 использовались интервью с жертвами Холокоста, которые рассказывали о сильных эмоциональных потрясениях, пережитых ими. Видео предоставил Фонд мемориального комплекса истории Холокоста Яд ва-Шем. Интервью собирались по крупицам более 50 лет.

Ученые петербургского университета обработали более 26 часов видео. Был определен пол говорящего, социолингвистическая разметка и родной язык. По словам специалистов, эти факторы существенно влияют на акцент людей, а это отражается на том, насколько качественно нейросеть может распознавать человеческую речь.

«Идея ее работы заключается в том, чтобы выучить сопоставление каждого звука устной речи человека соответствующей букве алфавита», — рассказали ученые.

Распознавание речи — важная задача для искусственного интеллекта. То, насколько качественно нейросеть сможет делать это, напрямую отражается на качестве итогового материала. На данный момент ИИ не может понять, что говорит человек, если его речь сильно эмоциональна.

Фото: Steve Johnson / Unsplash.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *