Новый метод позволяет высококачественное речевое разделение

«Компьютеры становятся лучше и лучше в понимании речи, но все еще испытывают большие затруднения при понимании речи, в то время, когда пара человек говорят совместно либо в то время, когда имеется большое количество шума», говорит Ариэль Эфрэт, кандидат врача философии в Hebrew University of Jerusalem-Israel и ведущий создатель изучения. (Эфрэт создал новую модель, интернируя в Гугл лето 2017 года.) «Мы люди знают, как осознать обращение в таких условиях конечно, но мы желаем, дабы компьютеры были в состоянии сделать это, и нас, вероятно значительно лучше».С целью этого Ephrat и его коллеги в Google создали новую аудиовизуальную модель для усиления и изоляции речи желаемых громкоговорителей в видео. Глубокая основанная на сети модель команды включает и визуальные и слуховые сигналы, дабы изолировать и расширить любого спикера в любом видео, кроме того в оспаривании настоящим сценариям, таким как видео конференц-связь, где многократные участники довольно часто говорят сходу, и шумные бары, каковые имели возможность содержать разнообразие фонового шума, музыки и соперничающих бесед.

Команда, которая включает кожный покров Mosseri Google, Оран Лэнг, Таранные кости Dekel, Кевин Уилсон, Avinatan Hassidim, Уильям Т. Фримен и Михаэль Рубинштайн, представит их работу в 2018 SIGGRAPH, проводимый 12-16 августа в Ванкувере, Английская Колумбия. выставка и Ежегодная конференция демонстрируют ведущих в мире специалистов, академиков и творческие умы в центре компьютерной графики и интерактивных способов.В данной работе исследователи лишь сосредоточились на звуковых ориентирах, дабы отделить обращение, вместе с тем и визуальные сигналы в видео – т.е., перемещения губы предмета и возможно другие лицевые перемещения, каковые смогут дать, какому он либо она говорит. Визуальные собранные функции использованы, дабы «сосредоточить» аудио на единственном предмете, кто говорит и улучшить уровень качества речевого разделения.

Дабы научить их совместную аудиовизуальную модель, Ephrat и сотрудники курировали новый комплект данных, «AVSpeech», складывавшийся из тысяч видео YouTube и других сегментов онлайн-видео, таких как Переговоры ТЕДА, видео с практическими рекомендациями и отличные лекции. От AVSpeech исследователи произвели учебный комплект так называемых «синтетических приемов» – смеси видео лица с чистой речью и других речевых звуковых дорожек с фоновым шумом.

Дабы изолировать обращение от этих видео, пользователь лишь обязан определять лицо человека в видео, аудио которого должно быть выбрано.В многократных примерах, детализированных в газете, названной «Сохраняющий надежду Слушать на Приеме: Свободная от спикера Аудиовизуальная Модель для Речевого Разделения», новый способ был превосходящими результатами если сравнивать с существующими способами лишь для аудио на чистых речевых смесях и значительными улучшениями в освобождении ясного аудио от смесей, содержащих накладывающуюся фоновый шум и речь в настоящих сценариях. Тогда как центр работы – улучшение и речевое разделение, новый способ команды имел возможность кроме этого быть применен к автоматическому распознаванию речи (ASR) и видео транскрипции – т.е., закрыл возможности ввода субтитров на текущих ТВ и видео. В демонстрации новая совместная аудиовизуальная модель создала более правильные заголовки в сценариях, где два либо больше спикера были вовлечены.

Удивленный сперва тем, как прекрасно их способ трудился, исследователи взволнованы его будущим потенциалом.«Мы не видели речевое разделение, сделанное ‘в-диком’ в таком качестве прежде.

Исходя из этого мы видим захватывающее будущее для данной технологии», отмечает Эфрэт. «Имеется больше работы, нужной перед данной разработкой почвы в потребительских руках, но с многообещающими предварительными результатами, каковые мы продемонстрировали, мы можем, само собой разумеется, видеть, что он поддерживает диапазон применений в будущем, как ввод субтитров видео, видео конференц-связь, а также улучшили слуховые аппараты, в случае если такие устройства имели возможность бы быть объединены с камерами».Исследователи на данный момент исследуют возможности для слияния его в разные продукты Гугл.