Подразделение Google AI разработало функциональную модель диаризации звукового потока и описало в новую систему искусственного интеллекта, которая эффективно маркирует говорящих.
Диаризация — процесс разделения входящего аудиопотока на сегменты по принадлежности к тому или иному говорящему — дается машинам сложнее, чем людям, и обучать этому умению алгоритмы сложнее, чем кажется. Надежная система диаризации должна распознавать высказывания новых участников диалога, чтобы дать ответ на вопрос: «Кто сейчас говорит?».
Новый подход основан на математическом представлении слов и фраз говорящего рекуррентной нейронной сетью — разновидностью нейросети, которая использует свое внутреннее состояние для обработки входной последовательности. Каждый говорящий начинает с собственной копии рекуррентной сети, которая отслеживает появление новых фраз и позволяет системе обучаться, обмениваясь информацией, пишет Hightech+ со ссылкой на VentureBeat.