что такое голосовой робот
Будущее уже здесь: как работают голосовые роботы и что они умеют делать
Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.
В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.
Сначала кейс, ну а потом — разбор технологий
Один из наиболее интересных кейсов — замена сотрудников колл-центра компании-партнера голосовым роботом. Возможности последнего применили не для штатных ситуаций вроде уточнения адреса доставки, а для того, чтобы выяснить, почему некоторые покупатели стали реже заходить на сайт компании.
Технология базировалась на использовании полноценной нейросети, а не отдельных скриптов. Именно нейросеть позволила решить проблемы, которые обычно ставят роботов в тупик. В первую очередь, речь идет об ответах собеседника вроде «ну я пока не знаю, возможно да, хотя нет» или даже «да нет». Обычные для человека слова становятся непреодолимым препятствием для робота.
В ходе обучения робот стал понимать, какой смысл закладывается в ту либо иную фразу, и каким должен быть ответ. Голосов у робота было несколько — как мужских, так и женских. Основная задача состояла в «очеловечивании» робота с тем, чтобы собеседник-человек не испытывал возможности машины, а вел диалог по целевому сценарию.
Ниже — пример того, что получилось.
Робот слушает собеседника, давая ответ в зависимости от смысла того, что сказал клиент. Общее количество веток сценария, по которым может пойти разговор — более тысячи.
Главной целью этого робота было понять причину снижения активности клиента компании на сайте и сделать интересное предложение каждому. Это была одна из первых попыток компании автоматизировать работу колл-центров.
Новые роботы более совершенны. Вот еще несколько примеров общения роботов с человеком: первый, второй, третий примеры.
Теперь о технологиях
Есть три ключевых технологических особенности, которые позволяют роботу работать:
Распознавание пола собеседника по голосу
Зачем это нужно? Изначально эта функция создавалась для проведения опросов при помощи роботов. Раньше работа по проведению опросов проводилась людьми, которые заполняли ряд пунктов. Например — пол собеседника. Понятно, что человеку для определения этого параметра не нужно спрашивать, с кем он говорит — мужчиной или женщиной. В 99% все и так понятно. С роботами другое дело, для того, чтобы они более-менее точно научились распознавать голоса, пришлось провести масштабную работу. И она не была напрасной, сейчас технология используется для персонализации предложения и голосовых промптов в зависимости от пола.
Важный момент — женский голос универсален и применим для работы с самым широким спектром продукции, а особенно он важен для продуктов для женщин. Согласно разным исследованиям, женский голос воспринимается любой аудиторией положительно, соответственно, в этом случае конверсия больше. Исключение — при продвижении “мужских” продуктов предпочтительнее мужской голос.
Как это работает? Сначала производится первичная обработка данных, она осуществляется на основе обработки голосовых записей и фрагментов продолжительностью по 20 мс. Все собранные голосовые фрагменты проходят предварительную обработку в компоненте VAD (Voice Activity Detection). Это необходимо для отделения «зерен от плевел», то есть речи от шумов. Весь мусор удаляется, благодаря чему увеличивается точность работы моделей.
Для распознавания используется так называемое пространство кепстральных коэффициентов, первой и второй разностей. Основа — метод GMM — Gauss Mixture Models.
Так, на интервале в 10-20 мс вычисляется текущий спектр мощности, после чего применяется обратное преобразование Фурье от логарифма спектра, с поиском необходимых коэффициентов.
Наши GMM-модели настроены отдельно для обучения мод мужской и женский голоса, также используются модели для определения взрослых и детских голосов. Конечно, с нуля обучить систему нельзя, нужны размеченные голосовые записи.
Для того, чтобы повысить эффективность работы системы, применяются коэффициенты тембральных моделей голоса:
Главная часть системы — модуль классификации данных на основе многослойного персептрона, MLP. В нее передаются данные от моделей мужского, женского голосов, данные тембральных моделей. На входе в систему получаем массив проклассифицированных значений, а на выходе — результат определения пола.
Технология, которая здесь описывается, используется для работы как в онлайн (по первой фразе клиента), так и оффлайн режиме классификации (после разговора). Точность распознавания пола составляет около 95%. Важный момент — задержка при работе в онлайне не превышает 120-150 мс, что крайне важно для «очеловечивания» робота. Обычно паузы в общении робота и человека составляют не миллисекунды, а секунды, что, конечно, для собеседника-человека выглядит странно, и сразу понятно, что общение ведет цифровая система.
В планах добавление работы с текстом, точнее — окончаниями. Если собеседник говорит «я могла бы» — однозначно, это женщина. В ближайшее время эта технология будет дорабатываться и внедряться в систему распознавания.
Определение возраста собеседника
Зачем это нужно? В первую очередь, для того, чтобы не предлагать различные продукты и услуги несовершеннолетним. Кроме того, идентифицировать возраст полезно для того, чтобы персонализировать предложения по возрастным категориям.
Как это работает? Используются точно те же технологии, что и в предыдущем случае. Точность работы системы составляет около 90%.
Построение диалогов
И теперь приступаем к самому интересному — принципу построения диалогов.
Зачем это нужно? Для того, чтобы грамотно заменять человека, робот должен уметь работать как по линейному, так и по нелинейному сценариям ведения диалога. В первом случае это может быть опросник, во втором — работа с абонентами колл-центра, линии техподдержки компании и т.п.
А как это работает? Мы используем NLU Engine, основа которого — семантический разбор полученного от ASR-систем текста. Далее из него выделяются такие объекты распознавания, как entities (сущности) и intents (намерения), которые применяются в логике построения conversational flow.
Вот пример работы технологии.
Текст полученный от системы распознавания речи (ASR):
«Мне в целом интересно ваше предложение, но хотелось бы подешевле. И я сейчас немного занят, вы могли бы мне перезвонить завтра часиков в шесть».
Объекты, заполненные NLU Engine:
Intents:
confirmation=true
objection=expensive
question=null
callback=true
wrong_time=true
Entities:
date= 02.01.2019 (предположим, что дата звонка 01.01.2019)
time=18:00
amount=6
Принцип заполнения объектов в данном примере:
Теперь поговорим об алгоритмах работы, которые поддерживаются системой NLU Engine. Она включает два уровня.
Первый уровень — работает на относительно небольшой выборке данных порядка 600-1000 записей. Здесь используются ML-алгоритмы. Точность распознавания: 90-95%.
Второй уровень — переход на него осуществляется после запуска проекта и накопления большой выборки данных, включающей более 1 млн записей. Здесь уже используются DL-алгоритмы. Точность распознавания: 95-98%.
Решение работает с двумя подсистемами:
Подсистема формирования диалога для построения нелинейных сценариев построена на нейронной сети. На входе в систему передается распознанный из голосовой фразы текст абонента, на выходе — решение о том, что должно быть проиграно в следующий момент.
Для первой линии поддержки подходит нелинейный сценарий — робот не знает, кто звонит, по поводу какого именно продукта и с какими вопросами. Здесь от ответа клиента зависит дальнейшее построение диалога.
А вот для исходящего обзвона наилучшим решением будет линейный сценарий. Его пример был подан в самом начале статьи. Еще один вариант линейного сценария — проведение опроса, когда неважно, что именно ответит клиент, это будет анализироваться в дальнейшем специалистами. Зато важно провести клиента через все вопросы, которые есть в списке.
Как итог, хочется подчеркнуть, что голосовые роботы не заменят людей. Сейчас они отлично справляются с рутинной работой — обзвоном людей с целью задать им какие-то вопросы и выслушать/записать/проанализировать ответы. Таким образом, операторы колл-центров и техподдержки избавлены от необходимости проводить одни и те же рутинные процедуры. Вместо этого они могут сосредоточиться на решении действительно интересных вопросов и задач.
Роботы среди нас: как работают голосовые помощники
Мы уже давно не удивляемся, когда при звонке в банк или любой другой колл-центр слышим автоматический голос. Роботы прочно вошли в жизнь компаний. Произошло это из-за экономии, которую организация получает, когда вместо сотен сотрудников контакт-центра используют виртуального помощника. И тенденция отдавать все больше процессов голосовым роботам будет продолжаться.
Давайте поговорим, стоит ли на 100 % автоматизировать общение с потребителем и как работают новые помощники.
Содержание
С чего все началось
История голосовых роботов началась в 1961 году с компьютера IBM Shoebox, который был способен распознавать 16 произнесённых слов, а также цифры от 0 до 9.
В России же применять первых голосовых помощников начали в конце 1990-х годов. Основными отраслями, первыми принявщими новую технологию, стали телекоммуникации, транспорт и банки – те, кто владеет большой клиентской базой, часто обращающейся по телефону.
На первом этапе дальним аналогом голосовых роботов были системы автоматического распределения звонков (Automatic Call Distribution, ACD), которые распределяли поступающие в колл-центр вызовы между операторами. Однако с ходом времени и ростом количества обращений, уже в 2000-х появилась технология автоматического предоставления информации клиентам, IVR с использованием DTMF (Dual-Tone Multi-Frequency, выбор цифр на телефоне). Её можно назвать предшественником робота-помощника. С помощью такого IVR позвонивший в колл-центр мог получить информацию самостоятельно и существенно сократить время дозвона до нужного специалиста.
Технологии не стояли на месте, и IVR стали интегрировать с технологиями синтеза и распознавания речи. И если сначала они позволяли просто распределять звонки в зависимости от положительного или отрицательного ответа клиента (да/нет), то примерно с 2010-х годов голосовые роботы научились понимать открытые вопросы.
Сейчас такие технологии широко используются в поисковых системах, управлении устройствами, в системах идентификации человека и защиты данных. Такие роботы, как Apple Siri, Google Assistant, Microsoft Cortana, Amazon Alexa, Яндекс.Алиса, мгновенно находят по устному запросу нужную информацию, подсказывают маршрут, рассказывают о городских сервисах, погоде и новостях, включают музыку.
Голосовые роботы или чат-боты?
Чат-боты становятся не менее популярным средством работы многих компаний. В контакт-центрах боты, внедренные на сайтах компании, разработанные в мессенджерах или специализированных сервисах, общаются с клиентами, отвечая на широкий пласт вопросов – от процентной ставки по кредиту до стоимости и деталей доставки в интернет-магазинах или результатов анализов в медицинской клинике.
Тем не менее, голосовой канал пока остается основным инструментом на рынке коммуникационных услуг. Связано это с психологией. Многим людям по-прежнему проще позвонить в банк, чем общаться в режиме онлайн с виртуальным помощником. Более того, технологии распознавания речи и синтеза голоса настолько быстро развиваются, что позволяет говорить о голосовом роботе как о полноценном виртуальном помощнике.
Дополнительно, содержание целого штата операторов, отвечающих на стандартные вопросы клиентов, экономически неоправданно. Уже сейчас искусственно созданный голос робота становится все более похожим на человеческий. Например, робот Google Duplex делает паузы «для вдоха» и добавляет междометия вроде «гм». В итоге не все клиенты замечают, что общались с виртуальным оператором, а не с реальным человеком.
Кроме того, надо отдавать себе отчет в том, что искусственный интеллект и машинное обучение уже позволяют роботу оказывать более качественную поддержку пользователям, поскольку он быстрее находит нужную информацию и не заставляет клиента ожидать на линии.
Хотя, конечно, не стоит забывать, что даже самые продвинутые технологии не способны заменить человека полностью. У клиентов всегда останутся вопросы, которые не решат стандартные алгоритмы. Поэтому будущее за комбинацией виртуальных помощников – и чатботы, и голосовые ассистенты должны здесь выступить единым фронтом человеческого общения.
Как создаются голосовые роботы
На рынке существует большое количество компаний-разработчиков, чьи платформы позволяют создавать собственных голосовых помощников. В каждой из таких систем заложена возможность синтеза речи, её распознавания и функциональность по созданию «умных» ассистентов.
При этом в каждом продукте есть три ключевые технологические особенности, позволяющие роботу эффективнее взаимодействовать с клиентами – это распознавание пола собеседника по голосу, возраста и построение «живого» диалога с человеком.
Последнее время новой тенденцией в платформах для разработки голосовых роботов является подход Low-code и No-code. Он предполагает создание решений в графическом редакторе с минимальным объемом программирования или совсем без него. С помощью таких сервисов любой ответственный сотрудник без технического образования и опыта в программировании может создавать новых виртуальных ассистентов и быстро тестировать гипотезы.
Визуальные конструкторы для разработки голосовых роботов имеют низкий порог входа, потому что создание решения с их помощью обходится в десятки раз дешевле разработки собственного ПО. Вы просто ставите в нужном порядке блоки, отвечающие за вызов номера, синтез речи, запись голоса, перезвон и другие функции – и подходящий вам сценарий взаимодействия с клиентом готов.
Голосовые роботы в CRM
Последнее время чаще встречаются голосовые роботы, автоматически работающие из CRM-систем. Они используют новейшие технологии синтеза и распознавания речи, понимают речь клиентов и ведут с ними осмысленные диалоги.
В частности, голосовые помощники осуществляют обзвон клиентов в зависимости от стадии воронки продаж, привлекают новых покупателей, информируют их о мероприятиях или изменениях в системе обслуживания, напоминают о задолженности, проводят массовые опросы по удовлетворенности клиентов и подтверждают заказы.
Отвечая на вопросы клиентов, голосовой робот находит ответы в корпоративной базе знаний. Робот сам определяет проблему и задает клиенту наводящие вопросы, вовлекая в диалог и продавая товары и услуги.
Дополнительно, голосовой робот принимает телефонные звонки, позволяя клиентам оформить заказ, подать заявку на обслуживание, записаться на прием или зафиксировать жалобу.
Еще одна функция робота — автосоединение менеджера с клиентом в заданный промежуток времени. Голосовой ассистент позвонит менеджеру и сообщит, какой клиент ожидает его звонка и соединит его с собеседником. Таким образом виртуальный ассистент следит за тем, чтобы все звонки совершались вовремя.
Так как у робота нет выходных, он работает по ночам, совершая звонки в соответствии с часовыми поясами клиентов. Одновременно стандартный голосовой помощник обрабатывает до 100 звонков. После обзвона или проведения консультации запись звонка попадает автоматически в карточку клиента в CRM-системе.
Таким образом, автоматизация звонков с помощью голосовых роботов в CRM — это один из эффективных инструментов, который позволит увеличить объем продаж без расширения штата специалистов. При этом данные о взаимодействии с клиентом сохраняются в едином информационном пространстве – CRM-системе.
Голосовые роботы в России: обзор решений
Кроме известных виртуальных помощников, таких как международные Apple Siri, Microsoft Cortana, Amazon Alexa и российские Алисы от «Яндекса» и Афины от «Сбера», на рынке существуют менее популярные среди массового потребителя платформы. Тем не менее, именно они широко используются в компаниях, которые хотят создать собственного голосового робота.
Голосовые роботы – лучшие помощники, когда требуется совершать или принимать тысячи типовых звонков в день. Они выполняют рутинные задачи, тем самым существенно снижая нагрузку на операторов. Именно поэтому мы привыкли ассоциировать таких роботов только с колл-центрами. Однако кроме контакт-центров, есть и другие области, где они берут на себя типовые задачи.
К примеру, робот способен вместо врача озвучить пациентам результаты УЗИ или анализов с помощью технологии распознавания речи. Голосовые роботы постепенно берут на себя задачи внутренних диспетчеров в компаниях, где требуется постоянно вносить информацию во внутренние информационные системы.
С появлением новых сценариев использования голосовых роботов будут появляться и новые инструменты их кастомизации. И в отличие от клиентов контакт-центров, которые порой удивляются общению с роботом, сотрудники этих сфер будут обучены взаимодействию с ними, что позволит расширить их функциональность.
И это говорит о том, что голосовые роботы останутся с нами надолго.
Планируете повысить эффективность контакт-центров с помощью «умных» ассистентов? Запросите бесплатную консультацию, мы поможем определиться с платформой.
Голосовые роботы: что выбрать. Часть вторая
В 2018 году мы уже делали сравнение сервисов для автоматизированных обзвонов – посмотрим, что изменилось в сфере за полтора года. В этот раз мы провели масштабное исследование рынка визуальных конструкторов, и готовы поделиться результатами в данном лонгриде.
Стоит ли автоматизировать общение с потребителем – кажется, специалисты в области маркетинга и клиентского сервиса наконец перестали задаваться этим вопросом. Определенно, стоит.
Важно лишь помнить, что самые развитые технологии не способны заменить человека полностью: всегда остаются вопросы, не вписывающиеся в стандартные алгоритмы, и клиенты, нуждающиеся в особом отношении. Именно поэтому автоматизация должна происходить в строгой связке с аналитикой, показывающей эффективность изменений.
Именно возможность безболезненно экспериментировать является одним из преимуществ набирающих нынче популярность подходов – Low-code и No-code. Они предполагают создание решений в графическом редакторе с минимальным объемом программирования или совсем без него. С помощью таких сервисов менеджер без технического образования может тестировать гипотезы, не привлекая отдел разработки.
Визуальные конструкторы имеют низкий порог входа, потому что создание решения с их помощью обходится в десятки раз дешевле разработки собственного ПО. Достаточно передвинуть в нужном порядке блоки, отвечающие за вызов номера, синтез речи, запись голоса, перезвон и так далее – и сценарий взаимодействия с клиентом готов. Так, автоматизация становится доступной не только для крупных корпораций, но и для малого бизнеса.
Еще один значительный плюс – некоторые сервисы позволяют добавлять возможности искусственного интеллекта и машинного обучения в процесс общения с клиентами, которые ранее были недоступны для рядовых компаний.
Для обзора мы выбрали четыре основных игрока, предлагающих сопоставимые услуги – управление автоматизацией звонков с помощью интуитивного конструктора. Сервисы Robovoice, Infobot, Aimylogic и Voximplant Kit были проанализированы с точки зрения ключевых технологий, удобства в использовании, индивидуальных дополнительных функций и ценовой политики.
В течение нескольких недель мы тестировали функционал четырех решений, чтобы выявить конкурентные преимущества и зоны роста каждого из них.
“Все сервисы достаточно сильные и идут нога в ногу, но интересно, что все они опережают реальную готовность клиентов применять такой функционал. Зачастую клиенты не знают о многих возможностях, и одна из задач данного материала – подсветить эти моменты”, – рассказывает Юрий Воеводко, директор по продукту Voximplant Kit.
Изначально визуальные конструкторы создавались для малого и среднего бизнеса, чтобы упростить применение технологий, ранее доступных только крупным компаниям. Именно поэтому главным критерием выбора сервиса такого типа является удобство его использования и интуитивно понятный интерфейс.
Кроме того, системы автоматизации телефонии максимально эффективны, когда сценарий покрывает все возможные варианты диалога с пользователем. Такой сценарий включает большое количество веток, которые должны быть организованы удобным клиенту способом: в противном случае возникает путаница, которая кратно увеличивает время на разработку одного сценария и повышает вероятность ошибок.
В сравнении по этому критерию лидер ом является Voximplant Kit – убедитесь в этом, посмотрев скриншоты интерфейса каждого из сервисов. В Voximplant Kit можно:
Aimylogic. Более сложный внешний вид у редактора Aimylogic: невозможность самостоятельно передвигать блоки создает клубок связей, в котором крайне сложно ориентироваться. Кроме того, большая часть настроек блока отображается прямо на нем, что растягивает блоки и рабочую область по вертикали и вынуждает часто использовать скролл.
Robovoice. Вертикальная ориентация, есть возможность самостоятельно передвигать блоки и оставлять их в нужном порядке на необходимом расстоянии. Для удобства управления предусмотрена опция просмотра миникарты, показывающей все связи между блоками. Все блоки создаются по одному шаблону и имеют фиксированный набор полей для ввода.
Infobot. Как и в случае Aimylogic, редактор не позволяет организовать последовательность блоков в удобном порядке – каждый новый блок появляется на равном удалении от предыдущего сверху вниз. Если сценарий “развернуть”, то содержимое каждого блока выводится на экран поверх иконки, при этом оно плохо отформатировано (текст разных блоков может попадать друг на друга).
Визуальные редакторы популярны не только из-за простоты, но и из-за скорости создания в них телефонных кампаний. Дополнительно этот процесс ускоряет наличие предсобранных сценариев, которые можно использовать, лишь минимально настроив их под свою аудиторию. Шаблоны есть в каждом из четырех сервисов, но отличается их количество и удобство выбора.
У Aimylogic, Infobot и Robovoice по 1, 3 и 6 шаблонов, соответственно. Voximplant Kit имеет гораздо более широкий набор готовых сценариев, при этом в каталоге они классифицированы по действиям (опрос, извещение, подтверждение и т.д.) и по отраслям (логистика, E-commerce, розничная торговля и др.).
Поскольку работа в редакторе предполагает самостоятельное создание кампаний менеджером, крайне важно наличие в открытом доступе HowTo и документации. Она есть у всех сервисов, также все компании предлагают пользователям статьи FAQ и обучающие ролики.
Эта функция позволяет посмотреть, как будет работать сценарий, сразу в момент его создания. В процессе разговора система проводит нас по веткам, позволяя понять, какие блоки и как были задействованы. Такую опцию предлагает исключительно Voximplant Kit.
Зачем нужен голосовой робот?
В среднем один оператор контакт-центра ежедневно обрабатывает до 200 звонков. А что делать, если в компанию поступают тысячи телефонных обращений, многие из которых необходимо обработать одновременно?
На помощь приходит голосовой робот. Конечно, разговор идет не об R2-D2, Терминаторе и Wall-e, а о виртуальных операторах, которые встречаются в нашей повседневной жизни буквально на каждом шагу, например, при обращении в банк, интернет-магазин, турфирму или службу такси. В этой статье вы узнаете, за что так полюбили роботов руководители компаний, и какие реальные бизнес-задачи они решают?
Сложно сравнивать возможности оператора колл-центра и голосового помощника. Робот работает 24/7 без обедов и выходных, и здесь нет места человеческому фактору. Так оператор может что-то не услышать, не корректно донести информацию до клиента. Робот выполняет все задачи в соответствии с заранее прописанными скриптами, при этом ведется запись всех разговоров.
Почему роботы так популярны?
А теперь мы подробнее расскажем о возможностях голосовых роботов Телфин.
Один из наших клиентов, ведущая сеть аптек Санкт-Петербурга, для распределения входящих звонков использует голосового робота с функцией IVR и распознаванием речи. При подключении простого голосового меню для перехода в очередь звонков или на добавочный необходимо вводить цифры на телефоне, в случае с голосовым роботом достаточно сказать ключевое слово, например, адрес одного из филиалов в Санкт-Петербурге, и звонок автоматически переводится на соответствующий добавочный номер.
Голосовых роботов также используют, чтобы быстро обзвонить клиентов и получить обратную связь. Так крупнейший московский ритейлер подключил виртуального помощника с функцией автоинформатора. Специалисты Телфин загрузили в систему файлы с номерами для прозвона и записали вопросы. Робот оперативно связался со всеми клиентами и зафиксировал ответы. В дальнейшем эти данные также легко преобразовать в текст для детального изучения и анализа звонков.
Голосовой робот с функцией автоинформатора позволяет провести массовый обзвон клиентов в ограниченные сроки. Для разных групп можно загрузить свои файлы для проигрывания, настраивается время начала и конца обзвона, количество попыток вызова номера из списка и интервал между ними, а также время ожидания ответа. По результатам работы формируется SMS-оповещение об окончании обзвона, краткий и полный отчеты по каждому номеру.
Кроме конструктора сценариев IVR, а также конвертации голоса в текст и обратно для более результативной работы голосового робота можно настроить интеграцию с различными корпоративными бизнес-приложениями. Связка решений помогает роботу анализировать данные из базы и озвучивать информацию из любого раздела системы.
Если в карточке клиента указано количество заказов, то при соединении с менеджером, на экране IP-телефона или на мониторе ПК, если звонок принимают с помощью программного телефона, высвечивается информация по заказу. В зависимости от запросов клиента голосовой робот также озвучивает статус заказа, дату и время запланированной отгрузки.
Мы рассказали о 3-х вариантах настройки работы виртуальных помощников. В зависимости от бизнес-задач функции голосового робота могут меняться. При этом в процессе эксплуатации компании могут вносить свои дополнения и изменения в его работу, как вариант, совершенствовать скрипты разговоров, расширять словарный запас, создавать новые сценарии обработки и распределения звонков.
Если у вас есть вопросы по подключению и настройке голосовых роботов Телфин, или вы хотите создать своего голосового робота на базе виртуальной АТС «Телфин.Офис», напишите нам. Наши специалисты ответят вам в ближайшее время.