голосовая платформа что это

Голосовая платформа Snip — «безоблачный» конкурент Google и Amazon

Читайте «Хайтек» в

Голосовой помощник Snips полностью хранится на устройстве, а не в облаке, поэтому не собирает огромные объемы данных от пользователей. Эта разница в подходах может стать определяющей в следующем году, когда вступающие в силу законы Европы будут все строже следить за правами пользователей, данные которых попадают в банки компаний.

По словам представителей Snips, их технологии естественной речи превосходят Wit.ai (Facebook), API.ai (Google) и Microsoft Luis. Сейчас платформа говорит на пяти языках: французском, английском, испанском, немецком и корейском.

Также Snips собирается продавать голосовую платформу как компонент, а не услугу, то есть производители заплатят за нее однажды, вместо того чтобы вносить плату за запрос.

Как говорит основатель Snips Ранд Хинди, цель его детища — дать компаниям возможность выбрать кого-то другого, помимо платформ Google или Amazon, которые со временем могут изменить условия обслуживания или дизайн своих приложений. При этом он считает, что голосовые технологии, несмотря на свою молодость, скоро станут господствующим интерфейсом. И видит шанс для своей компании помочь производителям гаджетов, не обладающих собственными ресурсами ИИ, воспользоваться этой технологией.

«Если машины могут понимать и разговаривать, вам уже не надо учиться использовать их, — говорит он. — Голос становится все более интуитивным способом взаимодействия с машинами».

Новый продукт — поворотный пункт для стартапа. Год назад он запустил ориентированное на потребителей приложение с умным персональным помощником, которое собирало данные о владельце смартфона, чтобы лучше узнать его. Поскольку все данные оставались внутри телефона, разработчики были уверены, что пользователи гораздо охотнее согласятся предоставить ИИ свои личные данные. Однако, приложение не пользовалось большим успехом, поэтому было принято решение разработать голосовую платформу, сообщает Venture Beat.

Источник

ГОЛОСОВАЯ ПЛАТФОРМА

ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ «ГОЛОСОВАЯ ПЛАТФОРМА»

О компании

Компания Голосовая Платформа решает проблему автоматизации колл-центров организаций разного уровня. В настоящее время платформа используется для автоматизации работы в медицинских учреждениях. Решение позволяет осуществлять в автоматическом режиме запись на прием к специалистам медицинских организаций, обзвон пациентов с целью подтверждения записи, приглашения на диспансеризацию или вакцинацию, сбор информации у больных социально-значимыми неинфекционными заболеваниями. Платформа представляет собой распределенное модульное решение, центральной частью которого является диалоговый движок (Dialog Engine) – основой узел Платформы, отвечающий за поддержание диалога с абонентом. Модули платформы разделяются по функциональному признаку, где каждое из направлений отвечает за тот или иной аспект работы с абонентом или данными. Модули независимы друг от друга, взаимодействие между ними производится по специальным протоколам на базе унифицированной технологии очередей сообщений; взаимодействие модулей с внутренними по отношению к Платформе компонентами и внешними источниками данных осуществляется по стандартным протоколам, применимым в конкретной ситуации. Таким образом масштабирование системы на другие задачи и области применения возможно без значительных затрат на переработку платформы. По результатам Госсовета Минздрава РФ система MedVox вошла в список лучших практик по Калининградской области.

Источник

WaveNet: новая модель для генерации человеческой речи и музыки

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что этоНаша облачная платформа Voximplant — это не только телефонные и видео звонки. Это еще и набор «батареек», которые мы постоянно улучшаем и расширяем. Одна из самых популярных функций: возможность синтезировать речь, просто вызвав JavaScript метод say во время звонка. Разрабатывать свой синтезатор речи — на самая лучшая идея, мы все-таки специализируемся на телеком бэкенде, написанном на плюсах и способном обрабатывать тысячи одновременных звонков и снабжать каждый из них JavaScript логикой в реальном времени. Мы используем решения партнеров и внимательно следим за всем новым, что появляется в индустрии. Хочется через несколько лет отойти от мема «Железная Женщина» 🙂 Статья, адаптированный перевод которой мы сделали за эти выходные, рассказывает про WaveNet, модель для генерации звука (звуковых волн). В ней мы рассмотрим как WaveNet может генерировать речь, которая похожа на голос любого человека, а также звучать гораздо натуральнее любых существующих Text-to-Speech систем, улучшив качество более чем на 50%.

Мы также продемонстрируем, что та же самая сеть может использоваться для создания других звуков, включая музыку, и покажем несколько автоматически сгенерированных примеров музыкальных композиций (пианино).

Говорящие машины

Позволить людям и машинам общаться голосом — давняя мечта людей о взаимодействии между ними. Возможности компьютеров понимать человеческую речь существенно улучшились за последние несколько лет благодаря применению глубоких нейронных сетей (яркий пример — Google Voice Search). Тем не менее, генерация речи — процесс, который обычно называют синтезированием речи или text-to-speech (TTS) — все еще, основан на использовании так называемого concatenative TTS. В нем используется большая база данных коротких фрагментов речи, записанных одним человеком. Фрагменты потом комбинируются, чтобы образовывать фразы. При таком подходе сложно модифицировать голос без записи новой базы данных: например, изменить на голос другого человека, или добавить эмоциональную окраску.

Это привело к большому спросу на параметрический TTS, где вся информация, необходимая для создания речи, хранится в параметрах модели и характер речи может контролироваться через настройки модели. Тем не менее, до сих пор параметрический TTS звучит не так натурально как concatenative вариант, по крайней мере в случае таких языков, как английский. Существующие параметрические модели обычно генерируют звук, прогоняя выходной сигнал через специальные обработчики, называемые вокодерами.

WaveNet меняет парадигму, генерируя звуковой сигнал по семплам. Это не только приводит к более натуральному звучанию речи, но и позволяет создавать любые звуки, включая музыку.

WaveNets

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

Обычно исследователи избегают моделирования аудио семплов, потому что их нужно генерировать очень много: до 16000 семплов в секунду или более, строго определенной формы в любых временных масштабах. Построение авторегрессионной модели, в которой каждый семпл зависит от всех предыдущих (in statistics-speak, each predictive distribution is conditioned on all previous observations) — это непростая задача.

Тем не менее, наши модели PixelRNN и PixelCNN, опубликованные ранее в этом году, показали, что возможно генерировать сложные естественные изображения не только по одному пикселю за момент времени, но и по одному цветовому каналу за момент времени, что требует тысячи предсказаний на изображение. Это вдохновило нас адаптировать 2х-мерные PixelNets в одномерную WaveNet.

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

Анимация выше показывает устройство WaveNet. Это сверточная нейронная сеть, где слои имеют разные факторы дилатации и позволяют ее рецептивному полю расти экспоненциально с глубиной и покрывать тысячи временных отрезков.

Во время обучения входящие последовательности представляют собой звуковые волны от примеров записи голоса. После тренировки можно с помощью сети генерировать синтетические фразы. На каждом шагу семплинга значение вычисляется из вероятностного распределения посчитанного сетью. Затем это значение возвращается на вход и делается новое предсказание для следующего шага. Создание семплов таким образом является достаточно ресурсоемкой задачей, но мы выяснили, что это необходимо для генерации сложных, реалистичных звуков.

Improving the State of the Art

Мы натренировали WaveNet использовав наборы данных от TTS Google, таким образом мы смогли оценить качество ее работы. Следующие графики показывают качество по шкале от 1 до 5 в сравнении с лучшими TTS от Google (параметричским и concatenative) и в сравнении с настоящей речью живого человека, использовав MOS (Mean Opinion Scores). MOS — это стандартный способ делать субъективные тесты качества звука, в тесте были использованы 100 предложений и собрано 500 более оценок. Как мы видим, WaveNets значительно уменьшили разрыв между качеством синтезированной и реально речи для английского и китайского языков (разница с предыдущими методами синтеза более 50%).

Как для китайского, так и для английского, текущий TTS от Google считается одним из лучших в мире, поэтому такое значительное улучшение для обоих языков с помощью одной модели — это большое достижение.

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

Далее несколько примеров, чтобы вы могли послушать и сравнить:

Английский (US English)

Китайский (Mandarin Chinese)

Понимать что нужно говорить

Чтобы использовать WaveNet для преобразования текста в речь нужно разъяснить что из себя представляет текст. Мы делаем это, преобразовывая текст в последовательность лингвистических и фонетических характеристик (каждая содержит информацию о текущий фонеме, слоге, слове и т.д.) и отправляем их в WaveNet. Это значит, что предсказания сети зависят не только от предыдущих аудио семплов, но и от того текста, который мы хотим преобразовать в речь.

Если мы обучим сеть без текстовых данных, она все еще будет способна генерировать речь, но в таком случае ей нужно будет придумывать что сказать. Как можно увидеть из примеров ниже, это приводит к некоторому подобию болтовни, в которой реальные слова перемежаются со сгенерированными звуками похожими на слова:

Заметьте, что звуки не представляющие из себя речь, такие как дыхание и движения рта, тоже иногда генерируется WaveNet; это показывает большую гибкость модели генерации аудио данных.

Также как вы видите из этих примеров, одна WaveNet сеть способна изучить характеристики разных голосов, мужских и женских. Чтобы дать ей возможность выбирать нужный голос для каждого высказывания мы поставили сети условие использовать идентификацию говорящего человека. Что еще интересно, мы выяснили, что обучение на многих разных говорящих людях улучшает качество моделирование для одного конкретного голоса, по сравнению с обучением только с помощью голоса этого одного человека, что предполагает некоторую форму передачи знаний при обучении.

Изменяя личность говорящего, мы можем сделать так, чтобы сеть говорила одни и те же вещи разными голосами:

Похожим образом мы можем передавать на вход модели дополнительную информацию, например, про эмоции или акценты, чтобы сделать речь еще более разнообразной и интересной.

Создание музыки

Так как WaveNets могут быть использованы для моделирования любого аудио, то мы решили, что было бы интересно попробовать сгенерировать музыку. В отличие от сценария с TTS мы не настраивали сеть на проигрывание чего-то конкретного (по нотам), мы, наоборот, дали возможность сети сгенерировать то что она хочет. После тренировки сети на входных данных от классической фортепианной музыки она создала несколько очаровательных произведений:

WaveNets открывают много новых возможностей для TTS, автоматического создания музыки и моделирования аудио в целом. Тот факт что подход к созданию 16КГц аудио с помощью пошагового создания семплов, используя нейронную сеть, вообще работает уже удивителен, но оказалось, что этот подход позволил добиться результата превосходящего самые продвинутые современные TTS системы. Мы с воодушевлением смотрим на другие возможные области применения.

Для более детальной информации рекомендуем почитать нашу письменную работу на эту тему.

Картинка для привлечения внимания взята из фильма Ex Machina

Источник

Голосовые сети: сравниваем Clubhouse, Stereo и голосовые чаты Telegram

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

С февраля по всему миру начала набирать популярность Clubhouse — новая соцсеть, ориентированная на аудиокоммуникации. На 24 февраля ее аудитория в России составляла 345 тыс. пользователей (для сравнения: еще 10 февраля у нее было 7,7 тыс. пользователей), сообщили РБК в исследовательской компании AppAnnie. Несколько раньше, в конце декабря, возможность создания голосовых чатов появилась в мессенджере Telegram. Stereo, cоциальную сеть с «голосом», также создал миллиардер, создатель сервиса Badoo: в четверг, 25 февраля, он объявил о его запуске в России.

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

Все три платформы рассчитаны на любителей подкастов, радио или голосового общения.

Разработчик: зарегистрированная в США Alpha Exploatation Co. предпринимателей из Кремниевой долины Пола Дэвисона и Рогана Сэта.

Кто может пользоваться сервисом: владельцы устройств на iOS.

Число пользователей: 10,5 млн (по данным AppAnnie).

Ограничения по числу участников в чатах: 5 тыс. человек.

Особенности: присоединиться к соцсети можно, только имея приглашение от существующих пользователей; правила сервиса запрещают записывать разговоры; чаты удаляются сразу после окончания беседы; на платформе нет возможности пересылать текстовые сообщения.

Монетизация: пока официально модель платформы не анонсировалась. Но научились зарабатывать пользователи — гонорары за модерирование чатов и рекламные интеграции.

Известные пользователи: основатель компаний Tesla и SpaceX Илон Маск, создатель Facebook Марк Цукерберг, основатель Microsoft Билл Гейтс, в России — бизнесмен Олег Тиньков, глава «Яндекса» Тигран Худавердян, сооснователь Mail.ru Group Дмитрий Гришин, блогер Илья Варламов и др.

Разработчик: зарегистрированный на Британских Виргинских островах Telegram Group Inc. Павла и Николая Дуровых.

Кто может пользоваться сервисом: владельцы устройств на iOS, Android, а также Windows (в веб-версии).

Число пользователей: 50 млн, по словам источника РБК, близкого к Telegram.

Ограничения по числу участников в чатах: 5 тыс. человек.

Особенности: изначально сервис развивался как мессенджер с возможностью отправки сообщений с повышенными требованиями безопасности.

Монетизация: Сейчас нет. Владельцы намерены запустить рекламу в каналах с помощью рекламной биржи Telegram, маркетплейс для продажи товаров, а также продавать платные стикеры; развивать сервисы для корпоративных клиентов.

Известные пользователи: нет данных.

Разработчик: зарегистрированная в Великобритании Stereo App Ltd. бывшего владельца холдинга MagicLab (объединяет сервисы онлайн-знакомств Badoo, Bumble, Chappy и Lumen) Андрея Андреева.

Кто может пользоваться сервисом: владельцы устройств на iOS и Android.

Число пользователей: более 2 млн, по оценке владельца сервиса.

Ограничения по числу участников в чатах: нет.

Особенности: разговоры ведутся в прямом эфире, для начала беседы нужен собеседник; есть лимит на время разговора — 16 часов в сутки; можно записывать эфир и пересылать запись в другие приложения, обрабатывать, накладывать музыку; можно создавать персонализированные аватары; слушатели могут оставлять аудиокомментарии; сервис отслеживает самые интересные шоу и лучших авторов и направляет на них аудиторию.

Монетизация: слушатели могут переводить спикерам донаты. За наибольшее количество подписчиков / просмотров можно получить денежное вознаграждение.

Известные пользователи: журналист Ксения Собчак, писатель Сергей Минаев, Stand-up комик Илья Соболев и блогер Гусейн Гасанов.

У какой сети больше шансов стать популярной в России

По мнению директора по маркетингу Brand Analytics Василия Черного, голосовые возможности Telegram должны хорошо встроиться в рабочие процессы, для которых мессенджер активно используется в России. Они также станут «удачным дополнительным вещательным инструментом для новостных и медийных Telegram-каналов». Помимо того, что голос хорошо ложится на уже востребованные в Telegram сценарии, по мнению Черного, могут возникнуть и новые. В качестве возможного варианта он назвал современное нелинейное авторское радио. «Если YouTube стал нелинейным авторским ТВ, то кто-то сделает что-то похожее с радио. Если сравнивать шансы стать радио 2.0 у Telegram и Clubhouse, то на стороне Telegram более мощная инфраструктура, разработка, многоплатформенность, уже огромная аудитория, хотя и не массовая», — указал эксперт.

В то же время собеседник РБК допустил, что Clubhouse может стать интерактивным каналом для b2b-коммуникации и для коммуникации по интересам с узкими целевыми аудиториями. «Stereo не списан с Clubhouse, и это хорошо. По первому впечатлению Stereo не претендует на элитарность, на серьезные разговоры по делу, а готов стать новым форматом таймкиллера (убийцы времени. — РБК) для более массовой аудитории», — добавил Василий Черный. При этом он предположил, что с учетом предыстории команды Stereo техническая сторона сервиса будет решена на достаточном для роста уровне.

Гендиректор группового мессенджера Capture и один из создателей сервиса Prisma Алексей Моисеенков отметил, что Clubhouse использует различные механики для привлечения пользователей, но пока у сервиса нет системы подбора контента. Он считает, что платформа решит этот вопрос «достаточно быстро» и станет новым Twitch (популярная стриминговая платформа для геймеров). При этом Stereo, по мнению Моисеенкова, останется «интересным экспериментом», а Telegram «самым удобным мессенджером».

Источник

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 1

Учитывая, возросший интерес сообщества к Asterisk решил внести и свою лепту и рассказать о построении голосовых меню с использованием синтеза и распознавания речи.

Статья рассчитана на специалистов, имеющих опыт работы с построением IVR в Asterisk и имеющих представление о системах голосового самообслуживания.

СГС (системы голосового самообслуживания) значительно расширяют возможности по созданию голосовых приложений и позволяют пользователю получать информацию и заказывать услуги самостоятельно, без участия оператора. Это может быть маршрутизация вызовов, запрос и выдача информации по расписанию авиарейсов, состояние банковского счета, заказ такси, запись на прием к врачу и пр.
Распознавание позволяет отказаться от линейных меню, создаваемых с помощью DTMF, разговаривать с системой человеческим языком и легко создавать меню с множественным выбором.
Синтез значительно упрощает работу с динамически меняющейся информацией и большими объемами текстовых данных.

голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

Ниже я буду описывать интеграцию Asterisk с VoiceNavigator, т.к. являюсь сотрудником компании его разрабатывающей и занимаюсь, в том числе, поддержкой и интеграцией с малыми платформами (Asterisk, FreeSWITCH). Сразу скажу, что решение платное. Реально работающих OpenSource приложений для синтеза и распознавания русской речи нет.

Синтез и распознавание русской речи в Asterisk

Принятым в индустрии стандартом для реализации функционала синтеза и распознавания является использование протокола MRCP.

В Asterisk для этого используется библиотека UniMRCP.
UniMRCP – это кроссплатформенное ПО с открытым исходным кодом, включающее необходимые средства для реализации функций MRCP-клиента и MRCP-сервера.
Проект неспешно развивается и, насколько мне известно, это единственное на сегодня OpenSource решение для работы с MRCP-протоколом. Поддерживает Asterisk(все версии, начиная с 1.4) и FreeSWITCH.

VoiceNavigator

VoiceNavigator является программным комплексом, который устанавливается на отдельную машину с Windows и предоставляет доступ к движкам синтеза и распознавания посредством протокола MRCP.
Включает в себя STC MRCP Server, комплекс синтеза речи STC TTS и комплекс распознавания речи STC ASR.

MRCP-сервер

MRCP-сервер управляет взаимодействием между используемой голосовой платформой и модулями ASR и TTS. STC MRCP Server поддерживает следующие голосовые платформы: Asterisk, FreeSWITCH, Avaya Voice Portal, Genesys Voice Platform, Cisco Unified CCX, Siemens OpenScape.

MRCP-запросы передаются командами протокола RTSP.
Для передачи звуковых данных используется протокол RTP.
Голосовая платформа через MRCP-сервер запрашивает доступ к модулям распознавания и синтеза речи, в зависимости от этого используются различные схемы взаимодействия.

Модуль ASR занимается распознаванием речи. Ключевым понятием для ASR является SRGS-грамматика.
SRGS (speech recognition grammar specification) – стандарт, который описывает структуру грамматики, используемой в распознавании речи. SRGS позволяет задавать слова или словосочетания, которые могут быть распознаны речевым движком.
Создание грамматик – это отдельная наука и при наличии интереса, готов написать отдельную статью.

Модуль TTS использует язык разметки SSML (Speech Synthesis Markup Language) основанный на XML для применения в приложениях синтеза речи.
Управление синтезом происходит с помощью тегов. С их помощью можно определить произношение, управлять интонацией, скоростью, громкостью, длиной пауз, правилами чтения и т.д.
Пример синтеза речи от ЦРТ можно послушать здесь vitalvoice.ru/demo

Схема работы

Звонок поступает на голосовую платформу.
Голосовая платформа активирует сценарий голосового меню, по которому происходит дальнейшее взаимодействие с абонентом.
Сценарий голосового меню определяет: когда система должна прочитать абоненту инструкцию, задать вопрос и как обработать его ответ.
VoiceNavigator принимает от голосовой платформы запросы на распознавание и синтез речи, выполняют их и возвращают результат выполнения по протоколу MRCP.
При распознавании речи, голосовая платформа передает SRGS-грамматику и оцифрованную речь и получает ответ в виде NLSML.
При синтезе речи, голосовая платформа передает plain-текст или SSML и получает в ответ синтезированную речь.

Установка и настройка UniMRCP

Перейдем к практической части.
Ниже описана установка UniMRCP на родную для Asterisk CentOS. При установке на другие ОС могут быть незначительные отличия.

Скачиваем с официального сайта последнюю версию uni-ast-package-0.3.2.
Пакет содержит:
Asterisk версии 1.6.2.9 – работа с этой версией проверена разработчиком UniMRCP;
Asterisk-UniMRCP-Bridge 0.1.0 – мост для сопряжения Asterisk и UniMRCP модуля;
UniMRCP – Модуль UniMRCP 1.0.0;
APR – Apache Portable Runtime 1.4.2;
APR-Util – Apache Portable Runtime Utility Library 1.3.9;
Sofia-SIP – SIP User-Agent library 1.12.10.

Для установки требует autoconf, libtool, gcc, pkg-config.
После распаковки видим в корне папки три скрипта:
ast-install.sh – устанавливает идущий в поставке Asterisk, если он не установлен в системе.
uni-install.sh – устанавливает UniMRCP
connector-install.sh – устанавливает бридж между Asterisk и UniMRCP.

Запускаем их именно в таком порядке (если Asterisk установлен — ast-install.sh не надо) и отвечаем на все вопросы утвердительно.
Смотрим, чтобы все установилось без ошибок.
По моему опыту ошибки бывают только при неудовлетворении зависимостей. Если Asterisk ранее собирался из исходников, то все зависимости уже должны быть удовлетворены и установка пройдет легко и быстро.

После установки у Asterisk появилось 2 новых модуля res_speech_unimrcp.so и app_unimrcp.so, а диалплан обзавелся командами MRCPSynth и MRCPRecog. В корректности установки можно убедиться, введя в консоли Asterisk:
*CLI> module show like mrcp
Module Description Use Count
res_speech_unimrcp.so UniMRCP Speech Engine 0
app_unimrcp.so MRCP suite of applications 0
2 modules loaded

;Имя профиля
[vn-internal]
; +++ MRCP settings +++
;Версия MRCP-протокола
version = 1
;
; +++ RTSP +++
; === RSTP settings ===
; Адрес MRCP-сервера
server-ip = 192.168.2.106

;Порт, по которому VoiceNavigator принимает запросы на синтез и распознавание
server-port = 8000
; force-destination = 1

;Расположение ресурсов синтеза и распознавания на MRCP-сервере
;(для VoiceNavigator – пустое значение)
resource-location =

;Имена ресурсов синтеза и распознавания в VoiceNavigator
speechsynth = tts
speechrecog = asr
;
; +++ RTP +++
; === RTP factory ===
;IP-адрес компьютера, на котором установлен Asterisk и с которого будет сниматься RTP-трафик.
rtp-ip = 192.168.2.104
; rtp-ext-ip = auto

После перезапуска Asterisk профиль будет активирован и система готова к работе и созданию первого голосового приложения.

Как было описано ранее, Asterisk для работы использует функции MRCPSynth и MRCPRecog библиотеки app_unimrcp.so:
голосовая платформа что это. Смотреть фото голосовая платформа что это. Смотреть картинку голосовая платформа что это. Картинка про голосовая платформа что это. Фото голосовая платформа что это

MRCPSynth

Функция MRCPSynth имеет следующий формат:
MRCPSynth(text, options), где
text — текст для синтеза (текст \ SSML),
options — параметры синтеза.

Параметры синтеза:
p — Профиль подключения к ресурсу синтеза, содержащийся в файле mrcp.conf
i — Цифры, по нажатию которых на телефоне, синтез будет прерван
f — Имя файла для записи синтезированной речи (запись производится в raw, запись не производится, если параметр или имя файла не заданы)
v — Голос, которым требуется осуществить синтез, например, «Мария8000».

Пример использования функции в диалплане

plain-text:

SSML:

Преимуществом применения SSML по сравнению с plain-text является возможность использования различных тегов (голос, скорость и выразительность речи, паузы, интерпретация текста и т.д.).

MRCPRecog

Функция MRCPRecog имеет следующий формат:
MRCPRecog(grammar,options), где
grammar – грамматика (URL \ SRGS), задается ссылкой на файл, расположенный на http-сервере или непосредственно в теле функции.
options — параметры распознавания.

Параметры распознавания:
p — Профиль подключения к ресурсу распознавания, содержащийся в файле mrcp.conf
i — Цифры кода DTMF, при получении которых распознавание будет прервано.
При значении «any» или других символах, распознавание будет прерываться при их получении, а символ будет возвращаться в план набора.
f — Имя файла для проигрывания в качестве приглашения
b — Возможность прервать проигрываемый файл (режим barge-in) и начать распознавание (нельзя перебить=0, можно перебить и обнаружение речи осуществляет ASR движок=1, можно перебить и обнаружение речи осуществляет Asterisk=2)
t — Время, по истечении которого система распознавания может прервать процедуру распознавания с кодом recognition-timeout (003), в случае, если распознавание началось, и нет ни одного варианта распознавания. Значение задается в миллисекундах в диапазоне [0..MAXTIMEOUT].
ct — Порог уверенного распознавания (0.0 – 1.0).
Если confidence-level, возвращаемый при распознавании, меньше confidence-threshold, то результат распознавания no match.
sl — Чувствительность к несловарным командам. (0.0 — 1.0). Чем больше значение, тем выше чувствительность к шуму.
nb — Определяет количество возвращаемых результатов распознавания. Возвращается N результатов распознавания, с уровнем достоверности больше confidence-threshold. Значение по умолчанию = 1.
nit — Время, по истечении которого система распознавания может прервать процедуру распознавания, с кодом no-input-timeout (002), в случае, если распознавание началось и не найдено речи. Значение задается в миллисекундах, в диапазоне [0..MAXTIMEOUT].

Пример использования функции в диалплане

Задание грамматики в теле функции:

Указание ссылки на грамматику:

Параметры f=hello&b=1 обеспечивают озвучивание звукового файла, например, «Произнести число от 1 до 100», который можно прервать с помощью barge-in, т.е. начать говорить, не дослушав сообщение до конца и тем самым запустить процесс распознавания.

Пример простого голосового приложения для распознавания чисел

В следующей серии будет подробнее рассказано об используемых тегах синтеза и построении грамматик распознавания.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *