что такое анонимные отчеты о синтезе речи
Синтезатор речи Xiaomi: для чего нужен и как настроить
Большинство моделей смартфонов Xiaomi оборудованы встроенной опцией синтезатора речи, которая позволяет интерпретировать команды и действия пользователя с помощью искусственной речи. Данная технология была разработана компанией Google и изначально устанавливается на телефоны Сяоми, работающие под управлением операционной системы Android.
Далее расскажем, какими возможностями обладает синтезатор речи Xiaomi и как выполнить его настройку.
Инструкция по работе с синтезатором речи на Сяоми
Для открытия доступа к меню приложения необходимо зайти в «Настройки», затем перейти во вкладку «Расширенные настройки», далее зайти в «Язык и ввод», где уже размещается подраздел «Синтез речи».
При открытии вкладки пользователь сразу может выполнить следующие настройки:
Чуть ниже этих пунктов предоставляется возможность прослушать пример синтезированной речи.
Основные настройки синтеза речи Xiaomi открываются после нажатия на значок шестеренки, расположенного возле пункта «Синтезатор по умолчанию».
Здесь доступны следующие возможности:
Также пользователь может задействовать опцию «Анонимные отчеты о синтезе речи», благодаря которой разработчиками будут передаваться данные о работе и использовании сервиса. На основе этой информации компания-разработчик осуществляет анализ работы голосового помощника Сяоми и улучшает его функциональность.
В частности, осуществляется сбор следующих сведений:
Можно также оставить свой отзыв о работе приложения.
Это все основные настройки синтезатора речи Xiaomi. Как видно, процесс оптимизации приложения не занимает много времени и не требует каких-то специальных знаний.
Распознавание и синтез речи: как ИИ анализирует наши разговоры
Технический прогресс привел к появлению машин, которые могут понимать, что говорит человек и, более того, в состоянии поддерживать диалог. Некоторые системы говорят так хорошо, что человек в первые пару минут общения с машиной может и не понять, кто его собеседник. Технологии распознавания и синтеза речи — не игрушка и не научный эксперимент. Это инструмент бизнеса, который внедряется все более активно.
Немного истории
Первое устройство, которое «понимало» речь человека, появилось в 1926 году. Это был робот Televox. В нем было три камертона, каждый реагировал на определенную тональность и включал одно из трех реле, отвечающих за разные функции. Но, конечно, это было не распознавание речи в современном понимании.
Ровно через полвека, в 1976 году была разработана полноценная система распознавания, которая понимала уже около 1000 слов. Но и это только отдельные слова, а не полноценный разговор.
https://youtu.be/32KKg3aP3Vw
Лишь в 1996 году появилась первая программа, способная различать непрерывную речь человека, а не команды. Создателем этой технологии стала компания IBM.
В 2016 году системы распознавания речи уже были достаточно широко распространены, хотя точность их работы не превышала 70-80%. То есть из 100 произнесенных слов от 20 до 30 машина не понимала. Сейчас точность некоторых систем превышает 90%, а это значит что, с такой программой можно вести полноценный разговор — она «поймет» текст, и более того, сможет оценить его эмоциональную окраску.
Достигнуть таких результатов удалось при помощи нейросетей — специализированных ИИ-систем, принцип работы которых похож на принцип работы мозга человека. Нейросети также умеют обучаться. Конечно, это не полноценный искусственный интеллект, но все же самообучающаяся система.
Как работает распознавание речи?
Нейросеть анализирует аудиопоток речи человека, разделяя его на отдельные фрагменты. Они называются фонемами. Каждый фрагмент анализируется путем сверки с базой эталонных звуков обученной нейросети и сопоставляется букве, слогу или целому слову. После многократного анализа фонем они расшифровываются в текст. Получившаяся текстовая запись затем снова сравнивается с базой слов нейросети. После выполнения всех действий нейросеть выдает готовый текст.
Чем дольше обучать систему, тем точнее она сможет различать отдельные фонемы, правильнее расшифровывая речь человека. Пол или возраст говорящего, кстати, не имеет особого значения. Для каждого языка приходится обучать отдельную нейросеть: так, система, научившись распознавать английский, не будет понимать французский.
Кроме речи, роботы уже способны распознавать и эмоции человека — по голосу или в тексте. Проще всего распознавать три базовые эмоции: позитивная, нейтральная, негативная — чем их больше, тем сложнее различать. Например, робот почти не видит разницу между обеспокоенностью и раздражением, поэтому вероятность ошибки высокая. Точность распознавания 3-х эмоций составляет около 93%.
В настоящее время уже довольно точно определяется пол человека по голосу — примерно со 2 секунды разговора робот практически на 100% знает, что общается с мужчиной или женщиной.
Как работает синтез речи?
Науке, бизнесу и медицине интересны роботы и машины, которые не просто озвучивают текстовые фрагменты, но и синтезируют собственные кусочки текста. С этим, хотя и не очень хорошо, справляются даже электронные книги. Речь идет о полноценном общении, когда человек что-то спрашивает у машины, та понимает и дает адекватный ответ. И здесь все еще сложнее, чем в случае с распознаванием речи.
В этом случае на сцену выходят нейросети. Для создания полноценной системы синтеза речи обычно требуется большая команда специалистов из разных областей, причем не только IT-экспертов, но и лингвистов, специалистов по фонетике, акустике, просодике и другим специальностям. Так, программа, которая синтезирует речь, должна уметь правильно расставлять ударения, различать слова-омографы вроде «замОк» и «зАмок», правильно расставлять и выдерживать паузы, корректно формировать интонацию и даже понимать эмоции. Все это очень сложно, особенно если учесть, что для разных языков нужны по-разному обученные системы.
Зачем нам распознавать или синтезировать речь?
Распознавание речи используется различными отраслями бизнеса, науки, медицины. Например, посредством этой технологии, люди с ограничениями здоровья могут управлять своим домом при помощи речи, или же надиктовывать тексты статей, электронных сообщений, sms. Также не стоит забывать и о голосовых помощниках, которые есть сейчас почти в каждом смартфоне, колонке вроде Алисы или ПК под управлением Windows и Mac.
Бизнесу распознавание речи тоже необходимо для разных целей, но одна из главных — это коммуникация с клиентами при помощи телефонных роботов, ботов. Это очень востребованная технология, которая позволяет сэкономить деньги, используя для выполнения рутинных задач машины, а не людей.
Как роботы (не) заменяют операторов колл-центров
Одно из направлений бизнеса, где есть потребность в голосовых роботах — колл-центры. К слову, объем рынка коммуникаций в одной только России оценивается в 150 млрд рублей, значительную часть этого рынка занимают колл-центры, их доля оценивается в 12-15 млрд. Роботов ставят на выполнение задач, которые можно без труда автоматизировать, а люди в это время выполняют более сложные, с которыми машины пока справиться не в состоянии.
Однако операторы колл-центров могут не переживать о том, что их работу отнимут голосовые боты. Как и сказано выше — просто потому, что у людей и роботов разные функции. Показательный пример — сотрудничество с колл-центром компании-партнера TWIN. Проект стартовал, когда в колл-центре работало 500 человек. Сейчас, спустя два года, в нем же работает уже 600 сотрудников. При этом также расширился и спектр задач, выполняемых голосовым роботом. Этот кейс может служить доказательством того, что в ближайшие 7-10 лет роботы окажут самое незначительное влияние на рынок труда операторов колл-центра.
Пример использования робота № 1. С 2016 кода TWIN активно сотрудничает с финтех-компаниями в России. Роботы помогают отвечать на однотипные вопросы, заданные клиентами. Кроме того, если возникает нестандартная ситуация, то робот способен оперативно переключить звонящего на оператора-человека. Например, мужчина заказал у транспортной компании вазу для своей жены на 8 марта. Ваза по какой-то причине не доставлена, и недовольный клиент звонит в компанию. Робот сразу же определяет эмоциональное состояние человека и не задает обычные вопросы, а переводит на оператора, который и решает возникшую проблему.
Пример использования робота № 2. Несколько лет назад в России появился проект робота-эйчара. Робота назвали «Вера», и работает она очень эффективно. Роботу дают задачу — например, найти IT-специалиста с определенными компетенциями. Вера сначала ищет походящих кандидатов на сайтах вроде hh.ru, собирает данные специалистов с нужными характеристиками, а затем начинает им звонить. Бот спрашивает, заинтересован ли соискатель в вакансии, и если тот отвечает положительно, то робот и человек назначают дату созвона с HR-менеджером. Если же ответ со стороны соискателя отрицательный, то робот просит прощения и кладет трубку.
И в первом, и во втором случае голосовые боты могут одновременно разговаривать с сотнями и тысячами абонентов. Это значительно превышает возможности оператора-человека и повышает эффективность компании. Но и задачи здесь, как видим, относительно простые, так что операторы-люди включаются в дело тогда, когда у робота возникает проблема.
В целом технологии как распознавания, так и синтеза речи совершенствуются, становятся все более функциональными. Отличить в простом диалоге по телефону робота от человека бывает крайне сложно. Вероятно, в недалеком будущем голосовые боты полностью возьмут на себя рутинные задачи колл-центров. Кроме того, сейчас активно развивается и направление электронных помощников — через лет пять они станут гораздо более функциональными, чем Siri, Алиса или Маруся. Роботы, способные понимать человеческую речь, различать эмоции и адекватно отрабатывать любые эмоциональные состояния человека, сделают жизнь людей проще, а бизнес — эффективнее.
Синтез речи в виджетах обратного звонка
Пока все настраивались на рабочий лад после длительных праздников и вливались в поток трудовых будней, мы успели запилить долгожданную киллер-фичу — синтез речи для голосовых оповещений.
Виджет обратного звонка для сайта
Что такое синтез речи?
Синтез речи – это преобразование печатного текста в речь. Есть некий текст, на основе которого происходит озвучивание и преобразование в звуковой файл.
Применений у такого файла может быть множество. В данном случае преобразованный файл является голосовым оповещением об обратном звонке для оператора колл-центра.
Новые возможности виджетов
С помощью синтеза речи вы можете сообщить оператору дополнительную информацию о том, какой звонок поступил. Это позволит оператору построить разговор таким образом, чтобы предоставить клиенту максимально полезную и релевантную информацию.
Например, теперь оператор, перед тем, как начать разговор с клиентом, знает, с какого сайта и типа виджета поступил звонок, по какому каналу или источнику, в какое время была оформлена заявка и так далее.
Еще более «например».
Застройщик создал лендинги под каждый объект, в каждом из которых есть квартиры с разным количеством комнат. Также на каждый тип квартир есть отдельное акционное предложение.
При этом звонки поступают в единый колл-центр.
Как один из вариантов:
– виджет Промо с акцией на 2х-комнатные квартиры со скидкой до 10% при обращении до конца месяца,
– виджет обратного звонка на 2х-комнатные квартиры с рассрочкой платежа на 3 года при обращении до конца месяца.
С помощью настроек синтеза речи в каждом виджете генерируется голосовое оповещение, в котором передается информация о том, с какого именно виджета пришла заявка, источник обращения, время.
Файл может звучать так: «поступил обратный звонок с сайта «Объект Пресня», виджет Промо, 2х-комнатные квартиры, скидка 10%, заказан сегодня, в 12-15, канал cpc, источник Яндекс, кампания «Скидка до конца месяца».
И что делает ваш оператор? Отвечает на данный звонок со скриптом: «Добрый день, вас интересовала 2х-комнатная квартира в ЖК Пресня? Сейчас предоставляются скидки 10% при предоставлении *document_name*. Готовы назначить встречу с отделом продаж, когда было бы удобно подъехать?
О чем подумает покупатель? Круто. Мне не нужно тратить время на объяснение, что я хочу. Застройщик все знает за меня.
Как настроить
Настройки синтеза речи доступны для любого типа соединения:
При активации опции синтеза речи стандартные голосовые уведомления будут заменены на файлы, которые вы соберете в конструкторе настроек.
Конструктор состоит из параметров, доступных для озвучивания и блоков, к которым голосовое оповещение будет применено.
Для удобства настройки блоки разделены на рабочее, нерабочее время и повторные попытки дозвона.
Голосовое сообщение каждого блока будет содержать фразу, по которой вы сможете понять, какая именно заявка к вам поступила.
У каждого параметра есть своя подсказка о том, какой тип данных используется для синтеза.
В первых двух параметрах есть поля для ввода информации — это вступительная фраза голосового оповещения и фонетическая форма доменного имени сайта.
Несмотря на то, что доменные имена сайтов написаны по-английски, к ним не всегда могут быть применены правила чтения этого языка. Во избежание ошибок необходимо использовать фонетическую форму, то есть написать кириллицей так, как слышится.
Например, Кол Тач точка ру или Ви Си точка ру.
Далее настраиваются динамические параметры, значения которых будут меняться, в зависимости от передаваемых данных.
Вы можете выбрать для озвучивания время и дату заказа обратного звонка, тип виджета и его название.
Оператор услышит, например, такую фразу: «…заказан сегодня, в 12-15, виджет Промо, название виджета «Распродажа».
Ну и, пожалуй, самая информативная часть настроек — это озвучивание источника, канала и кампании.
Данные подставляются автоматически из разметки.
Значения, которые будут озвучиваться, идентичны тому, что вы видите в журнале звонков или отчете по источникам.
Рекомендуем заполнять разметку корректно и не передавать технических параметров, ID или служебных комментариев в UTM_campain, так как синтезируемый голосовой файл будет очень сложно воспринимать на слух.
После того, как вы настроили параметры всех блоков, можно прослушать пример оповещения: Сгенерировать → Прослушать.
MIUI 12 и MIUI 11: Запрещаем Google собирать данные
Да, действительно, подобная проблема со временем может появиться, а один из возможных вариантов её решения прост и не требует сбросов и сложных манипуляций.
Заходите в «Настройки» —> Приложения —> Разрешения —> Разрешения —> Микрофон, и отключаете доступ к микрофону для тех приложений, в которых его использование кажется вам неуместным. Я например считаю что браузеру Opera микрофон без надобности, поэтому нажимаю на иконку и выставляю «Запретить»
Отключаем сбор данных от Google
Теперь перейдём к отключению сбора данных, которые нежелательны не только потому, что информация об использовании передаётся непонятно куда без вашего ведома, но и по причине расхода (пусть и небольшого) мобильного интернета, а значит и заряда батареи.
Для удобства будем использовать уже знакомый вам «Запуск Activity» (ссылка в конце). Итак, заходите в приложение, ожидаете окончание загрузки списка и пишете в поиске слово «уведомления».
Заходите в пункт «Адаптивные уведомления» и видите что по умолчанию выбран пункт «Android Adaptive Notification», который я рекомендую отключить выбрав самую нижнюю строку.
Коротко объясню что это и как работает. В Android 10 появилась новая фишка уведомлений, благодаря которой, обучаясь, система понимает какие из уведомлений интересуют вас больше остальных и поэтому располагает их вверху списка.
Однако, если вы, как и я не допускаете чтобы количество непрочитанных уведомлений переваливало за 5-7 штук, эта функция становится бесполезной, ведь впустую тратит ресурсы системы, обрабатывая данные, в чём вы можете убедиться прочитав информацию при повторном включении.
Решать конечно вам, но лично я отключил адаптивные уведомления системы Android и не заметил абсолютно никаких проблем в работе смартфона.
Теперь отключим ещё одну бесполезную функцию от Google, которая активна практически на всех смартфонах. Опять же запускаете «Запуск Activity» —> в поиске пишите «синтез» —> выбираете «Настройка синтеза речи»
Далее нажимаете на значок шестерёнки и видите, что в строке «Анонимные отчёты о синтезе речи» выбрано «Включено». Заходите в этот пункт меню, читаете информацию о том, что сбор отчётов ведётся постоянно и выключаете сбор данных нажав на соответствующий переключатель.
На этом у меня на сегодня всё, статья про звук готова, осталось только протестировать всё на Redmi Note 8 Pro (из-за MTK процессора). Так что наберитесь терпения. Материал получился отличный (на мой взгляд).
Приложение Синтезатор речи Google: как пользоваться и как отключить?
Синтезатор речи от Google
Синтезатор речи от Гугл в вашем смартфоне — это очень безобидное приложение, которое самостоятельно не приносит неудобств, но активно используется другими приложениями.
Синтезатор речи от Google — это озвучивание текста в различных приложениях, поэтому он используется для:
озвучивания книг в приложении Google Play Книгах ;
озвучивания слов в Google Переводчике ;
предоставления специальных возможностей в приложениях для озвучивания текста на экране телефона;
использования в других приложениях телефона, где нужно озвучивать текст.
Как отключить синтезатор речи от Google на телефоне
находите там «Все приложения»;
в этой вкладке находите «Синтезатор речи», нажимаете на эту вкладку;
вам будет доступно три действия: «Остановить», «Удалить обновления», «Отключить»;
выбира е те нужное действие.
Может так случит ь ся, что вы не хотите полностью останавливать работу этого приложения, но вас не устраивают его возможности и настройки. В этом случае вы можете установить любой другой синтезатор речи из Google Play Market и сменить в настройках встроенный синтезатор на ваш. Делается это по следующей инструкции:
найдите вкладку «Расширенные настройки» ;
найдите там вкладку «Специальные возможности» ;
отыщите там вкладку «Синтез речи» ;
найдите там вкладку «Альтернативное приложение» и активируйте сво ю программу, которую вы дополнительно установили.
открыть «Настройки» устройства ;
найти «Расширенные настройки» ;
отыскать «Специальные возможности» ;
найти там «TalkBack» и деактивировать это приложение.
Также иногда приносит неудобства другой функционал на Андроид-смартфоне — озвучивание при нажатии, котор ое также использует синтезатор речи от Google. Деактивировать этот функционал можно п о с ледующей инструкции:
откройте «Настройки» на устройстве ;
найдите пункт «Расширенные настройки» ;
отыщите пункт «Специальные возможности» ;
найдите пункт «Озвучивание при нажатии» и деактивируйте этот функционал.
Заключение
Синтезатор речи от Google — это встроенная функция в смартфонах на Android, которую нельзя удалить, но можно деактив и ровать. Основная масса пользователей вообще ей не пользуется, но некоторым она очень необходима. Если вы из тех, кто ей не пользуются, то вы уже знаете, как ее можно отключить.
Мы будем очень благодарны
если под понравившемся материалом Вы нажмёте одну из кнопок социальных сетей и поделитесь с друзьями.