3 лучших синтезатора речи для android по мнению world-x
Содержание:
- Голос Эллисон (аЛИСА)
- Как преобразовать текст в речь.
- Настройка интерфейса
- Основные горячие клавиши
- Философия, Лицензия и Мотивация
- Lennar Digital — Sylenth1 2.2.1.1 RePack + Banks Presets [2011, Аналоговый синтезатор]
- Ivona — лучший синтезатор речи
- VLC media player 2.2.1 [2015, Медиаплеер] 32/64-bit
- Список синтезаторов речи:
- Интерфейс Балаболки
- Adobe Photoshop CC 2015.1.2 2015.1.2 (20160113.r.355) RePack [2015, Графический редактор]
- Краткий Обзор Решений
- [Android] Zombie Age 2 1.1.2 [2014, Экшен]
- Balabolka 2.2.0.498 Portable + Голосовой движок Acapela Alyona [2011, Чтение вслух текстовых файлов]
- Николай Nicolai — Acapela ELAN Tempo Multimedia.
- Использование экранного диктора
- Как Попробовать
- Пример использования
- О преобразовании текстов в звук
- Brainworx — Vertigo VSC-2 1.1.2 RePack [2012, Компрессор]
- MP3Book 2005 426 + Audibook 1.4.2 + Govorilka 2.0.6 [Синтез речи]
- Бенчмарки по Скорости
- LennarDigital — Sylenth1 2.2.1.2 [2013, Аналоговый синтезатор]
- Синтез речи от Google
- Устаревший голосовой движок для Балаболки L&H
Голос Эллисон (аЛИСА)
Vocalizer Allison – English приятный женский голос на английском языке. Голос той же компании, что и Милена. Качественная компьютерная обработка позволяет этому движку очень качественно и разборчиво произносить слова на английском языке. Эллисон поможет Вам легко освоить правильное произношение слов при изучении английского языка.
Выберите из папки Голоса для Балаболки 2.15 голос Allison и установите его на свой компьютер.
Откройте видео на этой странице, послушайте, как звучат эти голоса, выберите понравившийся голос или несколько голосов и можете приступать к прослушиванию текстовых файлов, содержание буфера обмена или текста, набранного Вами в Поле редактирования.
Как преобразовать текст в речь.
Балаболка позволяет создавать звуковые файлы из текстовых. То есть, если Вы написали или скопировали какой-либо текст в Поле редактирования, его нужно сначала сохранить в одном из текстовых форматов.
Когда у Вас есть текстовый файл, вы можете сделать из него звуковой. Для этого:
- — В Меню программы Балаболка выберите «Сервис».
- — Выберите «Преобразовать в аудиофайлы».
- — Вместо выбора Меню/Сервис можно применить горячие клавиши:
- Ctrl+Y.
В открывшемся окне «преобразовать текстовые файлы в звуковые файлы»:
- — Нажмите кнопку «Добавить файлы», найдите на своём компьютере нужный текстовый файл или сразу несколько файлов. Порядок загруженных файлов можно поменять кнопками Вверх и Вниз.
- — Нажмите кнопку «Выбрать.
- — Далее выберите папку, где будет сохраняться аудиофайл, выберите формат звукового файла, а также голос, которым будет произноситься текст.
- — Нажмите кнопку «Преобразовать»».
В результате этих действий программа Балаболка создаст аудиофайл выбранного Вами формата.
Настройка интерфейса
Программа позволяет в текстовом поле выводить текст любого размер, любого формата, или показывать светлый (белый) текст на тёмном (чёрном0) фоне.
Чтобы настроить текст в Поле редактирования, в меню Вид выберите вкладку «Шрифт и цвета».
Основные горячие клавиши
Для комфортного прослушивания текста, желательно запомнить несколько Горячих клавиш:
- F5 – Прочитать вслух.
- F6 – Приостановить.
- F7 – Остановить.
- F8 – Прочитать выделенный текст.
- F9 – Прочитать текст из Буфера обмена.
- Ctrl+Up — Перейти к предыдущему предложению.
- Ctrl+Down — Перейти к следующему предложению.
- Ctrl+F11 — Перейти к предыдущему абзацу.
- Ctrl+F12 — Перейти к следующему абзацу.
Мы рассмотрели не все возможности программы Балаболка. Она ещё может: переводить загруженный текст, сохранять озвученный большой текст в виде нескольких аудиофайлов, проверять орфографию загруженных текстов, преобразовывать субтитры, извлекать текст из файлов.
Со всеми этими возможностями Вы можете разобраться самостоятельно.
Философия, Лицензия и Мотивация
Как авторы моделей, мы считаем следующие правила использования моделей справедливыми:
- Голоса из внешних источников приведены исключительно в целях демонстрации и будут удалены;
- Любые из описанных выше моделей нельзя использовать в коммерческих продуктах;
- Репозиторий опубликован под лицензией GNU A-GPL 3.0. Де-юре это не запрещает коммерческое использование, но по факту мы еще не встречали коммерческие решения с полностью открытым кодом, чего требует эта лицензия;
- Если вы ставите своей целью некоммерческое использование наших моделей во благо общества — мы будем рады помочь вам с интеграцией моделей в ваше решение;
- Если вы планируете использование наших моделей в личных целях (по фану или для озвучки каких-то текстов), то делитесь результатами своих экспериментов в репозитории;
- Если вы планируете использование наших моделей в некоммерческих продуктах для людей с нарушениями речи или зрения — обращайтесь, мы поможем с интеграцией, чем умеем;
Делая этот проект мы ставили своей целью ценой многочисленных компромиссов показать, что современный TTS, удовлетворяющий описанным выше критериям, возможен. И для этого не нужно быть заложником закрытых экосистем корпораций.
Lennar Digital — Sylenth1 2.2.1.1 RePack + Banks Presets [2011, Аналоговый синтезатор]
Год выпуска: 2011Жанр: Аналоговый синтезаторРазработчик: Lennar DigitalСайт разработчика: http://www.lennardigital.com/Язык интерфейса: АнглийскийТип сборки: RePack by TEAM AiRРазрядность: 32/64-bitОперационная система: Windows 2000, XP, Vista, 7Системные требования: Any CPU that supports SSE (Intel Pentium III and above, AMD XP and above, All Intel Macs but no PPC) 128MB RAM VSTi or AU compatible host softwareОписание: Sylenth1 — виртуальный аналоговый VSTi синтезатор, который выносит определения качества и производительности на новый уровень. До этого момента, не многие программные …
Ivona — лучший синтезатор речи
Голосовые движки данного онлайн сервиса отличаются очень высоким качеством, хорошей фонетической основой, звучат достаточно естественно и «металлический» компьютерный голос здесь чувствуется гораздо реже, нежели у сервисов-конкурентов.
Сервис Ivona имеет поддержку множества языков, в русском варианте присутствуют мужской голос (Maxim) и женский (Tatyana). К сожалению у них что-то с сайтом. И доступа нет. https://www.ivona.com/us/
Acapela
Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.
- Чтобы воспользоваться функционалом ресурса откройте указанный сервис, слева в окне выберите русский язык (Select a language – Russian).
- Вставьте внизу нужный текст и нажмите на кнопку «Listen» (слушать).
Максимальный размер текста для аудиопрочтения — 300 символов.
Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.
Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.
Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.
Программа платная, скачать ее можно с официального сайта Acapela.
Vokalizer
Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая
Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений
Прекрасно подходит для чтения книг.
Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.
ESpeak
Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.
- Microsoft Windows,
- Mac OS X,
- Linux,
- RISC OS
Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.
Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.
Festival
Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.
Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений. К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.
VLC media player 2.2.1 [2015, Медиаплеер] 32/64-bit
Год выпуска: 2015Жанр: МедиаплеерРазработчик: VideoLANСайт разработчика: http://www.videolan.org/Язык интерфейса: Мультиязычный (русский присутствует)Тип сборки: StandardРазрядность: 32/64-bitОперационная система: Windows XP, Vista, 7, 8, 8.1, 10 Описание: VLC Media Player — универсальный плеер, способный воспроизводить практически любые существующие на сегодняшний день форматы файлов: MPEG-1, MPEG-2, MPEG-4, DivX, XviD, H.264, MP3, OGG и другие, обычные DVD и VCD диски, а также музыкальные. Одной из его особенностей является возможность проигрывания практически любого типа потокового …
Программы / Программы для работы с Мультимедиа / Кодеки и Медиаплееры
Подробнее
Список синтезаторов речи:
1. Acapela
Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.
Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.
Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.
Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.
Программа платная, скачать ее можно с официального сайта Acapela.
2. Vokalizer
Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая
Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений
Прекрасно подходит для чтения книг.
Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.
3. RHVoice
Синтезатор речи RHVoice был разработан Ольгой Яковлевой. Программа озвучивает русские тексты тремя голосами: Елена, Ирина и Александр. Подробнее об установке и применении, а также прослушать голоса Вы сможете в прошлой статье
Код синтезатора открыт для всех, программы же абсолютно бесплатны. RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA. Все версии можно скачать с официального сайта разработчика.
4. ESpeak
Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.
- Microsoft Windows,
- Mac OS X,
- Linux,
- RISC OS
Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.
Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.
5. Festival
Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.
Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений. К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.
Интерфейс Балаболки
Balabolka имеет простой и интуитивно понятный интерфейс на русском и нескольких европейских и азиатских языках. Те, кто смог скачать Балаболку бесплатно, установил Balabolka и голосовой движок, чтобы программа смогла читать русскими голосами, сразу могут прослушать тексты. Процесс воспроизведения речи запускается кнопкой Воспроизведение. Кнопкой Пауза виртуальный рассказчик приостанавливается. Прекращается воспроизведение кнопкой Стоп. Такой же интерфейс управления присутствует в любом компьютерном аудио-видео плеере. Настроить программу для работы сможет даже малоопытный пользователь.
Возможность изменения дизайна программы на любой вкус реализована с помощью нескольких сменных скинов, или тем оформления интерфейса. Также существует возможность дополнительно бесплатно скачать темы для программы Балаболка с официального сайта. Мультиязычный интерфейс с превосходным русским языком и объемный раздел справки и помощи от автора программы Ильи Морозова вдвойне упрощает задачу изучения функционала, которого немного больше, чем может показаться на первый взгляд.
Adobe Photoshop CC 2015.1.2 2015.1.2 (20160113.r.355) RePack [2015, Графический редактор]
Год выпуска: 2015Жанр: Графический редакторРазработчик: Adobe Systems IncorporatedСайт разработчика: http://www.adobe.com/Язык интерфейса: Мультиязычный (русский присутствует)Тип сборки: RePackРазрядность: 32/64-bitОперационная система: Windows XP, Vista, 7, 8, 8.1, 10Системные требования: • Процессор Intel Pentium 4 или AMD Athlon 64 (2 ГГц или более быстрый) Microsoft Windows 7 SP1, Windows 8.1 или Windows 10 • 2 ГБ ОЗУ • 2 ГБ свободного пространства на жестком диске для установки • Монитор с разрешением 1024×768 (рекомендуется 1280×800), поддержкой 16-битного цвета и 512 МБ видео …
Краткий Обзор Решений
Данная статья не ставит своей целью глубокий технический обзор всех доступных решений. Мы хотим просто обрисовать некий ландшафт из доступных вариантов с минимальной степенью готовности. Понятно, что мы не рассматриваем многочисленные тулкиты, а смотрим в первую очередь какие есть более-менее готовые решения с ненулевой библиотекой голосов и подобием поддержки / комьюнити:
Конкатенативные модели (появившиеся до DL бума). Из того, что хоть как-то поддерживается и живо и можно запустить «as-is» без археологических раскопок, я нашел только rhvoice (я глубоко не копал, но есть целые форумы, посвященные использованию голосов из Windows, но вряд ли это можно назвать поддерживаемым решением). На момент, когда я пользовался проектом ради интереса, он по сути был заброшен, но потом у него появился новый «хозяин». К плюсам такого рода решений можно отнести их скорость и нетребовательность к ресурсам (исключая ресурсы, чтобы заставить это работать). Очевидный и основной минус — звучит как говорилка. Менее очевидный минус — довольно тяжело оценить стоимость обладания. Качество звучания: 3+ по пятибалльной шкале;
DL-based модели в основном разделяют end-to-end TTS задачу на подзадачи: текст -> фичи и фичи -> речь (вокодинг). Практически повсеместно для первой подзадачи используется Tacotron2. Выделим следующие сочетания моделей в соответствии с их эффективностью и простотой использования:
Tacotron2 + WaveNet (оригинальный WaveNet принимал на вход лингвофичи, но для такотрона поменяли на более удобные мелспектрограммы). Основная проблема — очень медленный инференс ввиду авторегрессионности модели и необходимость запретительно большого количества ресурсов и времени. Качество звучания: 4+;
Tacotron2 + WaveRNN (тоже с переходом от лингвофичей к спектрограммам). Вокодер заметно быстрее предыдущего: при использовании всех хаков можно получить даже риалтайм синтез без GPU, правда естественность звука несколько просядет. Качество звучания: 3.5-4;
Tacotron2 + Parallel WaveNet. Упомянутый выше медленный вокодер был использован в качестве учителя для получения новой довольно быстрой параллельной модели вокодера: с ней стал возможен синтез быстрее риалтайма, но все еще на мощных GPU. Из недостатков — дистилляция требует качественную учительскую модель и соответствующую схему обучения. Качество звучания: 4+;
Tacotron2 + multi-band WaveRNN. Тоже развитие предыдущих идей, тоже распараллеливание в некотором смысле — здесь доступен синтез быстрее риалтайма уже на CPU. Однако, не слишком популярная работа, меньше имплементаций и поддержки, хотя некоторые подходы хороши и были успешно использованы в более поздних моделях; Качество звучания: 3.5-4+;
Tacotron2 + LPCNet. Интересная идея про сочетание DL и классических алгоритмов, что может дать буст по скорости до подходящего для продакшена уровня и на CPU, но требует вдумчивого допиливания для качественных результатов. Качество звучания: 3.5-4+;
Многочисленные решения на базе Tacotron2 + Waveglow от Nvidia как нынешний стандарт для задачи синтеза речи. Никто не пишет про свой «секретный соус» (например как 15.ai делает голос по 15 минутам и сколько там моделей в цепочке). Есть много имплементаций и репозиториев, которые «копируют» чужой код. Может звучать на cherry-picked примерах неотличимо от живых людей, но когда смотришь реальные модели от комьюнити, качество заметно варьируется, а детали улучшенных решений не раскрываются. Архитектурно к такотрону и его аналогам по скорости и цене обладания претензий нет, но Waveglow очень прожорлив к ресурсам как на тренировке, так и в продакшене, что делает его использование по сути нецелесообразным. Качество звучания: 3.5-4+;
Замена Tacotron2 => FastSpeech / FastSpeech 2 / FastPitch, то есть уход к более простой сетке (на базе forced-align от такотрона и миллион более хитрых и сложных вариантов). Из полезного дает контроль темпа речи и высоты голоса, что неплохо, вообще упрощает и делает более модульной конечную архитектуру
Немаловажно, что сетка перестает быть рекуррентной, что открывает просторы для оптимизаций по скорости. Качество звучания: 3.5-4+;
[Android] Zombie Age 2 1.1.2 [2014, Экшен]
Год выпуска: 2014Жанр: ЭкшенРазработчик: divmob gamesЯзык интерфейса: АнглийскийПлатформа: AndroidСистемные требования: Android 2.3+ Описание: Весь город захвачен живыми мертвецами и отсиживаться дома не представляется возможным, провизия подходит к концу и вы хорошенько вооружившись отправляетесь в город. Вся игра разделена на огромное количество миссий, разбросанных по семи районам города, выполнять задания вам предстоит попутно уничтожая орды зомби, а для этого у вас есть богатый арсенал оружия, более 30 единиц, также вы можете проходить игру совместно с друзьями. Уникальный мультипли …
Balabolka 2.2.0.498 Portable + Голосовой движок Acapela Alyona [2011, Чтение вслух текстовых файлов]
Год выпуска: 2011Жанр: Чтение вслух текстовых файловРазработчик: Илья МорозовСайт разработчика: http://cross-plus-a.com/Язык интерфейса: Мультиязычный (русский присутствует)Платформа: Windows 2000, XP, 2003, Vista, 7Системные требования: -Оперативная память: 64 Mb -Видео-карта: 16 Mb -Жесткий диск: 300 Мб свободного места Описание: Программа Balabolka предназначена для чтения вслух текстовых файлов. Для воспроизведения звуков человеческого голоса могут использоваться любые речевые синтезаторы, установленные на компьютере. Воспроизведение речи можно контролировать при помощи стандартн …
Николай Nicolai — Acapela ELAN Tempo Multimedia.
Nikolai немного устарел, но по тембру кому-то он больше понравится.
Сам движок называется Acapela ELAN Tempo Multimedia V5.1.0.0 Russian (255 channels) 11,2МБ. Пример звучания — 2,09МБ. Старая версия Elan TTS Speech Cube v4.2.0.0 Evaluation .
Программы для чтения книг: MP3book2005 для редактирования словаря, записи в MP3 и чтения. ToM Reader Russian , Балаболка для чтения и записи в MP3.
Теперь о всём по порядку. ELAN Tempo Multimedia голосовой движок, продолжающий своё развитие от Digalo . Качество хорошее, голос мужской — Nicolai. И конечно главная составляющая – редактируемый словарь, благодаря которому произношение можно сделать почти идеальным, на сегодняшний день. Видим всеми программами, в том числе ПРОМТ.
MP3book2005 программа для редактирования словаря, чтения, и записи в mp3. Редактирует словарь прекрасно, но хотелось бы, что бы вид был книжный. Поддерживаемые форматы: txt, rtf, htm, fb2.
ToM Reader Russian программа для чтения. Главное достоинство в том, что не вмешивается в произношение голосового движка, и читает по предложениям, а не по абзацам как во многих программах, поэтому легко отслеживать чтение. Выглядит как книга в переплёте, что тоже удобно. Поддерживаемые форматы: txt, doc, rtf, htm. Если возникают вопросы, заходите на ФОРУМ, обязательно отвечу.
Итак, установка. Для работы требуются дополнительные библиотеки (устанавливать в этом порядке!): 1. MSagent.exe и ms_speech_api.exe (архив-1,09 МБ) Скачать (Зеркало)- MSagent.exe (400 KB) — агент для работы с движками распознавания и синтеза речи, ms_speech_api.exe (830 KB) — библиотеки необходимые для работы программ распознавания и синтеза речи. (для Win 7 не нужны) 2. Acapela ELAN Tempo Multimedia V5.1.0.0 Nicolai (10,7 МБ) Скачать (Зеркало) — движок синтеза русской речи для агента. 3. ToM Reader 2.73 Скачать (Зеркало) или MP3book2005 (7 MB) Скачать (Зеркало) — программы для чтения, какая понравится. 4. Скачиваем словарь ударений для ELAN Tempo Multimedia Nikolai . Копируем основной словарь exc_rus.txt, и abb_rus.txt — для аббревиатур, в паку C:Program FilesElan , а exc_rus.txt ещё и в Program FilesMP3book2005DIC , с заменой. MP3book2005 редактирует только exc_rus.txt , abb_rus.txt нужно править в Блокноте или Word. Это фирменные словари, ими пользуется ELAN Tempo Multimedia . Есть ещё словарь, который встраивается в читающую программу ToM Reader (Digalo Russian Nicolai.dic). Ни в коем случае не пользуйтесь такими словарями, они только ухудшают произношение. В ToM Reader настройки движка примерно такие:
Использование экранного диктора
Для Android версии 3.2 и выше разработчиками Google выпущена утилита , по функционалу напоминающая «Экранный диктор» для Windows. Начиная с Android Jelly Bean, приложение переустанавливается в систему и активируется из «Настройки» – «Специальные возможности». Для запуска следует передвинуть ползунок в положение «On».
Функции программы TalkBack:
- Перечисление элементов на мониторе с одновременным их описанием;
- Голосовые уведомления о происходящих событиях;
- Уведомление о звонках и SMS-сообщениях;
- Аудио и вибрационный отклик от устройства.
В своей работе утилита использует интерфейс TTS, установленный в системе по умолчанию. И хотя TalkBack уже относится к системным программам, она все же имеет один недостаток – для первоначальной активации нужен визуальный контроль, поэтому позаботьтесь о присутствии друга или члена семьи при первом знакомстве с приложением!
Как Попробовать
Все модели опубликованы в репозитории silero-models, там также есть примеры запуска синтеза в colab. Для полноты приведем минималистичный пример (да, это действительно так просто):
На данный момент поддерживаются следующие спец-символы: . Кроме того, для большинства спикеров русского языка в тексте для озвучивания были использованы метки ударения (символ перед ударной гласной, при тестировании таких моделей пока еще нужно ставить ударение вручную):
Спикер | С ударением |
---|---|
aidar | да |
baya | да |
ksenia | да |
irina | да |
natasha | да |
ruslan | да |
lj | нет |
thorsten | нет |
gilles | нет |
tux | нет |
В будущем мы планируем перевести все модели на более простой и унифицированный формат, не требующий ударений. Чтобы не запутаться, в файле, который описывает все наши модели, явно указан набор токенов для каждой модели и пример фразы для генерации.
Пример использования
Создадим проект использования модуля ISD1820 в качестве оповещателя при входе человека в запретную зону.
Для проекта нам понадобятся:
- Плата Arduino Nano – 1 шт;
- Модуль ISD1820 – 1 шт;
- Динамик – 0,5 Вт, 8 Ом – 1 шт;
- Датчик расстояния HC SR-04 – 1 шт;
- Провода.
Схема соединений нашего проекта на рис. 4.
Рисунок 4.
Запишем на модуль ISD1820 фразу для оповещения, например: «Внимание. Вы зашли в запретную зону, просьба срочно покинуть»
При обнаружении ультразвуковым датчиком расстояния объекта в радиусе 100 см, подаем сигнал HIGH на контакт 12. При этом будет воспроизводиться данная фраза. Следующий замер расстояния через 10 секунд.
Загружаем на плату Arduino скетч из листинга 1.
Листинг 1.
// константы для выводов #define PIN_TRIG 11 #define PIN_ECHO 10 #define PIN_PE 12 // расстояние обнаружения см #define DIST_DETECT 100 // подключение библиотеки для HC SR04 #include «Ultrasonic.h» // создание объекта Ultrasonic Ultrasonic ultrasonic(PIN_TRIG, PIN_ECHO); // переменная для хранения измеренного расстояния float dist_cm=0; void setup() { // запуск последовательного порта Serial.begin(9600); // назначить P-E как OUTPUT pinMode(PIN_PE, OUTPUT); digitalWrite(PIN_PE, LOW); } void loop() { // получить данные с дальномера dist_cm = ultrasonic.Ranging(CM); Serial.println(dist_cm); // обнаружение объекта в зоне if(dist_cm>0 && dist_cm // включить воспроизведения мелодии digitalWrite(PIN_PE, HIGH); // пауза на время воспроизведения delay(6000); digitalWrite(PIN_PE, LOW); } }
И проверяем работу оповещателя.
Рисунок 5.
О преобразовании текстов в звук
Люди давно практикуют прослушивание текстов вместо их чтения. Причиной тому — и природная лень, и нежелание напрягаться, и забота о сохранении зрения, и русские романтические традиции, воспетые еще А. С. Пушкиным в своих детских воспоминаниях о няне из стихотворения Сон:
И шепотом рассказывать мне станет
О мертвецах, о подвигах Бовы…
Как и во многих отраслях современной промышленности, информационные технологии в деле чтения пришли на помощь продолжателям дела пушкинской няни. Сегодня с переводом текста в речь, кроме приложения Balabolka, справляются аналогичная по возможностям Govorilka, текстовый редактор Демагог, ридеры Tom, Cool и Ice Book.
Самым ленивым и требовательным к качеству воспроизведения речи читателям, точнее слушателям, лучше других бесплатных программ подойдет русская версия Balabolka. Эта программа не без недостатков, но все-таки самостоятельно почитает вслух как простой текст, так и более продвинутые форматы оцифрованных книг. Попробуйте последнюю версию Балаболки скачать с голосовыми движками, говорящими на русском языке, записать из программы MP3 и послушать на любом совместимом устройстве любимые произведения классиков или современную прозу по пути в офис, в спортзале, в очереди или перед сном. На мамину или нянину сказку на ночь это, конечно, похоже не будет, но воспринимается такая машинная декламация компьютерным голосом вполне нормально.
Brainworx — Vertigo VSC-2 1.1.2 RePack [2012, Компрессор]
Год выпуска: 2012Жанр: КомпрессорРазработчик: BrainworxСайт разработчика: BrainworxЯзык интерфейса: АнглийскийТип сборки: RePack by R2RРазрядность: 32/64-bitОперационная система: Windows 2000, XP, 2003, Vista, 2008, 7 Описание: Brainworx — Vertigo VSC-2 — первый релиз плагина от Vertigo, созданный в тесном сотрудничестве с Brainworx и основанный на Big Impact Design. VSC-2 воспроизводит все нюансы этого флагманского VCA компрессора стоимостью 6000$. “Мы поражены тем, как плагин моделирует реальную обработку. Мы сравнивали его с аппаратным оригиналом несколько раз в профессиональной сту …
MP3Book 2005 426 + Audibook 1.4.2 + Govorilka 2.0.6 [Синтез речи]
Жанр: Синтез речиРазработчик: Шойтов-ХаритановскийСайт разработчика: http://www.mp3book2005.ru/Язык интерфейса: РусскийПлатформа: Windows XP, Vista, 7 Описание: Многие пользователи компьюрера даже и не подозвевают о том, что компьютер может говорить, при чём качество синтезированного компьютерного голоса даже лучше, чем во многих фантастических фильмах и уже практически неотличимо от обычной человеческой речи. Аудиокниги в последнее время получили широкое распространение во всем мире. В разных странах за ними закрепились различные названия: Audiobook, MP3-book, ‘электронная книга’, ‘гово …
Бенчмарки по Скорости
После качества скорость является следующим определяющим свойством модели, для измерения скорости синтеза мы используем следующие простые метрики:
- RTF (Real Time Factor) — какую долю длительности аудио занимает синтез этого аудио;
- RTS = 1 / RTF (Real Time Speed) — насколько синтез «быстрее» риалтайма;
Метрики мы снимали на двух устройствах с помощью встроенных в PyTorch 1.8 утилит:
- CPU — Intel i7-6800K CPU @ 3.40GHz;
- GPU — 1080 Ti;
- При снятии метрик на CPU мы также ограничивали число используемых потоков;
Для моделей 16 kHz получаются такие показатели:
Батч | Устройство | RTF | RTS |
---|---|---|---|
1 | CPU 1 thread | 0.7 | 1.4 |
1 | CPU 2 threads | 0.4 | 2.3 |
1 | CPU 4 threads | 0.3 | 3.1 |
4 | CPU 1 thread | 0.5 | 2.0 |
4 | CPU 2 threads | 0.3 | 3.2 |
4 | CPU 4 threads | 0.2 | 4.9 |
— | ———— | — | — |
1 | GPU | 0.06 | 16.9 |
4 | GPU | 0.02 | 51.7 |
8 | GPU | 0.01 | 79.4 |
16 | GPU | 0.008 | 122.9 |
32 | GPU | 0.006 | 161.2 |
— | ———— | — | — |
Для моделей 8 kHz получаются такие показатели:
Батч | Устройство | RTF | RTS |
---|---|---|---|
1 | CPU 1 thread | 0.5 | 1.9 |
1 | CPU 2 threads | 0.3 | 3.0 |
1 | CPU 4 threads | 0.2 | 4.2 |
4 | CPU 1 thread | 0.4 | 2.8 |
4 | CPU 1 threads | 0.2 | 4.4 |
4 | CPU 4 threads | 0.1 | 6.6 |
— | ———— | — | — |
1 | GPU | 0.06 | 17.5 |
4 | GPU | 0.02 | 55.0 |
8 | GPU | 0.01 | 92.1 |
16 | GPU | 0.007 | 147.7 |
32 | GPU | 0.004 | 227.5 |
— | ———— | — | — |
Также при расчетах скорости мы были удивлены ряду вещей:
- Процессоры AMD показали себя сильно хуже;
- Удивительно, но бутылочным горлышком в нашем случае оказался именно такотрон а не вокодер (еще остается существенный потенциал ускорения всей системы в 3-4 раза, а может даже и в 10 раз, если получится квантизация и дополнительное сжатие);
- Более чем 4 потока CPU не помогают, равно как и батч больше 4;
LennarDigital — Sylenth1 2.2.1.2 [2013, Аналоговый синтезатор]
Год выпуска: 2013Жанр: Аналоговый синтезаторРазработчик: LennarDigitalСайт разработчика: LennarDigitalЯзык интерфейса: АнглийскийТип сборки: StandardРазрядность: 32/64-bitОперационная система: Windows 2000, XP, Vista, 7Системные требования: — Any CPU that supports SSE (Intel Pentium III and above, AMD XP and above, All Intel Macs but no PPC) — 128MB RAM — VSTi or AU compatible host software Описание: Sylenth1 — виртуальный аналоговый VSTi синтезатор, который выносит определения качества и производительности на новый уровень. До этого момента, не многие программные синтезаторы могли со …
Синтез речи от Google
Жанр | Инструменты |
---|---|
Рейтинг | 4,1 |
Установки | 1 000 000 000–5 000 000 000 |
Разработчик | Google LLC |
Русский язык | есть |
Оценок | 1 107 289 |
Версия | 3.14.9 |
Размер apk | 14.7 MB |
Наиболее популярная и доступная TTS-утилита, совместимая со многими Андроид-девайсами. С помощью программы вы можете озвучивать текст на экране, а также выполнять ряд важных функций:
- Озвучивать книги приложения Google Play Книги.
- Переводить и озвучивать слова из Google Переводчика.
- Включать голосовые подсказки при помощи сервиса TalkBack.
Активировать приложение Синтез речи от Google можно прямо на своем девайсе. Для этого откройте пункт меню «Настройки», где зайдите в подраздел «Язык и методы ввода», а там – «Синтез речи». Выберите систему синтеза речи от Google, после чего приложение активируется автоматически.
Программа поддерживает более 40 языков, среди которых английский, русский, французский, немецкий, японский, испанский, датский, хинди и много других. В последней версии утилиты добавлено 3 новые языка – румынский, эстонский и словацкий, а также улучшено качество голоса в целом.
Устаревший голосовой движок для Балаболки L&H
Особого внимания заслуживают речевые продукты обанкротившейся в 2001 году компании Lernout&Hauspie. Сразу после ареста основателей Jo Lernout и Pol Hauspie и последующего банкротства L&H компания Nuance Communications (известная как ScanSoft) приобрела все принадлежащие L&H речевые технологии. До сих пор в Интернете можно найти и скачать русские голоса для Балаболки Boris и Svetlana Russian (L&H), а то и скачать Балаболку с русским голосом L&H в портейбл версии. Русские голоса Boris и Svetlana Russian, основанные на устаревшем стандарте SAPI 4, читают тексты на русском языке вполне прилично, но по критериям конца прошлого века. Сегодня технологии распознавания и синтеза человеческой речи ушли далеко вперед.