Як глибоке навчання змінило голос Siri

Siri - голосовий асистент, який вперше був представлений в 2011 році разом з iOS 5. Зрозуміло, з тих пір він серйозно розвивався: навчився говорити на різних мовах (в тому числі і російською), прийшов на комп'ютери Mac, навчився взаємодіяти з програмами від сторонніх розробників і т.д., але якісний стрибок він зробив тільки з анонсом iOS 10 - тепер його голос заснований на глибокому навчанні, що дозволяє йому звучати більш природно і плавно. Що таке глибоке навчання і як синтезується голос Siri - про це ми і поговоримо в цій статті.
Вступ

Синтез мови - штучне відтворення людської мови - широко використовується в різних областях, від голосових помічників до ігор. Нещодавно, в поєднанні з розпізнаванням мови, синтез мови став невід'ємною частиною віртуальних персональних помічників, таких як Сірі.

Існують дві технології синтезу мови, що використовуються в звукової індустрії: вибір звукових одиниць і параметричний синтез. Синтез вибору одиниць забезпечує найвищу якість при достатній кількості високоякісних мовних записів, і, таким чином, це найбільш широко використовуваний метод синтезу мови в комерційних продуктах. З іншого боку, параметричний синтез забезпечує дуже зрозумілу і плавну мова, але має більш низьке загальну якість. Сучасні системи вибору звукових одиниць об'єднують деякі переваги двох підходів, і тому вони називаються гібридними системами. Методи вибору гібридних одиниць аналогічні методам класичної селекції одиниць, але вони використовують параметричний підхід для прогнозування того, які звукові одиниці повинні бути обрані.

Останнім часом глибоке навчання набирає обертів в області мовних технологій, і в значній мірі перевершує традиційні методи, такі як приховані марковские моделі (СММ), в принципі роботи яких лежить розгадування невідомих параметрів на основі спостережуваних, при цьому отримані параметри можуть бути використані в подальшому аналізі, наприклад, для розпізнавання образів. Глибоке навчання забезпечило повністю новий підхід до синтезу мови, який називається пряме моделювання форми хвилі. Він може забезпечити як високу якість синтезу вибору одиниць, так і гнучкість параметричного синтезу. Однак, з огляду на його надзвичайно високі обчислювальні витрати, реалізувати його на призначених для користувача пристроях поки не вийде.

Як працює синтез мовлення

Створення високоякісної системи перетворення тексту в мову (TTS) для персонального помічника - непросте завдання. Перший етап - знайти професійний голос, звучання якого буде приємним, разбочівим і відповідним особистості Сири. Щоб охопити деякі варіації з величезного розмаїття людської мови потрібно записати 10-20 годин мовлення у професійній студії. Сценарії записи варіюються від аудіокниг до інструкцій по навігації, і від підказок до відповідей на дотепні жарти. Як правило, ця природна мова не може бути застосована в голосовому помічнику, тому що неможливо записати всі можливі висловлювання, якими може говорити помічник. Таким чином, вибір звукових одиниць в TTS заснований на розрізанні записаної мови на її елементарні компоненти, такі як фонеми, а потім їх рекомбінації залежно від типу вхідного текстом для створення абсолютно нової мови. На практиці, вибір відповідних сегментів мови і об'єднання їх один з одним непросте завдання, оскільки акустичні характеристики кожної фонеми залежать від сусідніх і інтонації мови, що часто робить мовні одиниці несумісними один з одним. На малюнку нижче показано, як мова може бути синтезована з використанням мовної бази даних, розділеної на фонеми:

У верхній частині малюнка показано синтезоване висловлювання «Синтез вибору одиниць» і його фонетична транскрипція з використанням фонем. Відповідний синтетичний сигнал і його спектрограмма показані нижче. Мовні сегменти, розділені лініями, є безперервними сегментами мови з бази даних, які можуть містити одну або кілька фонем.

Основна проблема вибору звукових одиниць в TTS полягає в тому, щоб знайти послідовність одиниць (наприклад, фонем), які задовольняють вхідного тексту і передбаченою інтонації, за умови, що вони можуть бути об'єднані разом без чутних збоїв. Традиційно процес складається з двох частин: front-end і back-end (вхідні та вихідні дані), хоча в сучасних системах межа іноді може бути неоднозначною. Метою front-end є надання фонетичної транскрипції та інформації про інтонації на основі вихідного тексту. Сюди ж включається і нормалізація вихідного тексту, який може містити числа, скорочення і т.д .:

Використовуючи символьне лінгвістичне подання, створене модулем текстового аналізу, модуль генерації інтонації пророкує значення для акустичних характеристик, таких як, наприклад, тривалість фрази й інтонації. Ці значення використовуються для вибору відповідних звукових одиниць. Завдання вибору одиниці має високу складність, тому сучасні синтезатори використовують методи машинного навчання, які можуть вивчити відповідність між текстом і мовою, а потім передбачити значення мовних функцій з значень підтексту. Ця модель повинна бути вивчена на етапі навчання синтезатора з використанням великої кількості текстових і мовних даних. Вхідні дані для цієї моделі - це числові лінгвістичні функції, такі як ідентифікація фонеми, слова або фрази, перетворені в зручну чисельну форму. Вихідний сигнал моделі складається з числових акустичних характеристик мови, таких як спектр, основна частота і тривалість фрази. Під час синтезу навчається статистична модель використовується для зіставлення вхідних текстових функцій з мовними функціями, які потім використовуються для управління бекенда-процесом вибору звукової одиниці, де важливі відповідні інтонації і тривалість.

На відміну від front-end, бекенда в основному не залежить від мови. Він складається з вибору потрібних звукових одиниць і їх конкатенації (тобто склеювання) в фразу. Коли система навчається, записані мовні дані сегментируются в окремі мовні сегменти, використовуючи примусове вирівнювання між записаної промовою і сценарієм зйомки (з акустичних моделей розпізнавання мови). Потім сегментована мова використовується для створення бази даних звукових одиниць. База даних додатково поповнюється важливою інформацією, такий як лінгвістичний контекст і акустичні характеристики кожної одиниці. Використовуючи побудовану базу даних пристрою і передбачені інтонаційні функції, які визначають процес вибору, виконується пошук Вітербо (вгорі - цільові фонеми, нижче - можливі звукові блоки, червона лінія - найкраще їх поєднання):

Вибір заснований на двох критеріях: по-перше, звукові одиниці повинні мати одну (цільову) інтонацію, і, по-друге, одиниці повинні бути, по можливості, об'єднані без чутних збоїв на кордонах. Ці два критерії називаються відповідно цільовими і конкатенаціоннимі витратами. Цільова вартість - це різниця між прогнозованими цільовими акустичними характеристиками і акустичними характеристиками, вилучаються з кожного блоку, тоді як вартість конкатенації є акустичну різницю між наступними одиницями:

Після визначення оптимальної послідовності одиниць окремі звукові сигнали конкатенуються для створення безперервної синтетичної мови.

Технології, які стоять за новим голосом Сірі

Приховані марковские моделі (СММ) зазвичай використовуються в якості статистичної моделі для цільових прогнозів, оскільки вони безпосередньо моделюють розподілу акустичних параметрів, і, таким чином, їх можна легко використовувати для обчислення цільової вартості. Проте, підходи, засновані на глибокому навчанні, часто перевершують СММ в синтезі параметричної мови.

Метою системи TTS Сірі є підготовка єдиної моделі, заснованої на глибокому навчанні, яка може автоматично і точно прогнозувати як цільові, так і конкатенаціонние витрати для звукових одиниць в базі даних. Таким чином, замість СММ використовує суміш щільності мережі (СПС, mixture density network) для прогнозування розподілів за певними ознаками. СПС об'єднують звичайні глибокі нейронні мережі (ДПС) з гауссовский моделями.

Звичайний ДПС є штучну нейронну мережу з кількома прихованими шарами нейронів між вхідним і вихідним рівнями. Таким чином, ДПС може моделювати складну і нелінійну залежність між вхідними і вихідними характеристиками. Навпаки, СММ моделює розподіл ймовірностей вихідних даних з урахуванням вхідних даних з використанням набору гауссових розподілів, і зазвичай навчається з використанням методу максимізації очікування. СПС поєднує переваги ДПС і СММ, використовуючи ДПС для моделювання складної взаємозв'язку між вхідними та вихідними даними, але забезпечуючи розподіл ймовірностей на виході:

Для Siri використовується уніфікована цільова і конкатенаціонная моделі на основі УПС, які можуть прогнозувати розподіл як цільових характеристик мовлення (спектра, висоти тону і тривалості), так і вартості конкатенації між звуковими одиницями. Іноді мовні особливості, такі як афікси, досить стабільні і розвиваються повільно - наприклад, в разі голосних. В іншому місці мова може змінюватися досить швидко - наприклад, при переході між озвученими і невокалізованнимі звуками мови. Щоб враховувати цю мінливість, модель повинна мати можливість коригувати свої параметри відповідно до вищезгаданої мінливістю. СПС робить це використовуючи відхилення, вбудовані в модель. Це важливо для поліпшення якості синтезу, оскільки ми хочемо розрахувати цільові і конкатенаціонние витрати, характерні для поточного контексту.

Після підрахунку одиниць на основі загальної вартості з використанням СПЗ виконується традиційний пошук по Вітербо, щоб знайти найкраще поєднання звукових одиниць. Потім вони об'єднуються з використанням методу збігу з перекриттям форми хвилі, щоб знайти оптимальні моменти часу конкатенації для створення плавного і безперервного синтетичної мови.

підсумки

Для використання СПС в Сірі було записано як мінімум 15 годин високоякісних мовних записів на частоті 48 кГц. Мова була розділена на фонеми з використанням примусового вирівнювання, тобто було застосовано автоматичне розпізнавання мови, щоб вирівняти вхідні звукову послідовність з акустичними характеристиками, витягнутими з мовного сигналу. Цей процес сегментації привів до створення приблизно 1-2 мільйонів фонем.

Щоб провести процес відбору звукових одиниць на основі УПС була створена єдина цільова і конкатенаціонная моделі. Вхідні дані для СПС складаються в основному з довічних значень з деякими додатковими функціями, які представляють собою інформацію про контекст (по дві попередніх і наступних фонеми).

Якість нової системи TTS Сірі перевершує попередню - це підтверджують численні тести на зображенні нижче (цікаво, що найкраще оцінили як раз новий російський голос Сірі):

Кращу якість звуку пов'язано як раз з базою даних на основі УПС - це забезпечує кращий вибір і конкатенацію звукових блоків, більш високу частоту дискретизації (22 кГц проти 48 кГц) і поліпшене стиснення звуку.

Прочитати оригінал статті (потрібне гарне знання англійської та фізики), а також послухати, як змінювався голос Сірі в iOS 9, 10 і 11, можна тут .

Статьи

Як глибоке навчання змінило голос Siri

Новости