Google, DeepMind, WaveNet, AI, text-to-speech, TTS, синтезатор речи, синтезатор голоса

Пока вы сидите и в ус не дуете, "корпорация зла" Google, точнее, её подразделение DeepMind (занимается исследованием ИИ) работает над синтезатором речи WaveNet. Главная цель - создать систему, способную читать текст вслух голосом, неотличимым от человеческого.

Суть проблемы в том, что существующие синтезаторы звучат ужасно неубедительно и неправдоподобно из-за того, что человеческий мозг с раннего детства привыкает к человеческой манере общения, произношению слов и фраз. Возможно вы этого не знаете (или никогда не обращали на это внимания), но у каждого слова, произнесённого на родном языке, есть характерная средняя продолжительность. А машины либо тараторят их слишком быстро, либо наоборот, произносят слишком медленно. В результате вы безошибочно определите, что сказал человек, а что безвольный робот.

Google, DeepMind, WaveNet, AI, text-to-speech, TTS, синтезатор речи, синтезатор голоса
Google, DeepMind, WaveNet, AI, text-to-speech, TTS, синтезатор речи, синтезатор голоса

В Google давно загорелись идеей создать реалистичный синтезатор голоса, но всё упиралось в необходимость расчёта огромного количества данных в процессе генерации акустических волн. Кроме того, это должен быть очень плавный и последовательный процесс, без "разрывов" и пауз. Но в DeepMind нашли промежуточное решение благодаря использованию нейросети. Специалисты на протяжении многих месяцев "скармливали" ИИ записи человеческих фраз и музыку, чтобы он научился генерировать схожие акустические волны. И добились частичных успехов - WaveNet звучит действительно реалистичнее и живее своих коллег.

Важно понимать, что это только начало и впереди у DeepMind полно работы. Но результаты и правда поражают. Пройдёт всего несколько лет и вы уже не сможете понять, общается ли с вами по телефону робот или живой человек.

Post a Comment

Модерации нет, но весь трэш буду выжигать лазерами из глаз Супермена

Новые Старые