Lyrebird — речевой синтезатор на основе искусственного интеллекта, который способен воспроизвести любой голос

1af2236804fb2a6ae7f15efd3dabde8f

Вoспрoизвeдeниe чeлoвeчeскoгo гoлoсa, сo всeми eгo тeмбрaми, интoнaциями и прoчими нюaнсaми, являeтся исключитeльнo труднoй зaдaчeй дaжe интересах сoврeмeнныx мoщныx кoмпьютeрoв. Кoгдa мы слышим речь таких программ, равно Siri, Alexa или GPS-навигатора, сразу становится ясно, что с нами говорит орудие. Это происходит из-за того, что большинство систем синтеза речи основываются получай библиотеках записанных ранее слов и фраз. И в результате работы таких систем из чего явствует скучная «механическая» речь, состоящая из часто повторяющихся выражений. Достаточно сильным медленный к улучшению качества работы синтезаторов речи может стать использование в них принципов искусственного интеллекта. Сие весьма наглядно продемонстрировала компании Lyrebird из Монреаля, разработавшая новый речевой компоновщик, способный воспроизвести голос любого человека и даже добавить ему соответствующую эмоциональную окраску.

Самым интересным является так, что для обучения голосу какого-либо человека системе Lyrebird приходится всего несколько десятков секунд аудиозаписей. И в качестве примера работы системы вы можете послушать приведенные далее аудиоролики, на которых система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и Хиллари Клинтон. Такое точное копировка особенностей голоса конкретного человека стало возможным благодаря использованию искусственных нейронных сетей, которые работают так же естественным биологическим нейронным сетям мозга человека. По сути, алгоритм нейронной бредень учится опознавать особенности речи конкретного человека, а затем эти же талант используются для синтеза искусственного голоса.

«Мы обучили нашу программу сверху огромном наборе аудиоданных фрагментов выступлений тысяч различных людей» — рассказывает Хосе Сотело (Jose Sotelo), ведущий исследователь, — «Полученная информация сжимается накануне вида компактного цифрового ключа, своего рода «голосовой ДНК». И на основе сего ключа система может воспроизводить любые слова и предложения, даже те, которые отнюдь не были задействованы в процессе ее обучения».

В настоящее время работа системы Lyrebird снова очень далека от идеала, в воспроизводимой речи присутствуют «цифровые артефакты», имеются проблемы с разборчивостью и другие другие странности, которые иногда ставят под сомнение то, кому именно подражает безотложно синтезатор. Тем не менее, все это работает сейчас в режиме реального времени, требует интересах обучения совсем небольшого количества исходных данных и, после соответствующих доработок, может превратиться с самый высококачественный речевой синтезатор на сегодняшний день.

Само собой разумеется, что наличность столь совершенного речевого синтезатора является источником ряда проблем этического плана и проблем с безопасностью. Если бы система позволит воспроизводить голос человека с точностью, не позволяющей отличить сие от оригинала, то откроется широкое поле деятельности для недобросовестных людей, которые смогут принуждать политических деятелей и других известных личностей. А хакеры смогут использовать такой формирователь для обхода систем защиты, в которых используется технология голосовой идентификации.

Представители компании Lyrebird считают, что же, благодаря появлению нового речевого синтезатора время, когда можно было бесспорно доверять различным аудиозаписям, заканчивается, как в свое время с появлением Фотошопа запрещается стало доверять снимкам, демонстрируемым нам с экрана компьютера. «Мы понимаем, зачем вследствие высокого уровня развития современных технологий такой речевой синтезатор появился бы получай свет рано или поздно» — пишут представители компании Lyrebird, — «Про исключения возможности злонамеренного использования речевого синтеза мы решили обнародовать все детали разработанной нами технологии. И да мы с тобой призываем начать постепенный отказ от принятия в качестве доказательств различных аудиозаписей, полученных, в первую очередность, из сомнительных источников».

Но, не стоит отчаиваться. Даже при идеальном воспроизведении голоса человека остается малую толику возможностей отличить фальшивую аудиозапись от оригинала. Существует множество аспектов, таких, по образу отсутствие фоновых шумом, несоответствующие или искусственно введенные фоновые шумы, присутствие фальшивого «акустического пространства» и многое другое, какими судьбами можно выделить из аудиозаписи и по чем можно судить о ее достоверности. К сожалению, ёбаный анализ возможен сейчас только при наличии специального оборудования, имеющегося километров не везде. Но, с учетом темпов развития современной вычислительной техники, с подобной задачей в недалеком будущем сможет справиться и обычный маршрутизатор, снабженный специализированным программным обеспечением.