В казахстанском медиапространстве телеканал Atameken Business можно назвать пионером по внедрению цифровых технологий, основанных на искусственном интеллекте. Уже три года в прямом эфире "работает" I-Sanj – первый виртуальный ведущий в Казахстане. Это роботизированный двойник известного актера Санжара Мади. Однако уже сегодня, 7 марта, на телеканале появится очередная цифровая новинка – первая виртуальная ведущая на казахском языке – i-Sana, передает inbusiness.kz.
Как подчеркивает глава медиахолдинга Канат Сахария, телеканал стремится идти в ногу с требованиями времени и технологий.
"Нам интересно все новое, то, что будоражит воображение. Медиаиндустрия стремительно видоизменяется, поэтому мы также должны меняться и расти. Для нас принципиальный вопрос в данном проекте – это развитие казахского языка. Очень важно интегрировать казахский язык в мировые технологические процессы и системы. Развитию казахского языка в этом направлении большое внимание уделяется нашими стейкхолдерами. Здесь хочу особо отметить, что с первых дней работы телеканал Atameken Business и сайт inbusiness.kz вещают на двух языках. При этом казахская редакция не является калькой программ и статей на русском языке – это полноценные редакции профессиональных журналистов со своим пулом экспертов. Мы надеемся, что наш новый продукт на родном языке – виртуальный ведущий придется по душе казахоязычной аудитории", - сказал Канат Сахария.
Реальным прототипом новой виртуальной ведущей стала журналист, телеведущая, обладатель Гран-при "Қазақ аруы" Сания Темирхан.
Если говорить о технической стороне вопроса, то разработка велась на языке программирования Python. Над созданием виртуальной ведущей работали Александр Серов и Вячеслав Бублик. Они поделились основными тонкостями процесса.
Для работы с моделями машинного обучения разработчики применяли широко распространенный фрэймворк PyTorch. Для покадрового преобразования видео разработчики использовали модель машинного обучения wav2lip. Как это работает?
Wav2lip состоит из нескольких моделей: экспертная модель, генератор изображений по аудио, дискриминатор визуального качества изображения. Для преобразования голоса использовали софт AutoVC, который конфигурировали для повышения качества. Для синтеза речи использовали Tacotron 2 – это нейросеть по генерации речи из голоса.
Уникальность проекта заключается в том, что разработчики создали максимально приближенный вариант ведущего к реальному человеку, вплоть до артикуляции, мимики, и синтезировали казахскую речь.
Отдельно стоит остановиться на работе лица казахоязычной виртуальной ведущей. Сначала разработчики должны научить экспертную модель определять, соответствуют ли друг другу фрагмент аудио (речь) и видео (лицо). На этом шаге очень важно аккуратно подготовить входные данные: определять расположение лица в кадре, убрать посторонний шум из аудио, обеспечить синхронизацию. Далее следуют этапы машинного обучения.
На следующем же шаге разработчики учат генератор создавать на основе аудио изображение, которое удовлетворит экспертную модель по соответствию аудио, а также удовлетворит дискриминатор по качеству изображения.
Далее по важности следует работа с голосом. Основная сложность в работе с голосом заключается в том, чтобы извлечь из речи слова и отсечь при этом индивидуальные характеристики речи. Затем на основе извлеченного контента восстановить речь, только уже с другими индивидуальными характеристиками речи. Новый синтезированный голос может озвучить информацию любой сложности, ясно и выразительно, насколько это возможно в условиях работы искусственного интеллекта.
Напомним, в прямом эфире виртуальную ведущую можно будет увидеть уже сегодня, 7 марта.
Читайте по теме:
В продукты Microsoft будет интегрирован казахский язык
В Астане откроют бесплатные курсы казахского языка для взрослых
Губка Боб на казахском языке появится в эфире в 2023 году