Respeecher – це український стартап, який співпрацює із замовниками рівня Disney і його всесвітом «Зоряних війн» з офісу на Лук’янівці. Редактор The Village Україна Ярослав Друзюк відвідав команду в київському офісі та розпитав співзасновника Respeecher Олександра Сердюка про роботу на голлівудські студії під час повномасштабної війни та найбільш відомі голоси далекої галактики.

Обкладинка: Respeecher

Цей матеріал підготували за підтримки наших читачів

Олександр Сердюк


співзасновник Respeecher

24 лютого, у перший день повномасштабного вторгнення росії в Україну, велика голлівудська студія отримала пакет даних від української команди Respeecher. Роботу над знаковим проєктом для великого стримінгового сервісу не зупинила навіть війна.

Передавали дані з бомбосховища: це зробив фахівець зі звуку, який встиг заздалегідь виїхати у Львів, розповідає співзасновник і виконавчий директор Respeecher Олександр Сердюк. «Нашим завданням було зробити так, щоб робота над проєктами та комунікація з клієнтами не зупинилися за будь-яких умов. Щоб у нас завжди була можливість працювати, завжди був інтернет, щоб люди були в різних місцях і точках», – каже Сердюк.

Випускник Київського національного університету Сердюк заснував Respeecher у 2018 році разом із партнерами Дмитром Бєлєвцовим і Грантом Рібером. За цей час стартап встиг розробити технологію конвертації звуку, яка запропонувала принципово новий підхід до синтетичного звуку, і використати її для роботи над понад 50 проєктами, серед яких перші серіали у всесвіті «Зоряних війн» «Мандалорець» і «Книга Боби Фетта». «Respeecher працює вже більше 4 років, ще до цього була основа команди й технологія вже років 7–8. І весь цей час у нашій країні війна», – каже Сердюк.

З огляду на це у 2022 році Respeecher готувався до всіх можливих сценаріїв розвитку подій. CEO Сердюк розповідає, що в компанії були відпрацьовані плани в разі нової ескалації у війні. Частину команди запросили тимчасово переїхати в межах країни: за два-три тижні до 24 лютого значна частина колективу перебувала у Львові, ще частина протягом перших трьох місяців повномасштабного вторгнення рф і нападу на Київ була в столиці. «У нас була досить активна міграція: узагалі в команді 28 українців, в Україні з них зараз 24. У Києві, здається, людей 12 уже», – уточнюють у Respeecher.

Відео Respeecher

Перегрупування дозволило продовжити роботу й забезпечити безперервність процесів, розповідає Сердюк під час розмови в київському офісі команди на останньому поверсі житлового будинку. Запитую, чи не здається йому це сюрреалістичним: українська команда розробляє круту інноваційну технологію, яка може принципово змінити цілі індустрії, але водночас її країні доводиться оборонятися від ворога, який веде війну в 21 столітті середньовічними методами.

За реакцією помітно, що Сердюк втомився від того, що хтось дивується розробленню таких технологій в Україні. «Україна вже давно є хабом крутих технологій і стартапів, – відповідає виконавчий директор Respeecher. – На заході це вже розуміють завдяки серйозній роботі нашої стартап-спільноти. Ring, Grammarly, People.AI, MacPaw, Ajax Systems – можна пригадати багато проєктів, цей список дуже великий». Після паузи додає: «Наприклад, українські звукачі – це топрівень. Думаю, нам як суспільству треба переглянути комплекс меншовартості, бо це щось, нав’язане ззовні. Цього об’єктивно не має бути, бо ми підтверджуємо, що круті. Ми показали це після повномасштабного вторгнення, коли весь народ, усі 44 мільйони об’єдналися як один».

Олександр Сердюк в офісі Respeecher

Як це – «омолодити» Люка Скайвокера?

Наприкінці травня Disney випустили серіал «Обі-Ван Кенобі», присвячений одному з найвідоміших персонажів всесвіту «Зоряних війн». Окрім Юена Макгрегора в головній ролі, який зіграв джедая Кенобі вперше за майже 20 років, у серіалі відбулося ще одне повернення чи не головного антигероя сучасної попкультури Дарта Вейдера. В оригінальній трилогії роль Вейдера виконував Девід Проуз, але найбільше він запам’ятався завдяки голосу, який йому подарував Джеймс Ерл Джонс, також відомий як Муфаса в мультфільмі «Король лев». Джонс, який цьогоріч відсвяткував 91-й день народження, вказаний у титрах третього епізоду «Обі-Вана Кенобі», але водночас у титрах зафіксували й внесок української компанії Respeecher.

Відео про зйомки «Мандалорця»

Це не перша співпраця Respeecher із Lucasfilm і Disney. Чи не найбільш відомим проєктом компанії є серіал «Мандалорець» у всесвіті «Зоряних війн», для якого київська команда розробила голос Люка Скайвокера – центрального персонажа далекої-далекої галактики. Respeecher створив синтезований голос для молодої версії героя Марка Хемілла, щоб відтворити мовлення актора з оригінальних «Зоряних війн» 1977 року. Поява Хемілла в «Мандалорці» стала головною несподіванкою першого сезону, але сам актор не з’являвся на майданчику й не озвучував героя. Respeecher синтезували його голос, використавши великий масив архівних записів і власну технологію на основі штучного інтелекту.

Команда Respeecher

Чи був цей підхід використаний і з Дартом Вейдером в «Обі-Ван Кенобі»? Олександр Сердюк не може коментувати деталі роботи над проєктом через угоду про нерозголошення, для цього він просить дочекатися виходу всіх шести епізодів серіалу та документального фільму, який готують про проєкт. Утім, я все-таки мушу запитати про Дарта Вейдера, адже йдеться про одного з найвідоміших кіноперсонажів і чи не найбільш упізнаваний кіноголос. 

 Слухай, я не сказав нічого про персонажа, – відповідає з усмішкою Сердюк. – Я й не підтверджував, і не спростовував.

– Гаразд, давай я зроблю ще одну спробу. У випадку з «Обі-Ван Кенобі» була проблема: Джеймс Ерл Джонс, який озвучував Дарта Вейдера в оригінальній трилогії, найімовірніше, не мав змоги озвучити його в новому серіалі, тому ви запропонували опцію, як це питання можна вирішити.

– Ні слова не скажу. [сміється] Буде більше інформації, коли вийдуть усі серії. Але скажу, що зазвичай студії, з якими ми працюємо, самі пропонують нам проєкти, а не ми їм. Вони розуміють, що за допомогою нашої технології можна вирішити проблему, яку вони мають. І ми працюємо над їх вирішенням.

– Я розумію, яка у вас відповідальність за NDA й не ставив би це запитання, але ви все-таки вказані в титрах. Розкажи загалом про відповідальність у роботі з таким проєктом.

– Вона величезна. [сміється] З одного боку, це важко: це те, що може давати не спати вночі, бо тут не можна фейлити. З іншого боку, це дуже круто. Уяви звукача, який працював в Україні над локальними проєктами, а тоді починає працювати в Respeecher, і до нього залітають настільки знакові голоси.

Це круто, це дуже високий рівень відповідальності, і за угодами про нерозголошення також.

 За NDA, ми ані слова не могли сказати про Люка Скайвокера, бо це могло все зламати. І ніхто не сказав. І ми вже частина цієї історії, це дуже важливо для нас.

Відео ABC News, присвячене голосу актора Джеймса Ерла Джонса

– Ти не рахував, скільки NDA ви загалом підписали за ці роки?

– Та майже з кожним клієнтом підписуємо NDA з самого початку. Щоб почати працювати, нам треба послухати дані й почати їх вивчати, іноді навіть почитати сценарій фільму. Це дуже закрита інформація, тому такі угоди є завжди.

– Жорсткі NDA – це тільки про бізнес і контроль наративу чи й про те, що великі студії досі не впевнені, як великі аудиторії будуть сприймати факт використання вашої технології?

– Це кльове запитання. Передусім це про те, як вони роблять бізнес. Великим студіям, які ведуть проєкти з величезними бюджетами, потрібен контроль над інформацією про проєкти. Інформація – для них золото. І наша позиція: ми за publicity rights, як тільки можемо.

Але так, можливо, існує певний острах, що аудиторія може сприйняти якось не так, як вони очікують. Хоча я не можу сказати, що він є протягом останніх двох років.

– Окей, ти точно більше можеш розповісти про роботу над голосом Люка Скайвокера у «Мандалорці». Я правильно розумію: ви взагалі не використовували нові записи Марка Хемілла, так? Для цього стали в пригоді записи його голосу з 1970-х і 1980-х, а тоді ви наклали їх на вашу модель?

– [На роботі в таких проєктах] ми маємо можливість бути дуже близькими до історичної частини медіакультури. Працюючи з голосом Люка, ти працюєш із великою частиною історії. Навіть сам Марк Хемілл сказав, що він бачив, як дорослі люди через це плакали. Люди, які були із «Зоряними війнами» протягом усього життя, упродовж 30–40 років. Їх просто взяли й повернули в часи, коли вони тільки починали дивитися «Зоряні війни», коли вони тільки почули цей голос. І це дуже надихає.

Так, виклик із Хеміллом полягав у тому, що дані [з його голосом] були досить старі, до того ж їх записували в різних умовах. Частину даних зняли з плівки, там були свої [артефакти].

Тому так, у таких випадках із даними ще треба погратися: підготувати їх, зробити моделі, що будуть реагувати на них найкращим способом. Наприклад, записам Хемілла дуже багато років, й умови запису тоді були зовсім інші. Наша модель заточена на те, щоб максимально якісно відтворити те, що вона чує в записах на таргет-голос. Щоб це відтворити, вона ніби формує умови запису, які були тоді. І цей звук буде досить важко вставити в новітні продакшени, він буде звучати по-іншому. Тож у таких проєктах завжди є челендж – зробити модель такою, щоб усе звучало так, ніби записане вчора.

Трейлер серіалу «Книга Боби Фетта»

– Цікаво, що спочатку здебільшого обговорювали те, як «омолодили» Люка, а тоді [шоуранер «Мандалорця»] Джон Фавро сказав, що ніхто не помітив, що «омолодили» не лише зовнішній вигляд, а й голос. Ти стежив за реакцією фанатів після того, як оголосили, що голос Хемілла був синтезований?

– Це було цікаво, бо була велика маса фанатських коментарів, але ми мали мовчати, Disney також мовчав з приводу голосу. З одного боку, це трохи дратувало, з іншого, до того, як вони розповіли про те, як саме зробили голос молодого Люка, ніхто не мав претензій до голосу. [сміється]

Тому в нашому випадку відповідальність іде поряд із дуже крутими можливостями. Крім того, ти працюєш з однією з найкращих голлівудських студій Skywalker Sound. Це унікальні люди. Я був на цій студії кілька років тому, це неймовірний рівень. 

 Ти бачиш, де це все створюється, як це створюється і якими людьми. І розумієш, що маєш можливість в цих людей навчитися, дати можливість професіоналам з індустрії в Україні навчитися.

ОК, а як узагалі працює Respeecher?


Як й у випадку з багатьма сервісами, які використовують штучний інтелект, у компанії є окремий виклик із тим, щоб пояснювати, як саме працює технологія. Якщо пояснювати максимально просто, то створити «штучний» голос за допомогою нейромереж можна двома основними способами: Text to Speech і Speech to Speech. У першому випадку можна натренувати ШІ озвучувати голос за запропонованим текстом. У другому – використовувати як основу не текст, а інший запис.

Відео Respeecher

Respeecher працює саме за другою системою: наприклад, у випадку із голосом Марка Хемілла команда спочатку опрацьовувала великий обсяг записів голосу актора, тоді отримувала від клієнта нові фрази які треба конвертувати у цільовий голос, а тоді за допомогою своєї технології синтезувала ці дві частини. У такий спосіб у «Мандалорці» звучав абсолютно новий текст, але з усіма особливостями мовлення саме Хемілла зразка 1977 року. Такого ефекту не вдалося б досягнути, якби використовували систему Text to Speech, каже Олександр Сердюк: голос був би роботизованим і неприродним, також система не могла б сприймати терміни та власні назви із «Зоряних війн».

– Я чому запитував про реакцію фанатів на Люка Скайвокера в «Мандалорці», бо реакція у фанспільноті та навіть реакція у великих технологічних медіа доводить, що ваша технологія досі настільки нова, що люди не розуміють, як це працює. Наскільки великий для вас виклик пояснювати, що ви робите?

– Він величезний, дуже значний для нас від початку. У людей, у їхньому світосприйнятті є така особливість: вони бояться того, чого не розуміють. Це нормально, ми так захищаємо себе від навколишнього світу.

 Люди думають, що, якщо можна якісно відтворити голос, то це системно змінить світ: «Це страшно, технологія буде в поганих руках, вона наведе багато безладу в цьому світі». Це не зовсім так.

Насправді це нейтральний інструмент, який можна використовувати і для чогось, що ми вважаємо добрим, і для чогось, що вважають поганим. І це не виняток, бо синтетичні медіа існують уже досить багато років.

– Мабуть, найбільш показовий приклад із Photoshop.

– Так, спочатку всі боялися Photoshop, боялися, що всіма зображеннями в інтернеті будуть маніпулювати, їх будуть використовуватися тільки для порно. [сміється] Але вийшло все не так.

– Я хотів би детальніше поговорити про безпеку й ваші запобіжники трохи пізніше, але тут же насправді йдеться не тільки про нецільове використання, а й про те, що поки немає масового усвідомлення, як саме працює ця технологія.

– Тут теж є хибне уявлення: вважається, що штучний інтелект у зв’язку з синтезованими медіа можуть повністю замінити людей, повністю їх усунути. Наша технологія – це Speech to Speech (STS), і ми дуже відрізняємося від Text to Speech (TTS). І причина, чому ми відрізняємося, бо хотіли створити найкращий синтезований звук. І для того, щоб створити найкращий синтезований звук, потрібно було обійти холістичні проблеми системи TTS.

Це, наприклад, роботичність, бо система не знає, звідки брати емоції. Вона може вгадувати, може робити це більш-менш, робити озвучку сумною чи жвавою. Але й близько не має такого контролю, як звичайна людина зі своїм голосовим апаратом.

– Ти маєш на увазі те, що, за вашою моделлю, ви накладаєте запис голосу людини на модель, яку ви тренуєте з певною метою, так? Тобто для людей точно залишається робота.

– Різниця між TTS і STS, що йде на вхід. У TTS тільки текст, у STS голос, який має емоцію та голосові особливості виконавця. Цей голос ми змінюємо тільки за тембром, тобто наче перекладаємо це в інший голосовий апарат. Але вся емоція залишається.

Інша проблема TTS: він прив’язаний до словників, лінгвістичних моделей тощо, а наша мова складається не тільки зі слів. І це також важливо, бо, якщо ти хочеш сказати якийсь термін, наприклад із «Зоряних війн», його може не бути в словнику. Тому він не може це сказати. Або якщо це треба сказати іншою мовою, у якої слабка лінгвістична модель – і таких мов дуже багато, на жаль, поки серед них й українська – то не вийде.

– Ти розповідав, що для того, щоб натренувати вашу нейромережу, треба щонайменше година запису мовлення певної людини. Наскільки це тривалий процес загалом?

– Коли працюєш над такими проєктами, ідеться про ітеративність. Це не історія про те, що тобі дають якісь дані під конвертацію, ти відконвертував і надіслав. Це процес. Бо в таких проєктах зазвичай складні дані. Треба намагатися витиснути максимальну якість із наших моделей.

Ще в багатьох проєктах треба відповісти тому, що ми називаємо «творчі очікування»: коли клієнт каже, що хоче, щоб воно звучало саме так, як він уявляє. Тож ми просимо додаткові дані, повертаємося з новими драфтами, отримуємо фідбек. У проєктах, де це не одна-дві фрази, клієнт може надсилати дані ітеративно, різними пакетами: ось тут треба застосувати такий-то ефект, ось тут – інший. Тож великі студійні проєкти можуть тривати до шести місяців.

– І водночас багато залежить від того, як використовують ваш звук? Наприклад, студія, яка опрацьовує ваші дані для кінотеатральної версії фільму.

– Так, це все на студії. Ми даємо зазвичай сирий звук: тільки голос без постоброблення, із яким ще працюють звукові інженери. Це те саме, як вони запрошують актора в студію, той записує свій голос, а тоді цей звук міксують для фільму. Тож оброблення може бути досить серйозне, системне.

Команда найчастіше хвилюється за те, як наш звук буде звучати. Були кейси, коли виходить великий фільм із нашим звуком, і нам не до кінця подобається. Ми завжди чуємо проблеми, якщо вони є. Тому щоразу чекаємо, як вони його заміксують, як воно буде звучати, як зроблять постпродакшн.

Від кіно та попкультури до охорони здоров’я


У 2018 році станцію Київського метрополітену «Петрівка» перейменували на «Почайну», тоді ж вирішили змінити голос сповіщень, замінивши «голос метро Києва» Миколу Петренка, який помер у 2016-му. Команда Respeecher розробила з «Агентами змін» проєкт, який міг дозволити озвучити оголошення «Почайна» голосом Петренка, продовживши використовувати голос, яким Київський метрополітен «говорив» упродовж 27 років.

Проєкт Respeecher та «Агентів змін»

«Ми зробили так, щоб Микола Петренко сказав «Почайна», маючи дуже маленький обсяг матеріалу, тоді ще стару технологію й відсутність бюджету на проєкт. Але воно звучало. Можна й зараз зробити модель, щоб Петренко озвучував усі нові станції, навіть англійською мовою», – пригадує Олександр Сердюк. Утім, від цієї опції вирішили відмовитися, повністю переозвучивши сповіщення. «Дуже шкодую, що місто вирішило повністю переозвучити, бо це була частинка Києва», – додає виконавчий директор Respeecher.

Використання технології синтезу мовлення може мати безліч застосувань: почавши роботу зі співпраці з кіностудіями та рекламними агенціями, зараз Respeecher працює зі студіями дубляжу, а також індустріями на зразок медицини, допомагаючи зафіксувати чи відновити голоси людей, які мають проблеми зі здоров’ям. Окрім того, після повномасштабного вторгнення рф Respeecher запустили проєкт, у якому зірки заговорили українською мовою: приміром, за допомогою технології команди Мей Маск звернулася до українців без перекладу.

– Кіно, музика, реклама, кол-центри, локалізація – це величезна кількість сфер застосування вашої технології. Як ви працюєте з пріоритезацією?

– Це наш біль. Це завжди важко, бо цих напрямів використання технології від початку було багато, ми завжди мали фокусуватися на чомусь, але…

– Я правильно розумію: ви почали працювати з великими кіностудіями, тому що той же кейс із Люком Скайвокером зараз відчиняє вам будь-які двері? Чи тоді були інші причини?

– Дві причини, мабуть. Перша: ми хотіли зайняти нішу, яку побачили. Це був величезний технологічний челендж, але, зайнявши цю нішу, розуміли, що можемо конвертувати той факт, що ми state of the art speech synthesis technology [технологія синтезу мовлення як витвір мистецтва], в інші напрями. Тому ми поставили на це.

Але є й інші частини історії. Ми будуємо команду, команда – це основне в Respeecher. І такі історії, такі проєкти об’єднують людей, роблять їх позитивно налаштованими щодо продукту, який ми будуємо.

– Але як усе-таки обираєте пріоритети, коли можливих сфер застосування технології настільки багато?

– Так, це був виклик. Нам постійно казали: «Та робіть якісь простенькі голосові фільтри для Snapchat і TikTok, це закатить». І, можливо, це б закатило. Можливо, ми як бізнес показували б трошки іншу історію зараз. Але це не те, що нас заводило з самого початку.

– А що заводить команду? Це має бути якась амбітна історія?

– Заводить ідея зробити те, чого ніхто не робив раніше. Ідея загорнути якусь сиру технологію в продукт, який можуть використовувати. І можливість змінити кілька індустрій системно. А ця системна зміна індустрії вимагає зробити ставку на технологію, на це вікно можливостей. Створити технологію, спробувати побудувати на цьому бізнес. Ми її вже зробили, заекзек’ютили, зараз будуємо бізнес якраз.

Наприклад, у нас є напрям охорони здоров’я. Він тільки з’явився, але вже показує кльові результати. Ми просто взяли нашу технологію та спробували вирішити проблеми людей, які частково втратили голос через хвороби: наприклад, наслідки раку горла. Прогнали їхній голос через модель, і тепер вони звучать набагато краще. [Детальніше про проєкт – за посиланням.]

Ми співпрацюємо з 3–4 великими університетами Великої Британії та США, робимо випробування, цей продукт вимагає real time-технології, яку ми активно розвиваємо. Здається, 16–17 червня будуть великі конференції, після яких ми зможемо поділитися кейсами.

Відео з прототипом Respeecher

– У вас також був окремий кейс з актором з «Остіна Паверса».

– Так, ми працювали з Майклом Йорком: проблема полягала в тому, що потрібен був його голос, як він звучав 15 років тому, щоб продовжувати озвучувати та змінювати медичний контент про амілоїдоз – важке захворювання, яке непросто діагностувати і яке системно змінює якість життя людини. Йорк якраз пройшов через це, у нього змінився голос, а ми з командою відтворили його голос так, як він звучав раніше.

Але той проєкт усе-таки був з озвученням: проблема полягала в тому, що треба було не лише замінити голос, а й щоб він перформив, а він уже говорив по-іншому та проводив багато часу в лікарні.

– Я знаю, що ви також активно працюєте з локалізацією та дубляжем. Можеш про це розповісти?

– Ми пройшли певний шлях, щоб почати працювати з цим ринком. По-перше, наша технологія спочатку була досить важка: щоб запустити один проєкт, ми мали витрачати багато ресурсу, а клієнти – мати ці бюджети. Це більше про час, який треба технології, і технічний ресурс, щоб натренувати моделі для клієнта. Раніше треба було збирати досить складні датасети, тренувати моделі для кожного голосу. А зараз ми можемо взяти всі 30 голосів, накласти на одну модель і за тиждень-два вже мати модель, яка може говорити всіма цими голосами з будь-якого голосового інпуту (незалежно від того, який голос буде драйвити).

Цей вихід на скейл, ця оптимізація моделей у нас зайняла досить багато часу, і це логічно, бо ми обрали такий шлях. А потім уже, після того, як якість сприймається найвимогливішими голлівудськими студіями, оптимізуємо модель, щоб вона працювала швидше, ефективніше, потребувала менше ресурсу й даних. Зараз починаємо виходити в цей режим.

Тому комунікація зі студіями дубляжу була з самого початку, але реальна робота тільки почалася. Бо скейл, який їм потрібен, у нас тільки з’явився: якщо раніше нам треба був місяць на один голос, нам відповідали, що їм треба за два тижні озвучити все. Зараз це вже має сенс, ми вже можемо працювати з великим обсягом голосів одномоментно.

– На якому етапі зараз ця співпраця? Як саме допомагаєте з дубляжем?

– Ми вже працюємо з кількома найбільшими глобальними студіями дубляжу. Починаємо працювати з ними в кількох напрямах. По-перше, коли ми можемо зберігати голос оригінального актора всіма іншими мовами. Це зараз стає дуже актуально, бо фокус у США змінюється. Якщо раніше 99% найбільших фільмів робили в Голлівуді та Боллівуді, то зараз фільми роблять усі. Південна Корея, той же Сенцов зняв «Носоріг», який можна подивитися на Netflix.

І для США постає нове питання: вони ж не звикли дублювати англійською, тому якість дубляжу, наприклад, «Гри кальмара» дуже низька, усі на це жалілися.

До того ж зараз надзвичайно важливий кастинг: якщо можна зберегти оригінальний голос актора, то фільм втратить менше під час дубляжу; він завжди втрачає в дубляжі, але так втратить значно менше. Збереження голосу акторів для дубляжу ми навчилися робити тільки нещодавно, десь пів року це на рівні, коли можна використовувати в продакшені.

Відео Respeecher із Мей Маск

– Ви це використовували в кейсі із Мей Маск, яку ви переклали українською, так?

– Так, це та сама технологія. І другий напрям роботи зі студіями дубляжу – краща дистрибуція роботи між голосовими акторами. Наприклад, заходить до великої студії дубляжу новий фільм Marvel, його треба перекласти й озвучити досить швидко, до того ж там багато персонажів. Розподіл обсягу озвучення зазвичай не рівний: є головні персонажі, є не головні; тому є актори, які мають довго озвучувати головних персонажів, і є актори, які мають озвучувати інших персонажів, але там роботи не так багато. Оскільки обсяг роботи акторів тільки росте, то завдяки нашій технології акторів у студії можна обміняти голосами, і вони зможуть робити роботу один за одного.

Також це важливо для збереження голосів, до яких ми звикли. Наприклад, у Німеччині голос Тома Хенкса озвучує актор, якому вже за 80 років, він уже хоче більше часу проводити з родиною. Але це важко для великої німецької спільноти, бо вони звикли, що Хенкс звучить саме так.

– Зі студіями дубляжу це тільки початок роботи чи ви можете розповісти про якісь проєкти?

– Вони починають виходити, поки не можемо говорити, до кінця року точно.

– Зараз є конкретна проблема: через війну багато дистриб’юторів не встигли продублювати фільми українською. Новий «Доктор Стрендж», наприклад, через це виходить в оригіналі з субтитрами. Це проблема, яку ви могли б вирішити за допомогою своєї технології?

– Це більше залежить від студії дубляжу. Ми надаємо технологію, яка допоможе їм виконати свою роботу ефективніше. У певних випадках – краще. Але однаково треба люди в студію, мікрофон перед людьми. Це може бути домашня студія, але системно процес не змінюється, і ми не бачимо, щоб він змінювався.

Потрібно, щоб людина озвучила конкретний фільм. Але можна буде використати менше людей для конкретного проєкту або дистриб’ютувати цю історію між акторами. Це додає ефективності, наш перший досвід роботи з дубляжниками підтверджує, що вони сприймають цю технологію як те, що системно змінить їхній бізнес у найближчому майбутньому. Але це тільки з акторами, актори завжди потрібні.

Статус стартапу й розвиток бізнесу


Respeecher працює з 2018 року, компанію запустили троє засновників: Олександр Сердюк, Дмитро Бєлєвцов і Грант Рібер. Кияни Сердюк і Бєлєвцов створили перший прототип технології конверсії звуку у 2016 році на хакатоні, який організувала українська компанія Grammarly. За два роки до них приєднався американець Рібер, який мав досвід у стартапах, пов’язаних із синтезованим мовленням і факт-чекінгом.

Керівники Respeecher продовжують позиціювати себе як стартап після понад 4 років роботи: компанія швидко росте, але поки не вийшла в плюс, залучаючи інвестиції через венчурний капітал. За час роботи отримали від інвесторів уже більш як 3 мільйони доларів інвестицій, найближчим часом залучать наступний раунд, каже Сердюк. Крім того, анонсує виконавчий директор, до інвесторів нещодавно долучився «один із найбільш відомих голосів Сполучених Штатів».

– Ви себе ще позиціюєте як стартап?

– Та звичайно, це стартап. Наш бізнес від початку не є класичним стартапом, бо ми не могли показувати експоненційне зростання бізнесу з перших днів. Нам треба було розробити дуже важку технологію, підписати дуже великих клієнтів, почати працювати з цими великими важкими клієнтами, навчитися в них, зрозуміти, куди ми маємо рухатися. Десь з початку 2021 року зростання нашої компанії більш схоже на класичне стартап-зростання. Ми робимо венчурну історію.

– Ви відкрито розповідаєте, що всі прибутки вкладаєте в розвиток бізнесу.

– Так, і нам потрібні додаткові гроші. У нас є інвестиції, ми постійно залучаємо нові, піднімаємо зараз наступний раунд.

– Загалом залучили вже більше трьох мільйонів?

– Так, і скоро буде новий великий раунд.

– Але ви поки не виходите в плюс?

– Так, ми не є в плюсі, усе реінвестується. Ми активно ростемо, дедалі більше інвестуємо й у команду, і в технологічні частини нашої історії: датасети, запис конкретних голосів. Ми збільшуємо кількість напрямів, які покриваємо: якщо раніше це був класичний B2B, то зараз у нас є Voice Marketplace, який дуже прикольно росте. Voice Marketplace – бібліотека голосів, яку можуть використовувати креатори.

Відео Respeecher

– Ти згадував, що вас через це спочатку не любили актори, бо думали, що ви забираєте в них роботу.

– Як виявилося, врешті голосові актори також почали тепло ставитися до цієї технології. 

 Раніше, два-три роки тому, ми говорили з акторами, вони казали: «Та що ви робите? Ви крадете нашу роботу, наші робочі місця».

Зараз вони бачать тренди: обсяг контенту стрімко росте, обсяг роботи для войсоверу відповідно зростає. І вони бачать, що їх наймають на роботу за двома характеристиками: за тим, як вони вміють грати, і за голосовим тембром. А цей тембр, по-перше, змінюється за життя, по-друге, він не дуже гнучкий, він не може сильно змінюватися.

З технологією вони можуть, по суті, узяти те, що їх виділяє як людей, які працюють з голосом, і дати їм можливість отримати будь-який тембр, який вони захочуть.

– Я розумію, що некоректно порівнювати дві різні компанії й ви, мабуть, уже втомилися від паралелей із Reface, але мені здається, що Reface обрали трохи інший шлях. Співзасновники розповідали нам в інтерв’ю, що пріоритетом вважають персоналізацію, спробу зробити технологію максимально доступною. Ви теж могли це зробити – запустити додаток із прикольними маніпуляціями з голосом, зробити ставку на віральність і соцмережі. Чому цього не зробили?

– Могли, як десятки інших речей, які могли зробити на основі технології. Не вибрали цей шлях, бо це не те, що нам здавалося продуктом, на якому можна було виростити великий системний бізнес і кльову сталу команду. І, мабуть, це не дало б нам створити базову технологію, на якій ми будували б наступні продукти, як це робимо зараз.

Зараз у нас є основа, яку штовхаємо в різні напрями. Це й про розвиток технології – конвертація акценту в real time, наприклад. І про індустріальні напрями, коли технологія адаптується під дубляж і локалізацію, або під мовлення людей з проблемами із голосом, або в напрямі детекції синтезованої мови.

Тобто ми від початку будували іншу історію. Важко відповісти на запитання, чому, бо це не був один вибір, ми не сідали й не вирішували так в один день. Це процес, який тривав довго: ти знаходиш щось, за що можна зачепитися, чіпляєшся і починаєш розкручувати.

– Чи не було тиску від інвесторів щодо цього? Бо точно була спокуса виводити цю технологію в маси, монетизувати її раніше.

– А що називати тиском? [сміється]

– Поради точно були, певно.

– Та звичайно. [сміється] У кожного є свої думки про те, як треба будувати бізнес. У багатьох є досвід у певних індустріях. Це те, до чого ми завжди прислухалися. Але ти приходиш до інвестора не із запитанням, що робити. Ти показуєш, що ти зробив, і кажеш, що хочеш зробити. Якщо їм подобається, що ти зробив, і якщо вони вірять, що можеш зробити наступний крок, то вони інвестують. Якщо ні, то це не наш інвестор. І це нормально: бізнеси різні, інвестори різні.

Загроза фейків і заходи безпеки


У 2021 році на стримінгових сервісах вийшов документальний фільм Roadrunner про шеф-кухаря й телеведучого Ентоні Бордейна. Стрічка спричинила цілу хвилю дискусій через використання штучного інтелекту для озвучення слів Бордейна, написаних ним у приватному листуванні з другом. Олександр Сердюк із Respeecher називає цю історію поганим прикладом використання технології: каже, що питання виникали й до якості синтезованого звуку, і до дозволу на використання. «Вони не проробили цю чутливу тему, як аудиторія сприйме контент, який читатиме голос Ентоні Бордейна, – розповідає Сердюк. – Якщо ми бачимо, що в певному проєкті є такі проблеми, то просто не заходимо в нього».

Трейлер фільму про Ентоні Бордейна

Історія з Roadrunner показує, що тема синтезованого голосу має різні прояви, вона порушує не лише етичні питання, а й питання безпеки. Водночас є загальна дискусія про вплив штучного інтелекту на всі сфери життя, який той же Ілон Маск називає «екзистенційною загрозою людству». Розпитуємо CEO Respeecher, як команда дбає про безпеку технології та заходи щодо запобігання її нецільовому використанню.

– Як відрізнити справжнє мовлення від штучного? І як убезпечити цю технологію від шахраїв і свідомого введення в оману?

– Ми досить серйозно захищені не лише технічно, а й фізично. Коли ми дивимося на картинку, можемо побачити справжню. Зі звуком ще краще, бо люди настільки заточені на звук, що чують кожен малесенький артефакт. А технологій, які можуть зробити це настільки якісно, що це введе в оману не лише професійні спільноти, а й звичайні вуха, зовсім не багато. Як наша технологія – вона важка, важко зробити якісний звук.

Згода – так, це обов’язково. Це перше, що наша команда запитує в клієнта. Із так званими голосовими вотермарками, можливістю задетектити нашу синтезовану мову, складніше. Поки це не використовується в продакшені, це поки в розробленні.

Це дуже складний технічний челендж: це про баланс між чимось, що буде почуте в записі, і чимось, що може вийняти із запису людина чи алгоритм. І найважче, що цей баланс треба зберегти в дуже короткому записі. З нашою технологією це може бути й три секунди, тому треба подбати про те, щоб було органічно й витримано за цим балансом.

Загалом ця технологія існує в індустрії вже досить давно, Sony використовує вотермарки для детекції піратського контенту вже років 20. Але вони це роблять із 20-хвилинними роликами, це дуже відрізняється від того, що ми маємо зробити.

– Які заходи загалом вживає Respeecher?

– З приводу безпеки використання нашої технології: ніхто не може використати нашу технологію без наявності згоди людини, яка надає голос чи має право на голос. Це дуже жорстко контролюється. Ми працюємо з найбільшими студіями й також у цьому дуже зацікавлені, бо повинні дбати про репутацію й не можемо облажатися в цьому питанні.

Щодо заходів безпеки: їх кілька. По-перше, ми багато інвестуємо в роботу з професійними спільнотами, із якими разом будуємо фреймворки того, як технології синтезованих медіа та синтезованого звуку мають використовуватися в конкретних індустріях.

Respeecher є членом Content Authenticity Initiative, Digital Entertainment Group та Entertainment Globalization Association, ще кількох груп. Це займає досить багато часу, для стартапу це досить дорого, але як лідер у синтезованому звуку це наш коммітмент перед індустріями, з якими працюємо, щоб будувати правильні підходи до того, щоб технологію не використовували в поганих цілях. Це не тільки про обман, а й про різноманіття, етнічне та сексуальне наприклад. Це досить важкі питання, які тільки-но порушують у контексті синтетичних медіа.

Інший напрям: ми намагаємося й нашими проєктами, і комунікацією розповідати, що ця технологія існує, вона нікуди не піде. Вона була й до Respeecher – не в такій якості, але існувала. Дуже багато компаній працюють з цією технологією, її використовують і будуть використовувати дедалі більше. Тому, коли ми сприймаємо інформацію, повинні усвідомлювати, які технології можуть використовувати для формування цієї інформації, і мати певний рівень критичного мислення.

– Що ти маєш на увазі?

– Коли ми з тобою читаємо текст у газеті, то не будемо вірити написаному на 100%. Але наші бабусі, наприклад, можуть вірити більшій частині інформації, бо вона надрукована. Той самий процес має пройти й у сприйнятті інформації, яку бачимо й чуємо. 

 Ми знаємо, що Photoshop використовують для маніпуляції із зображеннями, тому розуміємо, що має бути певний рівень сумніву. Те саме буде й із синтетичним звуком.

І розповідати про цю технологію – одна з найважливіших активностей у цьому напрямі. Бо люди мають розуміти, як технології працюють.

– Просто нам завжди здавалося, що ці виклики штучного інтелекту десь у далекому майбутньому, а зараз, особливо під час війни, переконуємося, що це вже тут і що це вже можуть використовувати проти нас. Як було в історії з можливим діпфейком Зеленського в перші тижні війни.

– Маніпулювати цим можуть. Але, як і все інше, [росіяни] це зробили дуже погано. [сміється]

– Так, це був смішний діпфейк. [сміється]

– Скажу так: ці інструменти можуть використовуватися на такому ж рівні, як й інші способи маніпулювати громадською думкою. Як ботоферми, як закиди маніпулятивного характеру. І це не нове для суспільства: коли ми як [первісні] люди тільки починали спілкуватися між собою в печерах, уже тоді з’явився цей концепт. Хтось каже щось, що може бути неправдою. Але як переконатися, що це неправда? Мабуть, треба для цього щось робити.

Також ми починаємо проєкт із партнерами з індустрії, проводячи великий Kaggle Competition зі створення детекції синтезованої мови. Respeecher відповідає за організацію й надання даних, а найкращі розумники зі всього світу зможуть створити алгоритм, здатний відрізнити синтезований звук. Це буде така гонка озброєнь між детекторами та синтезаторами, від якої ми нікуди не дінемося.