Є питанняПопереджають про ризик діпфейків із Зеленським. Розпитали головного фахівця з нейромереж в Україні
Олесь Петрів (Reface) – про синтетичні відео, загрозу дезінформації й озброєння технології
Про загрозу дезінформаційної кампанії із згенерованими нейромережами відео попередив український Центр стратегічних комунікацій. Буцімто, ворог може опублікувати відео, на якому діпфейк президента Володимира Зеленського визнає капітуляцію України.
Редакція The Village Україна вирішила розпитати про це, певно, головного фахівця з нейромереж в Україні, технічного директора компанії Reface Олеся Петріва.
Що сталося?
2 березня Центр стратегічних комунікацій заявив, що російські окупаційні сили можуть вкинути дезінформацію про капітуляцію української державної влади. Для цього можуть створити синтетичне відео з президентом України.
«Це буде не справжнє відео, а створене через алгоритми машинного навчання, – пояснюють у Центрі, що працює при Міністерстві культури й інформаційної політики. – Відео, зроблені через такі технології, майже неможливо відрізнити від реальних. Знайте – це фейк. Його метою є дезорієнтувати, посіяти паніку, зневірити громадян і схилити наші війська до здачі. Будьте впевнені – Україна не капітулюватиме!»
Що таке діпфейки?
Технологія Deepfake дає змогу синтезувати кілька відео за допомогою штучних нейромереж. Грубо кажучи, діпфейк – це ролик, який не зняли, а створили чи змінили за допомогою штучного інтелекту.
Термін популяризував користував Reddit deepfakes: у 2017 році він опублікував кілька відео, у яких на ролики з порно наклали зовнішність відомих голлівудських акторок і які врешті заборонили більшість соціальних мереж і сайтів. Найбільш відомий приклад – ролик із буцімто Бараком Обамою, який вчить розпізнавати діпфейки, це відео зробив режисер фільмів «Пастка» та «Ми» – Джордан Піл.
За п’ять років використання технології діпфейк перетворився з власної назви користувача Reddit на загальну. Під час війни ж подібні технології можуть бути особливо небезпечними. «Цілі подібних діпфейків не в тому, щоб довести всім, що це правда. Передусім це внесення сумніву. Люди і так не витрачають багато часу на перевірку інформації. В умовах війни це тільки загострюється. Навіть якщо потім буде роз’яснення, що це була неправда, інформація зі спростуванням поширюватиметься повільніше, ніж скандал», – розповідає Олесь Петрів із Reface.
Діпфейки чи ліпсинки?
«Те, що в оригіналі називається діпфейк – це заміна обличчя. Умовно на відео була одна людина, а ми поміняли її риси так, що вона має вигляд іншої», – каже Олесь Петрів. Для того, щоб підробити промову президента та запустити дезінформаційну кампанію, не обов’язково використовувати саме цей інструмент
Олесь Петрів
технічний директор компанії Reface
Діпфейк має сенс, коли ти хочеш когось скомпрометувати чи підставити. Наприклад, узяти відео, як хтось нюхає кокаїн і накласти на нього інше обличчя. Тоді збирається достатня кількість фото та відео людини, яку замінюють. І так само збирається відео та фото людини, на яку замінюють – з різними варіаціями освітлення, виразами обличчя, кутами, поворотами. Нейромережа витрачає на обробку від кількох годин до одного-двох днів. Періодично треба ускладнювати датасет, бо певні вирази обличчя бувають не покриті. За дві-три ітерації покращення датасету можна отримати модель, яка плюс-мінус непогано переносить риси людини.
Але ця модель буде модифікувати тільки зону в межах обличчя. Потім потрібно провести доволі кропітку роботу постпродакшну, щоб кожен кадр красиво вписати, вирівняти, змінити вигляд і стиль. Наприклад, якщо це відео нібито з прихованої камери, треба, щоб зона обличчя відповідала всім артефактам цієї камери. Це робота професіоналів постпродакшну, в After Effects та інших інструментах, вона може тривати від кількох годин до кількох днів. Залежно від того, яка потрібна якість і наскільки повинна бути суперякість.
Петрів каже, що для подібної дезінформації, як у випадку з можливою провокацією Росії, достатньо технологій Voice Style Transfer і Lip Sync. «Їх застосовують, коли завдання не замінити одну людину іншою, а зробити так, щоби на відео людина говорила своїм голосом те, чого ніколи не казала».
Олесь Петрів
технічний директор компанії Reface
Voice Style Transfer працює так: беремо дуже багато аудіозаписів мовлення людини. Коли, наприклад, це політик, знайти записи того, як він говорить, дуже легко. Нейромережа обробляє ці години записів і тренується, на вхід бере голос іншої людини та модифікує тембр так, щоби він був максимально подібний до тембру голосу потрібної людини.
Потім беруть актора чи пародиста, здатного прочитати певний текст із ритмікою, динамікою, інтонацією, характерними для конкретної людини. Після цього записується аудіо поверх цього аудіо та застосовується нейромережа. Вона робить Voice Style Transfer, щоби тембр голоса став ідентичним, наприклад, до Зеленського. Далі отримуємо аудіо, у якому складно відрізнити справжнього Зеленського від модифікованого. І тоді це все синхронізується з відео.
Lip Sync [від lip sync – буквальний переклад: «виконання під фонограму»] – це окрема нейромережа, яка на вхід бере відео й аудіо та модифікує вираз губ і нижньої зони обличчя так, щоби вираз обличчя відповідав звуку, який вимовляється цей момент. «Наприклад, якщо людина зараз каже: «О», то губи мають бути округлої форми. Якщо мовчить – губи мають бути закритими. Після цього проводиться синхронізація, і ми отримуємо відео, на якому людина говорить те, чого ніколи не казала», – пояснює Петрів із Reface.
Чи можна відрізнити фейк від справжнього відео?
«Перше, що треба розуміти, – на око ніхто нічого не відрізнить», – упевнений Олесь Петрів. Каже: якщо відео транслюватимуть на ТБ, це означатиме, що воно вже пройшло всі критерії відбору. Тому найкращим способом відрізнити діпфейк фахівець називає контекст: «Якщо людина в один день сказала, що ми за жодних умов не будемо оголошувати капітуляцію, а наступного дня каже, що ми капітулюємо, то це неправда».
Утім, навіть за таких умов підозріле відео має пройти експертизу. Якщо ворожі експерти з дезінформації будуть використовувати технологію Lip Sync і нещодавні відео із Зеленським, є спосіб встановити, яке саме відео було першоджерелом: «Навіть якщо там суперякісна модель, над нею працювали неймовірні професіонали, то можна вивантажити всі відео із Зеленським за останній місяць і провести метчинг, одне з них буде майже на 100% збігатися. Для нормального інженера, який працює в сфері Computer Vision, це завдання на годину-півтори».
Чи може виникнути проблема через те, що протягом останнього тижня Зеленський більшість відео записує на одній локації та з одним фоном? «Те, що всі відео брифінгів записані з однієї локації та камери – не проблема. Кожне відео однаково унікальне, на них різні позиції голови, різні рухи тощо», – відповідає Петрів. Додає: «Cкладніше, коли в людини суперактивна жестикуляція, руки перед обличчям, голова повертається праворуч-ліворуч, вверх-вниз, погляди змінюються. Тоді, коли ви хочете щось модифікувати, з’являються артефакти, з якими треба довго боротися. Однак для хорошого професіонала з постпродакшну ці артефакти не зупинять роботу, а трохи ускладнять її – це десь плюс півгодини роботи».
Тому найпростіший спосіб – перевіряти з контексту, переконує Петрів. «Якщо це Lip Sync, треба подивитися всі відео та перевірити, чи це не просто якесь старе модифіковане відео, наприклад, із пресцентру. Тоді скомпрометувати такий діпфейк просто, бо ти знаходиш оригінальне відео, береш діпфейк, накладаєш його на інше та показуєш, що ці відео однакові, тільки в одному з них змінили губи».
Це якраз те, чого ми боялися? Що з цим робити?
Про можливу шкідливість синтетичних відео, їхнє використання з метою дезінформації чи обману почали говорити відразу ж після того, як вони стали популярними. Приміром, Марк Цукерберг назвав діпфейки «безпрецедентним викликом для Facebook». Запитую Олеся Петріва, чи прийшов нарешті той момент перетворення технології на зброю, якої всі боялися.
«Як на мене, загроза діпфейку дещо переоцінена», – відповідає Петрів із Reface. Він переконаний, що найкращий спосіб боротьби із синтетичними відео – це зробити їх настільки популярними, що вони стануть частиною буденного життя. Петрів наголошує, що Reface спеціалізується не на діпфейках, а на «персоналізації відео». Це означає, що завдяки додатку можна за лічені секунди замінити одне обличчя у відео на інше. Наприклад, підставивши своє лице на мем із Леонардо Ді Капріо чи Джонні Деппом. У цьому Reface бачать не лише розвагу, а й майбутнє персоналізації в соцмережах і метавсесвіті – те, як люди будуть показувати себе в інтернеті. Детальніше про Reface – у великій розмові The Village Україна зі співзасновниками.
«Одним із прагнень Reface на запуску було якраз запобігти використанню цієї технології для цілей [дезінформації чи обману], – пояснює технічний директор української компанії. – Єдиний спосіб, як запобігти використанню технології в цілях обману, – це зробити її настільки звичною та зрозумілою навіть для бабусі, щоб це нікого не дивувало. Комодитизація – це найкращий спосіб зменшити потенційну шкоду».
Олесь Петрів
технічний директор компанії Reface
Якщо ви єдина людина на планеті, яка має Photoshop, а всі інші мають тільки фотоапарати, то, зрозуміло, ви можете робити будь-що, і всі безумовно повірять: «Якщо щось сфотографовано, то це правда». Але якщо кожен на планеті має Photoshop, і вам показують фото, де хтось летить у повітрі, то ви знаєте, що теж можете зробити таке саме фото у Photoshop за дві хвилини. І негативний ефект сходить нанівець.
Це було одне із завдань Reface – зробити так, щоби люди будь-якого віку розуміли, що технології зараз на такому рівні, що за два кліки можна поміняти людину чи зробити так, ніби вона говорить інші речі. Технологія Lip Sync у нас у Reface є вже третій місяць, просто вона називається Revoice. Тобто ви можете зайти, завантажити відео чи фото Зеленського або Путіна, надиктувати свій текст та отримати відео, де він говорить те, що ви хочете. І це може зробити будь-яка бабуся, безкоштовно й за 15 секунд.
Чи близькі ми до того, щоб подібні технології стали частиною побуту та не викликали подив? «200 мільйонів людей на всій планеті вже спробували робити діпфейки, до того ж різного віку, не тільки молоді люди. Понад чотири мільярди відео зроблено тільки через технологію Reface. І робили це здебільшого не для того, щоб когось обдурити, а щоб повеселитися та поділитися прикольчиком», – відповідає Петрів.