Zákulisie tvorby prvého AI videa Sila príbehov v digitálnom veku

6. októbra 2024 Online marketing

Video patrí medzi najúspešnejšie digitálne formáty, no zároveň býva finančne najnáročnejšie. S príchodom AI sa však začína aj nová videoéra. Internet zaplavujú ukážky videosekvencií vytvorených pomocou umelej inteligencie. Je to naozaj také dostupné a jednoduché?

Využil som účasť na kurze „Praktické využitie AI“ a ako záverečný projekt som sa rozhodol túto otázku otestovať. V článku vám ukážem, čo som použil a ako som postupoval.

Na čom som staval

Prvým pilierom bola kvalita výstupov. Video muselo byť vizuálne atraktívne a pozerateľné, aby vyvážilo moje minimálne skúsenosti s AI videotvorbou.

Dôležitou témou pri práci s AI sú takisto licencie. Ak má mať videotvorba komerčný význam, musí rešpektovať pravidlá. Pri výbere AI nástrojov som preto kládol dôraz na licenčné podmienky, čo vylúčilo viaceré nástroje a možnosti.

Tretím pilierom bolo odhodlanie zvládnuť túto výzvu dôstojne a s plným nasadením.

Finálne použité nástroje

Pri tvorbe videa som nakoniec využil 10 nástrojov:

AI nástroje pre textovú a obsahovú časť:

Claude 3.5 Sonnet, OpenAI o1, ChatGPT4o – tvorba copytextov, príprava promptov a pri ChatGPT4o aj overovanie informácií o licenciách a dohľadávanie údajov

AI nástroje pre tvorbu obrázkov „text to picture“:

Dall-E 3, Midjourney a Leonardo AI – generovanie statických vizuálov

AI nástroj pre vizuálnu stránku „picture to video“:

Runway Gen-2, Gen-3 – tvorba dynamického obrazového obsahu a videosekvencií

AI nástroje pre zvukovú zložku:

ElevenLabs – vytvorenie realistického hlasového prejavu

Suno – kompozícia hudobného podkladu

Tip:

Naštudujte si podmienky jednotlivých platforiem, aby ste si overili, či používaním ich výstupov máte zabezpečené licencie. Skontrolujte aj rozdiely medzi free a platenými verziami, pretože aj tie môžu obsahovať obmedzenia pre komerčné použitie.

Editačný softvér:

CapCut – finálny zostrih a editácia videa

Technika tvorby

Celý proces tvorby pozostával z deviatich kľúčových fáz, kde som kombinoval AI nástroje s vlastným vstupom.

Prípravná fáza:

Scenár – 70 % AI (Claude 3.5 Sonnet, OpenAI o1, ChatGPT4o), 30 % vlastný vstup
Copytexty – 30 % AI (Claude, OpenAI o1, ChatGPT4o), 70 % vlastný vstup
Definovanie kľúčových scén pre hľadanie podoby obrázkov – pre „picture to video“ – 50 % AI (Claude, OpenAI o1, ChatGPT4o), 50 % vlastný kreatívny vstup
Generovanie promptov – 70 % AI (Claude, OpenAI o1, ChatGPT4o), 30 % vlastný vstup

Produkčná fáza (100 % AI):

Generovanie obrázkov – MidJourney, Leonardo AI, Dall-E 3
Generovanie videosekvencií – Runway Gen-2, Gen-3
Vytvorenie hlasového prejavu – ElevenLabs
Hudobný podmaz – Suno

Postprodukcia:

Finálna editácia – CapCut (100 % manuálna práca)

Poznatky

Očakával som, že tému videospotu zvládnem vďaka AI poľahky. Vyžiadalo si to však viac energie, ako som predpokladal – a to pri výbere nástrojov, zoznamovaní sa s nimi a predovšetkým pri práci s promptami a ich ladením.

Po oboznámení s AI nástrojmi na generovanie videa som zistil, že scenár a copytexty, ktoré som mal pripravené, musím úplne prepracovať. Dôvodom bola najmä dĺžka sekvencií, ktorú AI nástroje dokázali v čase tvorby generovať.

Spot som preto rozdelil na logické celky – sekvencie v dĺžke 4 – 5 sekúnd, ku ktorým som definoval scény a k nim príslušný copytext pre voiceover.

TIP:

Scenár spotu tvorte až po vyskúšaní platforiem na generovanie videa. Pracujte so sekvenciami dlhými 3 – 5 sekúnd (podľa možností AI nástroja) a tomu prispôsobte aj scény a copytext pre voiceover.

Pri ôsmich sekvenciách som dosiahol celkovú dĺžku 30 sekúnd. Ako som uchopil scenár podľa jednotlivých sekvencií, uvidíte v časti Scenár/Storyboard.

Prompty sa ukázali ako alfa a omega úspechu. Každý nástroj funguje inak a treba sa na jeho špecifiká naladiť. Počas procesu som videl množstvo nepoužiteľných výstupov. Výsledky neprichádzali ihneď – počet pokusov, kým som bol s výstupom spokojný, väčšinou osciloval medzi piatimi a desiatimi. Tomuto procesu je potrebné venovať čas.

Pri tvorbe AI videa existujú v zásade dve možnosti, ako postupovať:

Text to video

Videosekvencia sa generuje už na základe promptu.
Ide o rýchlejší výsledok, no nemusí zodpovedať očakávaniam a často si vyžaduje viacero pokusov.

Text to image + image to video

Najskôr sa na základe promptu vygeneruje obrázok, ktorý zodpovedá zámeru a scenáru.
Následne sa obrázok rozpohybuje.
Táto metóda podľa mňa poskytuje väčšiu kontrolu nad konečným výstupom.

Faktografia tvorby spotu

Scenár/Storyboard: Sila príbehov v digitálnom veku

Vybral som si postup „text to image to video“ a spot som rozdelil do ôsmich kľúčových sekvencií. Každá niesla svoje posolstvo (voiceover) a vizuálnu predstavu (video).

„Príbehy formovali naše životy od nepamäti.“

Vizuál: História zachytená cez otvorenú knihu, v pozadí staršie knihy, symbolicky doplnené o ovocie ako firemný symbol

„Inšpirovali, učili a dojímali nás po generácie.“

Vizuál: Scéna príbehov vyrástla z knihy

„V digitálnom veku nadobúdajú nové formy.“

Vizuál: Pozitívna scéna s ľudmi pozerajúcimi do smartfónov, veselá atmosfér

„Aj značky tvoria príťažlivé príbehy a obsah.“

Vizuál: Detail na tablet s dynamicky sa meniacim obsahom

„Generujú ich content marketingové projekty.“

Vizuál: Dynamická scéna písania na klávesnici, doplnená o symbol ovocia

„Budujú informačných lídrov so silnou komunitou.“

Vizuál: Záber na lídra s komunitou, zasadený do prírodnej scenérie s cyklistami

„Pestujte originálny a užitočný obsah strategicky.“

Vizuál: Letecký záber na ovocný sad plný jabĺk

„ContentFruiter. Tvoríme hodnoty. Už 10 rokov.“

Vizuál: Uzatvorenie logom agentúry

Obrázky pre scény (text to image)

V prvej fáze som generoval prompty na vytvorenie obrázkov. Použil som kombináciu osvedčených nástrojov, ktoré využívam denne – Claude, OpenAI o1, ChatGPT4o.

Najskôr som napísal prompt podľa seba a následne požiadal AI nástroje, aby ho definovali presnejšie. Po jeho úprave (nie vždy obsahoval všetko, čo som chcel) som dal prompt preložiť do angličtiny.

V druhej fáze som ho dolaďoval na základe vygenerovaných obrázkov z MidJourney, Leonardo AI a Dall-E 3. Súčasťou každého promptu bola aj požiadavka použiť formát 16 : 9, pre ktorý som sa rozhodol. Pri tvorbe obrázkov pre ďalšie sekvencie som dbal na konzistenciu farebného ladenia, aby scény pôsobili vizuálne súdržne.

Tip:

Pri tvorbe sekvencií myslite aj na farebnú kontinuitu záberov. Predídete tým rušivým farebným skokom medzi scénami a zachováte plynulosť vizuálneho príbehu.

Skúšal som viaceré nástroje a vybral obrázok, ktorý najlepšie vystihoval požadovaný zámer. Tu je ukážka úpravy obrázka repromptovaním v DALL-E 3.

Videosekvencie (image to video)

Vygenerované obrázky som vkladal do Runway Gen-2, Gen-3, kde som pomocou ladených promptov podľa pokynov Runway pracoval na ich vhodnom rozpohybovaní. Nová generácia Gen-3 priniesla výrazný posun a vyžaduje špecifické pokyny, ktoré prompty zjednodušia.

Dôležité je rozumieť možnostiam a nastaveniam nástroja, a v tomto musím pochváliť Runway, pretože na svojej stránke poskytuje veľmi prehľadnú dokumentáciu a návody.

Ukážka promptu na rozhýbanie obrázka:
„Slow motion shot. Handheld tracking shot, following a cyclist on a road. The cyclist smiles and holds his finger up.“

Voiceover (text to voice)/Audio – podmaz (text to music)

Použil som osvedčený ElevenLabs. Je to jedna z najlepších volieb pre generovanie slovenského hlasu. Na zachytenie dôveryhodnosti a zreteľnosti som zvolil hlas Brian, ktorého charakter sa dá ešte ovplyvniť nastavením troch parametrov – Stability, Similarity a Style Exaggeration.

So Suno som už mal veľmi dobré skúsenosti, takže voľba pre hudobný podmaz bola jasná. Považujem ho nielen za najznámejší, ale i najlepší AI nástroj na generovanie hudby a piesní. Dokonca takmer dokonale zvláda aj slovenské verzie, čo som však v tomto prípade nevyužil. Potešilo ma, že už prvý výstup mi vyhovoval. Suno ponúka hneď dve alternatívy na jeden prompt. Vyberal som zo štyroch návrhov.

Strih

Pre jeho prehľadnosť som použil nástroj CapCut. Pracuje sa s ním veľmi dobre, intuitívne a ponúka viaceré nastavenia.

Zaujímavosti a užitočnosti

AI nástroje dokážu prekvapiť – pozitívne aj negatívne. Napríklad, keď si myslíte, že máte dokonalý vygenerovaný obrázok, a neskôr zistíte, že ruka má šesť prstov, alebo pri videosekvencii dôjde k zvláštnemu „rozdvojeniu“ ruky v dôležitom momente.

Texty a obraz na monitoroch v generovaných obrázkoch nástroje nezobrazovali realisticky, čo som musel akceptovať ako limit.

Tváre boli slabinou všetkých generátorov. Skupinky ľudí mali často deformované črty tváre, no Runway Gen-3 dokázal tieto nedostatky vo videu zlepšiť.

Dall-E 3 vygeneroval viaceré použiteľné obrázky a jeho využitie na úpravy bolo jednoduché. Kuriozitou však bolo občasné presviedčanie, že splnil pokyn na úpravu, napríklad odstránenie objektu, hoci ho v skutočnosti neodstránil.

Claude 3.5 Sonnet sa ukázal ako nástroj vhodný na tvorbu precítenejších textov.

A koľko času to zabralo? Približne 40 hodín, a to vrátane výberu a študovania používania nástrojov. K celkovým nákladom na tvorbu AI videa treba pripočítať aj predplatné licencií za nástroje, ktoré sa najčastejšie pohybovali od 5 do 20 dolárov mesačne.

Záver

Vstup do sveta AI videí je časová, „zručnostná“ aj tvorivá výzva. Bola to zaujímavá skúsenosť. Aj v tom, že video pre mňa zostáva umením, kde človek stále zohráva dôležitú úlohu – napríklad pri tvorbe idey, scenára a copytextu a pri ladení celkového dojmu.

AI nástroje napredujú mimoriadne rýchlo a výroba videí sa tak stáva jednoduchšou. Rozbieha sa tradícia prvých festivalov AI videoproduktov. Pri tvorbe je dôležité myslieť na licencie a ochranu dát, ktoré sú kľúčové pre ich používanie a prevenciu rizík.

Hoci môj prvý AI videopokus získal od lektora uznanie, s výsledkom nie som úplne spokojný – presne viem, kde a čo by som vylepšil. Beriem ho však ako skúsenosť, základ a prvý historický krok.

Fascinujúca éra AI, nielen v marketingu, nás nečaká – už ju žijeme!

A tu je spomínaný výsledok – pilotný AI spot Sila príbehov v digitálnom veku.

Pilotný AI spot Sila príbehov v digitálnom veku. Autor: Roman Kleman