A legújabb munkámban egy utazási irodának készítettem AI reklámvideót, ami olaszországi tanulmányutakat szervez diákoknak. A feladat az volt, hogy egy utazás programját lekövetve maximálisan átadjam a toszkán táj egyedülálló hangulatát, a kulturális és gasztronómia élmények sokaságát, és a fergeteges szórakozás hangulatát a videóban. A generatív AI technológia segítségével időigényes és költséges helyszíni forgatások nélkül tudtam olyan snitteket elkészíteni, ami tökéletesen átadja az élmény teljességét.
AI munkafolyamat
Miután részletesen átbeszéltük a feladatot és véglegesítettük a szkriptet a megrendelővel, nekiláttam az AI reklámvideó elkészítésének a mesterséges intelligencia segítségével. A workflow mondhatni a szokásos volt, de volt pár snitt, amivel nagyon sokat kellett dolgozni, és többféle munkafolyamatot tesztelni, hogy végül megszülessen a tökéletes eredmény.
A generatív AI videó gyártásához először elkészítettem az állóképek legenerálásához szükséges promptokat ChatGPT segítségével. Az AI képgenerálás a ComfyUI-ban készült alapvetően a Flux.1 modellt, ritkán ChatGPT-t használva. A ComfyUI-ban az alapvető Flux text-to-image workflow-n túl néha egyedibb image-to-image vagy Flux Redux ControlNET-es workflow-kat is kellett alkalmaznom különböző LoRA-kal kombinálva.
A videógenerálás pedig Kling 1.6, Kling 2.0 és Google Veo 2 segítségével készült.
Négy snittet kiemelnék, ahol nem a sztenderd text-to-image generatív AI workflow volt használva:
Borgo Campetroso szállás külső
A szállásról először kerestem valódi fotókat, amiket aztán a Flux Redux ControlNET-tel alakítottam át megfelelő képekké, ami már inputként felhasználható volt a Kling AI-jal történő videógeneráláshoz. A Flux Redux egy olyan kiegészítő ControlNET modell a Flux.1-hez, ami egy meglévő képi inputot dolgoz fel, aminek során az AI nagyon pontosan megérti, “meglátja”, hogy mi van a képen, és ennek a képnek készíti el egy különböző mértékben módosított változatát. Nekem ez ahhoz kellett, hogy az AI reklámvideó képi világához illeszkedő snittet tudjak készíteni a videóba.
Piazza della Signoria séta
Itt a feladat az volt, hogy generatív AI segítségével a meglévő háttérfotóra (a Piazza della Signoria-n álló Palazzo Vecchio épülete) tegyünk rá sétáló diákokat, mintha ők tényleg a helyszínen sétálnának. Fontos volt, hogy az épület kinézete ne változzon meg, maradjon meg teljesen az eredetinek, vagy ahhoz legközelebb állónak.
Ezzel a képpel kísérleteztem a legtöbbet a mesterséges intelligenciával: kipróbáltam kétféle Flux Redux merge workflowt, ChatGPT-t, Flux image-to-image workflowt és Flux Fill ControlNET-et is, de egyik sem hozta azt az eredményt, amit elvártam volna. Vagy a háttérben látható Palazzo Vecchio épülete változott meg a Flux Redux Merge vagy az Image-to-Image workflow során, vagy pedig a diákok nézek ki nagyon rosszul a Flux Fill vagy ChatGPT használatakor.
A végső megoldás a jó öreg manuális munka és a generatív AI kombinálása lett: először Flux text-to-image generatív AI workflow-val legeneráltam képeket a diákokról, amint sétálnak egy téren, aztán a meglévő háttérképre rákompozitáltam a diákokat Affinity Photo-val. Ezt a képet beküldtem finomítani egy Flux Image-to-Image workflow-ba, hogy a fényeket, árnyékokat még jobban tegye egységessé, és végül ez adta az input képet a videógeneráláshoz.
Diákok a Petra pincészetben
A Petra pincészet belsejéről szerencsére volt jó fotóm, így a feladat az volt, hogy legyenek ott a képen a diákok is. A ChatGPT-t kértem meg a feladatra, hogy tegye rá a háttérre a diákokat, de mivel a ChatGPT nem csak hogy teljesen más stílusban generál képet, mint amilyen az AI reklámfilm képi világa, de ráadásul a diákok is elképesztően rosszul néztek ki rajta. A ChatGPT által generált fotót, így egy Flux Redux workflow-n kereszül javítottam fel, hogy eljussak a megfelelő képi világhoz.
Petra borok
A snittet, amin a 3 palack Petra bor látható a pincében, szintén vegyes technikával hoztam létre: először egy alap Flux text-to-image workflow-val legeneráltam egy fotót 3 palack borról a pincében, erre Affinity Photo-val manuálisan ráretusáltam a borok címkéit, és ezt a fotót mozgattam meg végül KlingAI-jal. Meglepő módon a KlingAI most torzulásmentesen megtartotta a címkék feliratait, így nem kellett utólag visszakompozitálni rá a hibátlan címkéket a videóban, pedig eredetileg erre készültem…
A végeredményt a megrendelő is imádta: azt mondta, hogy 200%-osan eltaláltam azt a hangulatot, képi világot, érzést, amit át szeretett volna adni a videóval, úgyhogy mindketten határozottan elégedettek vagyunk!
Ha te is szeretnél a cégednek, vállalkozásodnak hasonló AI reklámvideót, akkor keress bátran! írd meg az elképzelésedet, átbeszéljük a lehetőségeket, és 1 napon belül adok árajánlatot!