Kineska tvrtka Shengshu Technology i Sveučilište Tsinghua predstavili su Vidu, model za pretvaranje teksta u video koji može jednim klikom generirati isječke od 16 sekundi u rezoluciji od 1080p. Najava je objavljena na Zhongguancun Forumu 2024. u Pekingu, gdje su Vidu pokušali pozicionirati kao snažnog konkurenta OpenAI-jevoj Sori.
Vidu može proizvesti isječke od 16 sekundi u razlučivosti 1080p—Sora za usporedbu može generirati videozapise od 60 sekundi. Vidu se temelji na arhitekturi Universal Vision Transformer (U-ViT), za koju tvrtka kaže da joj omogućuje simulaciju stvarnog fizičkog svijeta s generiranjem pogleda s više kamera. Ovu je arhitekturu navodno razvio tim Shengshu Technology u rujnu 2022. i kao takva prethodila bi arhitekturi difuzijskog transformatora (DiT) koju koristi Sora.
Prema tvrtki, Vidu može generirati videozapise sa složenim scenama koje se pridržavaju fizike stvarnog svijeta, poput realne rasvjete i sjena te detaljnih izraza lica. Model također pokazuje bogatu maštu, stvarajući nepostojeći, nadrealni sadržaj dubine i složenosti. Viduove mogućnosti s više kamera omogućuju stvaranje dinamičnih snimaka, neprimjetno prelazeći između dugih snimaka, krupnih planova i srednjih snimaka unutar jedne scene.
Tvrtka je u svom demu pokušala rekreirati slične scene koje je prethodno podijelio OpenAI tijekom izdavanja Sore. I dok je Vidu impresivno postignuće i dokaz brzog napretka Kine u istraživanju umjetne inteligencije, usporedba sa Sorom otkriva da generirani videozapisi nisu na Sorinoj razini realizma. Ispis, iako impresivan, zaostaje u smislu vizualne vjernosti. Nemojte me držati za riječ, evo nekoliko primjera iz Sore:
Međutim, važno je priznati da je vremenska dosljednost koju je Vidu postigao pohvalna, a ova tehnologija ima potencijal za daljnje usavršavanje i poboljšanje tijekom vremena.
Psici imaju mrtve oci, sve drugo je vjerno. Ali ovi napreci sa AI znace da nista, ali bas nista vise nije za vjerovati sto se objavi jer sve moze biti AI konstrukcija.
super može poslužiti za pretvaranje nekih zanimljivih knjiga u film.
A hoće li biti i pasa crn…pardon, afroamerikanaca kao kod Google Gemini? 😀