Kina predstavlja Vidu: snažan generator teksta u video

Vidu - Kineska umjetna inteligencija
4 komentara

Kineska tvrtka Shengshu Technology i Sveučilište Tsinghua predstavili su Vidu, model za pretvaranje teksta u video koji može jednim klikom generirati isječke od 16 sekundi u rezoluciji od 1080p. Najava je objavljena na Zhongguancun Forumu 2024. u Pekingu, gdje su Vidu pokušali pozicionirati kao snažnog konkurenta OpenAI-jevoj Sori.

Vidu može proizvesti isječke od 16 sekundi u razlučivosti 1080p—Sora za usporedbu može generirati videozapise od 60 sekundi. Vidu se temelji na arhitekturi Universal Vision Transformer (U-ViT), za koju tvrtka kaže da joj omogućuje simulaciju stvarnog fizičkog svijeta s generiranjem pogleda s više kamera. Ovu je arhitekturu navodno razvio tim Shengshu Technology u rujnu 2022. i kao takva prethodila bi arhitekturi difuzijskog transformatora (DiT) koju koristi Sora.

Prema tvrtki, Vidu može generirati videozapise sa složenim scenama koje se pridržavaju fizike stvarnog svijeta, poput realne rasvjete i sjena te detaljnih izraza lica. Model također pokazuje bogatu maštu, stvarajući nepostojeći, nadrealni sadržaj dubine i složenosti. Viduove mogućnosti s više kamera omogućuju stvaranje dinamičnih snimaka, neprimjetno prelazeći između dugih snimaka, krupnih planova i srednjih snimaka unutar jedne scene.

Tvrtka je u svom demu pokušala rekreirati slične scene koje je prethodno podijelio OpenAI tijekom izdavanja Sore. I dok je Vidu impresivno postignuće i dokaz brzog napretka Kine u istraživanju umjetne inteligencije, usporedba sa Sorom otkriva da generirani videozapisi nisu na Sorinoj razini realizma. Ispis, iako impresivan, zaostaje u smislu vizualne vjernosti. Nemojte me držati za riječ, evo nekoliko primjera iz Sore:

Međutim, važno je priznati da je vremenska dosljednost koju je Vidu postigao pohvalna, a ova tehnologija ima potencijal za daljnje usavršavanje i poboljšanje tijekom vremena.

AIkinaumjetna inteligencijaVidu
Pretplatiti se
Obavijesti o
4 Komentari
Najstariji
Najnoviji Najviše komentiran
Inline povratne informacije
Pogledaj sve komentare
zbljuvvvvv
7 mjeseci prije

Psici imaju mrtve oci, sve drugo je vjerno. Ali ovi napreci sa AI znace da nista, ali bas nista vise nije za vjerovati sto se objavi jer sve moze biti AI konstrukcija.

Ante
7 mjeseci prije

super može poslužiti za pretvaranje nekih zanimljivih knjiga u film.

Jere
7 mjeseci prije

A hoće li biti i pasa crn…pardon, afroamerikanaca kao kod Google Gemini? 😀

© 2024 – Portal Logično

POVEZANE VIJESTI