Indeks
I en verden der kreativitet møter banebrytende teknologi, OpenAI, nok en gang, overrasker med sin siste innovasjon: den SORA. Dette nye fremskrittet innen kunstig intelligens lover å revolusjonere måten videoer lages på, og tilbyr et verktøy som er i stand til å transformere tekstmeldinger til overraskende visuelle opplevelser.
Med en imponerende evne til å gjengi detaljerte scener, fra en korallrevverden på papir til ullaktige mammuter på en snødekt prærie, SORA er klar til å imponere og inspirere.
Hvordan fungerer SORA?
Vi kjente allerede kunstig intelligens-modeller som skapte ganske overraskende bilder basert på tekster, slik tilfellet var med DALL-E, for eksempel. Nå har vi imidlertid å gjøre med noe som er litt mer virkningsfullt med SORA.
Selv om det allerede finnes andre typer AI-prosjekter som konverterer tekst til video, SORA skiller seg ut for sin imponerende evne til å lage fotorealistiske bilder og produksjon av lengre klipp, opptil ett minutt. I motsetning til konkurrerende modeller som bare genererer korte videoklipp, har den nye AI potensialet til å skape mer komplekse og engasjerende fortellinger.
Utbyggerselskapet garanterer at SORA er i stand til å lage videoer på opptil ett minutt uten å miste visuell kvalitet og forbli trofast mot parameterne som er definert av brukerens kommando. Dette er den store detaljen som utgjør hele forskjellen.
Men det er viktig å huske at OpenAI distribuerer fortsatt verktøyet til noen utvalgte skapere og sikkerhetseksperter for å evaluere mulige sårbarheter. Hensikten er å gjøre den tilgjengelig for et bredere publikum i nær fremtid.
Eksempler
I følge det innledende innlegget av OpenAI, ny AI for videoer har muligheten til å lage "Komplekse scener med flere karakterer, spesifikke bevegelser og presise detaljer om miljøet og karakterene". Videre kan hun også forstå hvordan objekter "samhandle i den virkelige verden" og også "Tolk rekvisitter nøyaktig, og generere engasjerende karakterer som uttrykker livlige følelser". En annen svært relevant detalj er genereringen av en video basert på et statisk bilde, i tillegg til å fylle ut manglende rammer i en eksisterende video eller muligheten for å utvide den.
Selv om noen videoer fortsatt kan avsløre ledetråder som er typiske for å bli generert av AI, er det OpenAI hevder at SORA "kan ha problemer med å nøyaktig simulere fysikken til en kompleks scene". Imidlertid er resultatene totalt sett ganske imponerende. Med en svært detaljert beskrivelse er det mulig at Sora overgår forventningene, slik tilfellet var i videoen under.
I følge eksemplet publisert av OpenAi, dette var resultatet med ledeteksten "Animert scene inneholder et nærbilde av et kort, loddent monster som kneler ved siden av et smeltende rødt lys. Kunststilen er 3D og realistisk, med fokus på lys og tekstur. Stemningen i maleriet er av undring og nysgjerrighet, mens monsteret ser på flammen med store øyne og åpen munn. Hennes positur og uttrykk formidler en følelse av uskyld og lekenhet, som om hun utforsker verden rundt seg for første gang. Bruken av varme farger og dramatisk lyssetting forsterker den koselige atmosfæren i bildet ytterligere."
Forskerne bak SORA De har ikke avslørt hvor lang tid det tar å gjengi videoene, men de antyder at prosessen er relativt rask, sammenlignet med en matpause. Hvis eksemplene som vises er indikative for verktøyets potensial, kan vi forvente en revolusjon i måten audiovisuelt innhold produseres og konsumeres på.
Når du tenker på et korallrev, er det mulig å få et resultat som dette fra en enkel melding som "en korallrevsverden vakkert gjengitt på papir, fylt med fargerike fisker og sjødyr"
Bill Peebles, et medlem av forskerteamet, bemerker videre at SORA skapte en sammenhengende fortelling gjennom kameravinkler og timing. Han sier at det er flere sceneendringer, alle generert av modellen i en enkelt iterasjon, det vil si at ingen instruerer modellen til å gjøre dette, den gjør det bare automatisk.
Et annet godt eksempel er å beskrive «Flere gigantiske ullmammutter nærmer seg, trampende over en snødekt prærie. De lange ullkåpene deres svaier forsiktig i vinden mens de går, snødekte trær og dramatiske snødekte fjell i bakgrunnen, ettermiddagslys med lette skyer og høy sol i det fjerne skaper en varm glød, den lave kameravisningen er fantastisk, fangende det store lodne pattedyret med vakker fotografering og dybdeskarphet» og du får dette:
Virkninger av AI-er som genererer videoer
Mens det visuelle levert av den nye AI OpenAI er absolutt imponerende, det er i deres uventede evner at deres virkelige overraskelse ligger. Drevet av en versjon av diffusjonsmodellen som brukes av bildekameraet DALLE-3, sammen med den transformatorbaserte motoren til GPT-4en SORA det går utover bare å oppfylle kravene til oppfordringene, og avslører en voksende forståelse av filmisk grammatikk.
Noe å ta hensyn til er det faktum at det er underlagt innholdsbegrensninger med vold, pornografi, uautorisert tilegnelse av identiteter eller stiler til kjente artister. I tillegg OpenAI er forpliktet til å tilby et middel for seerne å tydelig identifisere innhold generert av SORA som skapt av kunstig intelligens. Nylig sangeren Taylor Swift møtt noen konflikter med hans image knyttet til denne typen negative scenario med deepfakes på internett.
Men sannheten er at selv om AI for video er store nyheter, er den ikke perfekt ennå. Til tross for den positive effekten, står teknologien fortsatt overfor sine utfordringer. Et eksempel på dette er spørsmålet om sikkerhet og sannhet, i tillegg til brudd på opphavsretten av innholdet som produseres.
Løsningen på feilinformasjon vil kreve ikke bare handling fra vår side, men også en kollektiv forståelse av samfunnet og tilpasning av sosiale medier.
Aditya Ramesh, Dall-E teamleder
Imidlertid fortsetter kunstig intelligens som genererer videoer å bli sett på som et mulig tillegg for ulike situasjoner. Poenget er ikke å se på det som en erstatning, men å vite hvordan man bruker det strategisk. Filmproduksjon kan for eksempel dra nytte av teknologi for å transformere scenarier på en praktisk måte. Sekund Bill Peebles, «for å produsere en profesjonell film, trengs dyrt utstyr. Denne modellen vil gi hverdagslige sosiale medier-brukere mulighet til å lage innhold av høy kvalitet."
Showmetech TRIO
Se denne og andre nyheter på Showmetech TRIO, din ukentlige nyhetstrio:
Se også
Gemini erstatter Bard som Googles beste assistent for kunstig intelligens. Se hvordan du bruker
Tekst korrekturlest av: Pedro Bomfim
Oppdag mer om Showmetech
Registrer deg for å motta siste nytt på e-post.