Indeks
Midt i bombasten trend av anime-stilbildene har du kanskje lurt på: hvordan fungerer ChatGPT lager bilder i stil med Studio Ghibli? Han kunne ikke før? Vel ... det viser seg at den nye generative bildebehandlingsevnen til OpenAI Det er virkelig nytt og har alt å gjøre med en stor endring i hvordan selskapets kunstige intelligens-modell fungerer. Forstå, i denne teksten, hvordan ChatGPT klarte å gjenskape kunsten til Studio Ghibli og de viktigste forskjellene sammenlignet med andre modeller.
Hvordan lager ChatGPT bilder i Ghibli-stil?
For å forstå hvordan ChatGPT begynte å kunne generere bilder som de som ble opprettet i trend do Studio Ghibli, er det nødvendig å kjenne de viktigste endringene forårsaket av OpenAI i modellen GPT-4o, les nedenfor.
Hva har endret seg i GPT-4o-modellen?

Generering av bilder i GPT-4o er basert på arkitektur Transformator, som analyserer mønstre og assosierer tekstlige beskrivelser med visuelle elementer. I motsetning til "diffusjonsmodeller", som starter med et tilfeldig bilde og gradvis avgrenser det GPT-4o bruker en autoregressiv metode, og bygger bildet i sekvensielle trinn, noe som forbedrer visuell sammenheng og troskap til ønsket stil.
Etter hvert som nøyaktigheten og gjengivelsen av tekst i bilder forbedres, og evnen til å forstå og følge detaljerte meldinger forbedres, ChatGPT har økt sin kapasitet til å håndtere antall distinkte objekter i en enkelt scene (opptil 20, sammenlignet med tidligere mellom 5 og 8 objekter) og kan opprettholde de riktige relasjonene mellom dem.
Sammenlignet med tidligere modeller som f.eks DALL-E3, som brukte rørledninger (sett med trinn eller prosesser) separat for ulike typer medier, den GPT-4o bruker en enhetlig tilnærming, som tillater raskere svar og bilder som er mer konsistente med tekstkommandoer, og eliminerer behovet for flere mellomliggende prosesser. Dette betyr at modellen bedre kan tolke nyansene til spørsmål fra brukere, og sikre at det visuelle resultatet er mer på linje med den opprinnelige intensjonen.
All denne kraften kommer med et kontroversielt problem: med en større etterspørsel etter grafisk behandling på grunn av moteeksplosjonen på internett, OpenAI nødvendig for å begrense brukervennligheten til verktøyet i noen dager, spesielt for gratisbrukere av ChatGPT, fordi deres GPU «smeltet», ifølge selskapets administrerende direktør, Sam Altman. Til tross for ulempen, har generasjonen av avanserte bilder allerede blitt utgitt av selskapet for brukere av gratisplanen, som kunngjort av direktøren.
Hvordan aktiverer oppdateringen bilder i Ghibli-stil?

Men hva betyr alt dette for AIs evne til å fange estetikken til Studio Ghibli? Det viser seg at med den nye oppdateringen GPT-4o Den begynner å bedre forstå stilmønstre, fra massive eksempler på bilder, og lærer å gjenskape disse egenskapene basert på kommandoer gitt av brukeren.
selv OpenAI oppga ikke eksplisitt om deres opplæringsdatasett inkluderte spesifikke kunstverk Studio GhibliSom I Viagem de Chihiro ou Gutten og tranen – over et gap som skiller reproduksjonen av studiostiler fra levende kunstneres – modellens dyktighet i å gjenskape studioestetikken tyder sterkt på at han har blitt utsatt for et stort antall eksempler på filmene og relaterte stiler.
Gjennom denne utstillingen har GPT-4o lære de viktigste visuelle egenskapene som definerer stilen til Studio Ghibli, inkludert: følelsen av håndtegnet animasjon, som ofte minner om tradisjonell papiranimasjon; bakgrunner som fremkaller en følelse av undring og ro; uttrykksfulle karakterer som vanligvis har store, emosjonelle øyne; en myk, naturlig fargepalett dominert av pastell, myke toner; detaljerte miljøer som ofte blander fantasielementer med realisme
i tillegg GPT-4o Den kan også behandle bilder som input, slik at brukere kan transformere eksisterende visuelle elementer eller bruke dem som grunnlag for å generere nytt innhold. På denne måten, i tillegg til å slippe å si alle detaljene om den kunstneriske stilen de ønsker å reprodusere, trenger brukere heller ikke å beskrive seg selv eller bildet de ønsker å gjenskape, bare sette inn et bilde i chatten og be AI om å reprodusere det med animasjonsstilen – som du kan se i vår artikkel om Hvordan lage Ghibli-stilbilder med ChatGPT, med hint og oppfordringer.
Kan andre AI-er gjenskape Studio Ghiblis stil?
Lag nye bilder ved hjelp av chatbots er ikke en fersk nyhet, men kapasiteten oppnådd ved å oppdatere ChatGPT ved å analysere og reprodusere detaljene som foreslås av ledeteksten, erstatter de AI OpenAI foran sine hovedkonkurrenter, som f.eks Gemini, gjør Google, GrokFordi XAi e copilotFordi Microsoft, når det gjelder bildegenerering.
Se forskjellen mellom det samme bildet forvandlet til en tegning med en linje inspirert av Studio Ghibli etter samme oppfordring:
Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli

I tillegg til å fange detaljene i originalbildet bedre, er en av de største fremskrittene innen generativ bildebehandling GPT-4o Dette er tydelig i muligheten til å gjengi logo og bokstaver på skjorten, noe som er svært vanskelig i andre modeller.
Mens Grok klarer på en måte å gjenskape kjennetegn ved stilen til Studio Ghibli, selv om det lider av detaljene i bildet, den Gemini går helt i mot kornet, noe som resulterer i generisk kunst. Det er verdt å huske at Google investerer allerede i en oppdatering av de generative bildene av Gemini, som gjør det mulig å lage komplekse bilder og fotoredigering – verktøy som kan testes gjennom AI Studio. Den copilotFordi Microsoft, klarte ikke å svare på forespørselen.
Har du allerede testet verktøyet for å gå inn i Studio Ghibli trend? Fortell oss i kommentarene.
Se også
Tekst revidert av Alexandre Marques den 01.
Kilder: The Times of India, Hindustan Times, Økonomiske tider
Oppdag mer om Showmetech
Registrer deg for å motta siste nytt på e-post.