Gemini 1 pro

Gemini 1.5 Pro-uppdatering gör att AI lyssnar och genererar innehåll

João Lucas Batista avatar
Med den nya uppdateringen förstår och analyserar nu Googles artificiella intelligens ljud. Imagen 2 kan nu lägga till och ta bort bildelement och skapa 4-sekunders GIF

A Googles artificiell intelligensen tvillingarna, fick en ny och innovativ uppdatering tisdagen den 9 april under Google CloudNext. Med uppgraderingen, Gemini 1.5 Pro, fick förmågan att förstå och analysera ljud- och videolinjer, producera innehåll baserat på vad som skrivs in i applikationen.

Inledningsvis är den nya funktionen endast tillgänglig för användare av Vertex AI, programvara inriktad på maskininlärning (maskininlärning), som används av programmerare och forskare för att utveckla nya AI.

Vad gör Gemini, Googles AI?

Gemini 1. 5 pro-uppdatering gör bland annat att lyssna och generera innehåll. Med den nya uppdateringen förstår och analyserar nu Googles artificiella intelligens ljud. Imagen 2 kan nu lägga till och ta bort bildelement och skapa 4-sekunders gifs
Gemini gränssnitt. Bild: Lucas Gomes/ Showmetech

O tvillingarna, Googles artificiella intelligens, lanserades i december förra året, ersätter Bard, och utmärker sig för sin förmåga att hantera mycket komplexa uppgifter, från kodning till förfinade logiska resonemang.

Artificiell intelligens har funktioner som kan hjälpa användaren i de mest olika uppgifterna, manipulera en mängd olika filer, med syftet att kombinera olika typer av information, förutom att organisera dem. Dess funktioner låter dig använda olika innehållsformat, inklusive:

  • texter;
  • bilder;
  • ljud;
  • videoklipp; Det är
  • programmeringsspråk.

O tvillingarna Den har tre driftslägen, med olika egenskaper:

  • Gemini Ultra — Större och mer kapabel för mycket komplexa uppgifter.
  • GeminiPro — bäst för att skala en mängd olika uppgifter;
  • Tvillingdvärg — effektivare för mobila uppgifter.

Gemini 1.5 Pro-uppdatering och dess nya funktioner

Gemini 1. 5 pro-uppdatering gör bland annat att lyssna och generera innehåll. Med den nya uppdateringen förstår och analyserar nu Googles artificiella intelligens ljud. Imagen 2 kan nu lägga till och ta bort bildelement och skapa 4-sekunders gifs
Gemini IA. Bild: rafares/Shutterstock)

Denna nya modell, presenterad av teknikjätten, representerar ett betydande framsteg jämfört med den tidigare, med förbättringar i prestanda och förståelse för långa sammanhang. Gemini 1.5 Pro, som är den initiala versionen som görs tillgänglig för testning, är optimerad för en mängd olika uppgifter och är mer effektiv när det gäller beräkning, är en mer robust version och kan uppfylla kraven för ännu mer komplexa aktiviteter.

Dessutom har Gemini 1.5 Pro innehåller en experimentell resurs, som i teorin skulle kunna bearbeta upp till 1 miljon tokens för storskaliga basmodeller, vilket kommer att bli revolutionerande. Enligt Google representerar denna enorma mängd 700.000 30.000 ord och XNUMX XNUMX rader kod, vilket motsvarar en timmes video ou 11 timmars ljud.

Nya verktyg i Gemini 1.5 Pro tillåter applikationen att resonera mellan bilder (ramar) och ljud (tal) för videor som laddas upp på Google AI Studio, vilket kommer att underlätta innehållsproduktion. Enligt officiell information är Googles AI-uppdatering tillgänglig i mer än 180 länder genom Gemini API (Application Programming Interface, på portugisiska), med en oöverträffad inbyggd förmåga att förstå ljud och ett nytt API som underlättar filhantering.

Utgåvan innehåller också nya systeminstruktioner och lägesfunktioner. JSON (lättviktsdataformat för utbyte av information mellan datorsystem). Google tror på potentialen i den nya uppdateringen och lovar att textinbäddningsmodellen överträffar konkurrenter med liknande funktioner.

O Gemini 1.5 Pro är för närvarande endast tillgänglig via Vertex AI.

Imagen 2 kan skapa GIF-filer

under evenemanget Google CloudNext, ett annat viktigt tillkännagivande gjordes av Google: AI-modellen Imagen 2, som kan generera bilder och korta videor från prompter av text. Med detta är det möjligt att skapa GIF:er på upp till fyra sekunder från olika kameravinklar och även visa rörelse.

Skillnaden med detta verktyg är just möjligheten att utforska olika vinklar, med mer dynamik i scenerna, långt bortom AI-videor genererade med statiska bilder och begränsade rörelser.

Exempel på skapelser från Imagen 2 i Vertex IA. Video: Google Cloud/ YouTube

O Imagen 2 har förmågan att producera videoklipp, även känd som levande bilder, med låg upplösning X 640 360. Dessutom använder Google sin teknik SynthID att tillämpa en osynlig vattenstämpel i AI-genererade klipp och bilder. Företaget hävdar att SynthID kan stödja redigeringar och till och med komprimering, åtgärder som syftar till att främja datasäkerhet.

Hittills har resurserna för Imagen 2 är endast tillgängliga via Vertex AI, som nu inkluderar stöd för intern och extern målning, samt möjligheten att redigera bilder med AI, vilket gör att du kan utöka gränserna eller lägga till/ta bort specifika delar av bilden. Verktyg riktade till marknadsförare och skapande av innehåll för kampanjer, bland annat reklammaterial och videoplattformar.

Vertex AI

Gemini 1. 5 pro-uppdatering gör bland annat att lyssna och generera innehåll. Med den nya uppdateringen förstår och analyserar nu Googles artificiella intelligens ljud. Imagen 2 kan nu lägga till och ta bort bildelement och skapa 4-sekunders gifs
Vertex AI-plattform. Bild: Google/Reproduktion

O Vertex AI är en plattform maskininlärning (ML) som möjliggör utbildning och driftsättning av AI-verktyg och applikationer, inklusive anpassning av stora språkmodeller (LLM) för användning i AI-drivna applikationer.

Plattformen sammanställer Googles olika möjligheter och applikationer, och integrerar arbetsflöden för datateknik, datavetenskap och datateknik. maskininlärning, vilket möjliggör samarbete mellan team genom en gemensam uppsättning verktyg, samt skala applikationer med fördelarna med Google Cloud.

A Vertex AI erbjuder flera alternativ för utbildning och implementering av modeller:

  • AutoML låter dig träna tabell-, bild-, text- eller videodata utan att behöva skriva kod eller förbereda datadelningar.
  • Personlig träning ger dig full kontroll över träningsprocessen, inklusive användningen av ramverk föredragen ML-kod, egen träningskodning och val av alternativ för inställning av hyperparameter.
  • modell trädgård Möjliggör upptäckt, testning, anpassning och distribution av Vertex AI-modeller, inklusive modellval och öppen källkodsresurser (OSS).
  • A generativ AI ger tillgång till Googles stora generativa AI-modeller i flera modaliteter (text, kod, bilder, tal). Du kan ställa in Google LLM för att möta dina behov och distribuera dem för användning i dina AI-drivna applikationer.

Källa: Gränsen, Google för utvecklare, Toms guide, Beebom, Google Cloud

Veja também:

Granskats av Glaucon Vital den 10/4/24.

Anmäl dig för att få våra nyheter:

Lämna en kommentar

O seu endereço e não será Publicado. Campos obrigatórios são marcados com *

relaterade inlägg