Bild av en llm på en bakgrund med andra element

Inside LLMs: How ChatGPT Thinks

Avatar av Luis Antonio Costa
Förstå vad LLM är och hur de fungerar, hjärnan bakom AI-agenter som ChatGPT

Den som tillfrågas hur ChatGPT, den mest populära AI-agenten idag fungerar, många kommer att ha svaret på tungspetsen: artificiell intelligens. Men det svaret är väldigt vagt. Trots att det är ett av studieområdena med störst forskning och utveckling inom datorer idag, omfattar artificiell intelligens flera vetenskapliga teman.

En av dem är nyckeln bakom hur ChatGPT och de flesta AI-agenter som finns tillgängliga på webben fungerar: LLM. I den här artikeln kommer vi att utforska i detalj hur detta koncept revolutionerade artificiell intelligens och vår värld.

Vad är stora språkmodeller (LLM)?

Stora språkmodeller (LLMs, Large Language Models, på portugisiska) är algoritmer för Deep Learning (Deep Learning, på portugisiska) kan utföra en rad uppgifter Naturlig språkbehandling (Natural Language Processing, på portugisiska). Puh, så många akronymer, eller hur?

LLM:er använder transformatormodeller och tränas med hjälp av massiva datamängder. Några exempel på populära datauppsättningar är: LAION-2B-en, CCAW e Wikitext-103. En transformatormodell kan verka som en robot som förvandlas till en bil, men inom AI-området är det den vanligaste arkitekturen för en LLM.

Transformatorn består av en kodare (kodare, på portugisiska) och en avkodare (avkodare, på portugisiska). I grund och botten är kodaren ansvarig för att separera orden i en mening eller text i små delar som kallas tokens, och avkodaren utför matematiska operationer för att identifiera relationer mellan dessa tokens.

Förenklad transformatorarkitektur
Transformatorarkitekturen kodar ord och meningar i kodaren och avkodar dem med avkodaren som ska användas av LLM. (Bild: Showmetech)

Den stora skillnaden mellan transformatorer och arkitekturen som användes för år sedan, LSTM (Långt korttidsminne, eller Long Short Term Memory), är att transformatorer arbetar med självuppmärksamhetsmekanismer, det vill säga att de kan lära sig snabbare när de överväger delar av en mening eller till och med dess sammanhang, för att generera förutsägelser.

LLM är mångsidiga AI-system som förutom att kunna bearbeta mänskligt språk även kan utföra andra uppgifter som att analysera proteinstrukturer och generera programmeringskod. För att fungera effektivt kräver LLM:er förutbildning och noggrann justering för att hantera funktioner som textklassificering, sammanfattning och frågesvar, vilket gör dem värdefulla för branscher som hälsovård, finans och underhållning.

Nyckelkomponenter

LLM:er är sammansatta av flera lager av neurala nätverk. I ett neuralt nätverk (Neuralt nätverk, på engelska), används i princip en variabel som indata, bearbetad med olika vikter och matematiska ekvationer av ett eller flera lager, och ett utdatavärde genereras.

Den första typen av neurala nätverk som finns i LLM:er är inbäddningsskiktet (inbäddningslager, på engelska). Den är ansvarig för inbäddningsprocessen, fångar den semantiska och syntaktiska innebörden av input, så att modellen kan förstå sammanhanget.

Sedan har vi feedforward-lagret (FFN, Feedforward Network, på engelska) som är sammansatt av flera sammankopplade lager som transformerar inbäddningsingångarna. I denna process tillåter dessa lager modellen att samla abstraktioner på högre nivå, dvs förstå användarens avsikt med textinmatningen.

Nyckelkomponenter i en llm beskrivs
The Neural Network, Embedding Layer och Feedforward Network är nyckelkomponenterna för hur en LLM fungerar. (Bild: Showmetech)

Därefter har vi det återkommande lagret som tolkar orden i inmatningstexten i följd. Det är ansvarigt för att fånga förhållandet mellan ord i en mening.

Sist men inte minst har vi uppmärksamhetsmekanismen som gör att LLM kan fokusera på enskilda delar av inmatningstexten som är relevanta för den tilldelade uppgiften. Detta lager tillåter modellen att generera de mest lämpliga och korrekta utdata.

hur de fungerar

Nu när vi vet vad LLM är och vad deras nyckelkomponenter är, kan vi tydligare förstå hur de fungerar. I grund och botten tar transformatorbaserade LLM en ingång, kodar den och avkodar den sedan för att producera en förutspådd utdata. Men innan en LLM kan ta en textinmatning och generera en förutspådd utdata, behöver den träning för att utföra allmänna funktioner och finjustering för att den ska kunna utföra specifika uppgifter.

Förträning (Före träning, på engelska) är en klassisk process inom området Maskininlärning (Maskininlärning, på engelska) inom artificiell intelligens. Denna process, som namnet antyder, består av förträning av LLM:er med hjälp av stora textdatauppsättningar av biljoner ord från webbplatser som t.ex. wikipedia, GitHub, mellan andra. När allt kommer omkring måste LLM lära sig någonstans, som ett litet barn, eller hur?

Under detta skede utför LLM så kallad oövervakad inlärning (Oövervakat lärande, på engelska) – en process där datamängder helt enkelt läses utan specifika manipuleringsinstruktioner. Med andra ord, utan en "instruktör", är LLM:s egen AI-algoritm ansvarig för att lära sig betydelsen av varje ord och relationerna mellan dem. Dessutom lär sig LLM också att särskilja ord baserat på sammanhang. Till exempel lär hon sig att förstå om "höger" betyder "rätt" eller bara är "motsatsen till vänster."

Nu är finjusteringsprocessen (Finjustering, på engelska) tjänar till att exakt "justera" LLM för att effektivt utföra specifika uppgifter, såsom textöversättning, för att optimera dess prestanda. Att justera uppmaningar (frågor och instruktioner som ges till LLM) fungerar som en sorts finjustering, eftersom den kan träna modellen att utföra en viss uppgift.

LLM konstruktionssteg
Designprocessen bakom en LLM består av tre huvudsteg: förutbildning, oövervakad inlärning och finjustering. (Bild: Showmetech)

För att en stor språkmodell ska kunna utföra en specifik uppgift, såsom översättning, måste den vara inställd för den specifika uppgiften. Finjustering optimerar prestanda för specifika uppgifter.

Snabbjustering har en liknande funktion som finjustering, utbildning av en modell för att utföra en specifik uppgift genom uppmaningar om få prov eller noll-försök. Nedan är ett exempel på en "sentimentanalys"-övning med en uppmaning:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

Baserat på resultaten som erhållits i detta exempel skulle LLM förstå, genom den semantiska betydelsen av "hemskt" och eftersom ett motsatt exempel gavs, att användarens känsla i det andra exemplet är "negativ".

Användningsscenarier

Som vi nämnde tidigare kan LLM:er användas för flera ändamål:

  • Informationssökning: I det här fallet kan vi föreställa oss att det används i sökmotorer på webben, som Google eller Bing. När en användare använder sökfunktionen i dessa tjänster använder de LLM:er för att producera information i form av ett svar på deras begäran. LLM:er kan hämta information, sammanfatta den och kommunicera svaret i form av en konversation med användaren.
  • Generering av text och programmeringskod: LLM:er är den huvudsakliga "motorn" bakom Generativ AI som ChatGPT, och kan generera text och programmeringskod baserat på ingångar och uppmaningar. Till exempel kan chatGPT förstå mönster och kan effektivt svara på användarförfrågningar som "skriv en dikt om blommor i stil med Manuel Bandeira" eller "skriv en Python-kod som kan sortera en lista med filmer i alfabetisk ordning".
  • Chatbots och Conversational AI:er: LLM:er kan redan erbjuda kundservice genom chatbot-agenter som samtalar med konsumenter, tolkar innebörden av deras frågor och problem och erbjuder lämpliga svar eller vägledning.

Utöver dessa användningsscenarier har LLM:er visat sig vara ett lovande AI-verktyg inom områdena teknik, hälsa och vetenskap, marknadsföring, juridik och även för användning i banksystem. För att ge dig en uppfattning kan LLM för närvarande förutsäga med en hög grad av noggrannhet förekomst av bröstcancer helt enkelt analysera uppsättningar av cellprover med en högre nivå av noggrannhet än många erfarna läkare.

Robot pratar med en läkare på en bakgrund med grafik
Sjukvårdsområdet kan dra stor nytta av att använda LLM:er för uppgiftsautomatisering. (Bild: Reproduktion/Cogitotech)

LLMs och Generative Pre-Trained Transformer (GPT)

O Generativ förtränad transformator (GPT) är en specifik typ av LLM som använder en transformatorarkitektur och utvecklades av företaget OpenAI. Det är utformat för att förstå, generera och manipulera naturligt språk (som portugisiska eller engelska) på ett mycket effektivt och realistiskt sätt.

Genom att dela upp namnet kan vi bättre förstå vad en GPT är:

  • generativ (Generativ, på portugisiska): indikerar att modellen genererar text, det vill säga att den kan producera nya meningar, svar, sammanfattningar, koder etc.
  • Förutbildad (Förtränad, på portugisiska): Det innebär att den är förtränad på en stor mängd text från internet, såsom böcker, artiklar, hemsidor och annat. Den kan sedan anpassas för specifika uppgifter.
  • Transformator: Som vi nämnde tidigare är detta den neurala nätverksarkitekturen som ligger till grund för modellen. Det är mycket parallelliserbart (kan utföra flera uppgifter samtidigt) och effektivt att hantera långa textsekvenser.
Openia chatgpt med en hjärna på sidan och elektroniska kretsar
ChatGPT, från företaget OpenAI, är den mest kända AI-agenten som använder GPT-modellen. (Bild: Reproduktion/Knowledgiate)

Den stora skillnaden mellan GPT och andra LLM är dess utbildningsfas, som består av 3 olika processer:

  • Förträning: Enorma mängder data extraheras från Internet, böcker och till och med videor och musik och bearbetas sedan till tokens.
  • Instruktioner för finjustering: Här "lärs" modellen om hur den ska svara på specifika instruktioner, och anpassar sina svar så att de blir mer exakta.
  • Förstärkt lärande genom mänsklig feedback: I likhet med finjustering görs här "undervisningen" genom mänsklig feedback som inducerar processen med "förstärkningsinlärning", där AI:n lär sig vad som är "rätt" och vad som är "fel" genom upprepningar och information från en extern agent, i detta fall användaren som använder AI:n.

Historia: från miljarder ord till komplexa texter

Även om uppsvinget i språkmodeller bara inträffade 2017, var IBMs anpassningsmodeller sedan 1990 pionjärer inom statistisk språkmodellering. År 2001 uppnådde en modell tränad på 3 miljoner ord "toppmoderna" när det gäller noggrannhet i att tolka texter och konstruera sammanhängande meningar.

Ord i en digital datauppsättning
Miljon för miljon blev LLM mer robusta och utförde mer komplexa uppgifter. (Bild: Reproduction/Singularity Hub)

Från 2012 och framåt Neurala nätverk blev mer framträdande i AI-världen och började snart användas för språkuppgifter. 2016 antog Google Neural maskinöversättning (Neural Machine Translation, på portugisiska) med modeller baserade på detta koncept. Under 2018 gick företaget OpenAI all in i utvecklingen av AI-agenter baserade på LLM och lanserade GPT-1 för testning, och det var först året efter som GPT-2 började väcka allmän uppmärksamhet på grund av dess potentiella oetiska användningsområden.

År 2020 GPT-3 kom med begränsad åtkomst endast via API, men det var först 2022 som ChatGPT (AI-agenten "driven" av GPT-3) fångade allmänhetens uppmärksamhet runt om i världen.
GPT-4 kommer att lanseras 2023 med multimodala möjligheter, även om tekniska detaljer inte har släppts. 2024 lanserade OpenAI modell o1, fokuserat på att generera långa kedjor av resonemang. Dessa verktyg har drivit den utbredda adoptionen av LLM inom olika forskningsområden.

Person som skriver på chatgpt på en bärbar dator
Från och med 2022 har LLM:er vunnit framträdande över hela världen när de används i ChatGPT, en av de mest populära AI-agenterna genom tiderna. (Bild: Reproduktion/OpenAI)

Från och med 2024 är alla de största och mest effektiva LLM:erna baserade på transformatorarkitekturen, med vissa forskare som experimenterar och testar med andra arkitekturer, som t.ex. Återkommande neurala nätverk (Återkommande neurala nätverk, på portugisiska).

LLMs fördelar och begränsningar

Med ett brett utbud av applikationer är LLM:er exceptionellt fördelaktiga för problemlösning eftersom de tillhandahåller information på en tydlig och enkel stil som är lätt för användarna att förstå. Dessutom kan de användas för språköversättning, meningskomplettering, sentimentanalys, frågesvar, matematiska ekvationer och mer.

Prestandan för LLM:er förbättras ständigt i takt med att mer data och parametrar läggs till. Med andra ord, ju mer du lär dig, desto bättre blir du. Dessutom kan stora språkmodeller uppvisa vad som kallas "lärande i sammanhang." När en LLM väl har förtränats, låter den få-shot prompten modellen lära sig av prompten utan några ytterligare parametrar. På så sätt lär han sig hela tiden.

Genom att visa inlärning i ett sammanhang lär sig LLM:er snabbt eftersom de inte kräver ytterligare vikt, resurser och parametrar för träning. De är snabba i den meningen att de inte kräver många exempel för att bli mer "intelligenta".

Hjärninlärning från flera källor
Liksom alla AI-baserade algoritmer lär sig LLM bättre ju mer data de konsumerar och analyserar. (Bild: Reproduktion/Inbyggd)

En nyckelfunktion hos LLM:er är deras förmåga att svara på oförutsägbara frågor. Ett traditionellt datorprogram, till exempel, tar emot kommandon i sin accepterade syntax eller från en given uppsättning användarinmatningar. Å andra sidan kan en LLM svara på naturligt mänskligt språk och använda dataanalys för att svara på en ostrukturerad fråga eller begäran på ett vettigt sätt. Medan ett typiskt datorprogram inte skulle känna igen en uppmaning som "Vilka är de fem största rockbanden i historien?", skulle en LLM kunna svara med en lista på fem sådana band och ett ganska övertygande argument för varför de är bäst.

Men när det gäller den information de tillhandahåller kan LLM:er bara vara lika tillförlitliga som de uppgifter de får. Om de får falsk information i förträningsfasen kommer de att tillhandahålla falsk information som svar på användarfrågor. Ibland kan LLM:er också "hallucinera" genom att skapa svar och till och med falska litterära källor när de inte kan ge ett korrekt svar.

Till exempel, 2022, nyhetsbyrån Fast Company frågade ChatGPT om företagets tidigare finansiella kvartal Tesla. Medan ChatGPT gav en sammanhängande nyhetsartikel som svar, var mycket av informationen i den påhittad. Eftersom det är ett AI-baserat system är det känt att det ständigt förbättras, men det är fortfarande felaktigt att lita på 100 % av svaren som produceras av LLM:er.

När det gäller säkerhet är användarvända applikationer baserade på LLM:er lika benägna för buggar som alla andra applikationer. LLM:er kan också manipuleras genom skadlig input för att ge vissa typer av svar framför andra, inklusive farliga eller oetiska svar.

Lego chatbot gör misstag i uppgifter
AI-system baserade på LLM är ännu inte idiotsäkra och kan göra misstag och svara med falsk information. (Bild: Reproduktion/IEEE Spectrum)

Slutligen är ett av säkerhetsproblemen med LLM:er att användare kan ladda upp säker och konfidentiell data för att öka sin egen produktivitet. Men LLM:er använder indata de får för att vidareutbilda sina modeller, och är inte designade för att vara säkra valv, eftersom de kan exponera känslig data som svar på frågor från andra användare.

LLM och intelligensen bakom ord

Som ett barn som släpps loss i ett gigantiskt bibliotek är LLM: er intelligenta AI-system som lär sig att förstå och återskapa naturligt mänskligt språk baserat på enorma mängder data. Samtidigt som det ger många fördelar för vanliga användare och blir ett kraftfullt hjälpverktyg i den professionella miljön, måste kapaciteten och farorna med LLM fortfarande studeras mycket noggrant.

Och du, vad tyckte du om förklaringen i den här artikeln om LLM? Lämna din åsikt i kommentarerna.

se mer

källor: Elasticsearch, CloudFare, IBM

Granskats av Tiago Rodrigues den 16-04-2025


Upptäck mer om Showmetech

Registrera dig för att få våra senaste nyheter via e-post.

Lämna en kommentar
relaterade inlägg