Afbeelding van een llm op een achtergrond met andere elementen

Binnen LLM's: hoe ChatGPT denkt

Avatar van Luis Antonio Costa
Begrijp wat LLM's zijn en hoe ze werken, de hersenen achter AI-agenten zoals ChatGPT

Iedereen die gevraagd wordt hoe de ChatGPT, de populairste AI-agent van dit moment werkt, zullen velen het antwoord op het puntje van hun tong hebben: kunstmatige intelligentie. Maar dat antwoord is erg vaag. Hoewel kunstmatige intelligentie een van de vakgebieden is met de meeste onderzoeks- en ontwikkelingsactiviteiten op computergebied, omvat het verschillende wetenschappelijke thema's.

Eén daarvan is de sleutel achter de manier waarop ChatGPT en de meeste AI-agenten die op het web beschikbaar zijn, werken: LLM's. In dit artikel onderzoeken we gedetailleerd hoe dit concept een revolutie teweeg heeft gebracht in kunstmatige intelligentie en onze wereld.

Wat zijn grote taalmodellen (LLM's)?

Grote taalmodellen (LLMs, Large Language Models, in het Portugees) zijn algoritmen voor Diepe leren (Deep Learning, in het Portugees) in staat om een ​​reeks taken uit te voeren Natural Language Processing (Natuurlijke taalverwerking, in het Portugees). Oef, zoveel afkortingen, toch?

LLM's maken gebruik van transformatormodellen en worden opgeleid met behulp van enorme datasets. Enkele voorbeelden van populaire datasets zijn: LAION-2B-nl, CCAW e WikiText-103. Een transformatormodel lijkt misschien op een robot die transformeert in een auto, maar binnen de AI-sector is dit de meest voorkomende architectuur voor een LLM.

De transformator bestaat uit een encoder (encoder, in het Portugees) en een decoder (decoder, in het Portugees). In principe is de encoder verantwoordelijk voor het opdelen van de woorden van een zin of tekst in kleine stukjes, zogenaamde tokens. De decoder voert wiskundige bewerkingen uit om de relaties tussen deze tokens te identificeren.

Vereenvoudigde transformatorarchitectuur
De Transformer-architectuur codeert woorden en zinnen in de encoder en decodeert ze met de decoder die door de LLM wordt gebruikt. (Afbeelding: Showmetech)

Het grote verschil tussen transformatoren en de architectuur die jaren geleden werd gebruikt, LSTM (Lange korte termijn geheugen, of Langetermijngeheugen), houdt in dat transformatoren werken met zelf-aandachtmechanismen, dat wil zeggen dat ze sneller kunnen leren wanneer ze onderdelen van een zin of zelfs de context ervan beschouwen, om zo voorspellingen te doen.

LLM's zijn veelzijdige AI-systemen die naast het verwerken van menselijke taal ook andere taken kunnen uitvoeren, zoals het analyseren van eiwitstructuren en het genereren van programmeercode. Om efficiënt te kunnen functioneren, is een LLM-opleiding vooraf en een zorgvuldige afstemming op functies als tekstclassificatie, samenvatting en vraagbeantwoording vereist. Hierdoor zijn ze waardevol voor sectoren als de gezondheidszorg, de financiële sector en de entertainmentindustrie.

Belangrijkste componenten

LLM's bestaan ​​uit meerdere lagen van neurale netwerken. In een neuraal netwerk (Neural Network, in het Engels), in principe wordt een variabele gebruikt als invoer, verwerkt met verschillende gewichten en wiskundige vergelijkingen door een of meer lagen, en wordt er een uitvoerwaarde gegenereerd.

Het eerste type neuraal netwerk dat in LLM's aanwezig is, is de inbeddingslaag (inbeddingslaag, in het Engels). Het is verantwoordelijk voor het inbeddingsproces, waarbij de semantiek en syntactische betekenis van de invoer worden vastgelegd, zodat het model de context kan begrijpen.

Dan hebben we de feedforward-laag (FFN, Feedforward Network in het Engels). Deze laag is samengesteld uit meerdere onderling verbonden lagen die de ingesloten invoer transformeren. In dit proces zorgen deze lagen ervoor dat het model abstracties op een hoger niveau kan verzamelen, dat wil zeggen inzicht kan krijgen in de bedoeling van de gebruiker met de tekstinvoer.

Belangrijkste onderdelen van een llm beschreven
Het neurale netwerk, de insluitende laag en het feedforwardnetwerk zijn de belangrijkste componenten voor het functioneren van een LLM. (Afbeelding: Showmetech)

Vervolgens hebben we de terugkerende laag die de woorden in de invoertekst op volgorde interpreteert. Het is verantwoordelijk voor het vastleggen van de relatie tussen de woorden in een zin.

Ten slotte hebben we het aandachtsmechanisme waarmee de LLM zich kan concentreren op afzonderlijke onderdelen van de invoertekst die relevant zijn voor de toegewezen taak. Dankzij deze laag kan het model de meest geschikte en nauwkeurige uitvoer genereren.

hoe ze werken

Nu we weten wat LLM's zijn en wat de belangrijkste onderdelen ervan zijn, begrijpen we beter hoe ze werken. In principe nemen op transformatoren gebaseerde LLM's een invoer, coderen deze en decoderen deze vervolgens om een ​​voorspelde uitvoer te produceren. Voordat een LLM echter tekstinvoer kan verwerken en een voorspelde uitvoer kan genereren, moet deze worden getraind om algemene functies uit te voeren. Vervolgens moet de LLM worden verfijnd om specifieke taken uit te kunnen voeren.

Vooropleiding (Vooropleiding, in het Engels) is een klassiek proces op het gebied van Machinaal leren (Machine leren, in het Engels) binnen Kunstmatige Intelligentie. Dit proces bestaat, zoals de naam al aangeeft, uit het vooraf opleiden van LLM's met behulp van grote tekstuele datasets van biljoenen woorden van websites zoals Wikipedia, GitHub, tussen anderen. De LLM moet tenslotte ergens van leren, net als een klein kind, toch?

Tijdens deze fase voert de LLM zogenaamd ongeleid leren uit (Niet-gecontroleerd leren, in het Engels) – een proces waarbij datasets eenvoudigweg worden gelezen zonder specifieke manipulatie-instructies. Met andere woorden, zonder een ‘instructeur’ is het eigen AI-algoritme van de LLM verantwoordelijk voor het leren van de betekenis van elk woord en de relaties ertussen. Bovendien leert de LLM-student om woorden te onderscheiden op basis van de context. Ze leert bijvoorbeeld te begrijpen of ‘rechts’ ‘correct’ betekent of gewoon ‘het tegenovergestelde van links’ is.

Nu het fine-tuningproces (Scherpstellen, in het Engels) heeft tot doel de LLM nauwkeurig aan te passen om specifieke taken, zoals tekstvertaling, efficiënt uit te voeren en de prestaties ervan te optimaliseren. Het aanpassen van prompts (vragen en instructies die aan de LLM worden gegeven) werkt als een soort fine-tuning, omdat het model hiermee wordt getraind om een ​​bepaalde taak uit te voeren.

Machine learning-modellen: pretraining, onbegeleid leren en finetuning.
Het ontwerpproces van een LLM bestaat uit drie hoofdstappen: pre-training, ongeleid leren en fine tuning. (Afbeelding: Showmetech)

Om een ​​groot taalmodel een specifieke taak, zoals vertalen, te laten uitvoeren, moet het worden afgestemd op die specifieke taak. Door fijnafstemming worden de prestaties voor specifieke taken geoptimaliseerd.

Prompt tuning heeft een vergelijkbare functie als fine tuning, waarbij een model wordt getraind om een ​​specifieke taak uit te voeren via prompts met een paar of helemaal geen pogingen. Hieronder ziet u een voorbeeld van een oefening in ‘sentimentanalyse’ met behulp van een prompt met een paar shots:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

Op basis van de in dit voorbeeld verkregen resultaten zou LLM, door de semantische betekenis van ‘verschrikkelijk’ en omdat er een tegengesteld voorbeeld werd gegeven, begrijpen dat het sentiment van de gebruiker in het tweede voorbeeld ‘negatief’ is.

Gebruiksscenario's

Zoals we eerder al aangaven, kunnen LLM's voor verschillende doeleinden worden gebruikt:

  • Informatie ophalen: In dit geval kunnen we ons voorstellen dat het gebruikt wordt in webzoekmachines, zoals Google en Bing. Wanneer een gebruiker de zoekfunctie van deze diensten gebruikt, gebruiken ze LLM's om informatie te genereren in de vorm van een antwoord op hun verzoek. LLM's kunnen informatie ophalen, samenvatten en het antwoord communiceren in de vorm van een gesprek met de gebruiker.
  • Tekst- en programmeercodegeneratie:LLM's zijn de belangrijkste 'motor' achter generatieve AI zoals ChatGPT en kunnen tekst en programmeercode genereren op basis van invoer en prompts. chatGPT kan bijvoorbeeld patronen begrijpen en efficiënt reageren op verzoeken van gebruikers zoals ‘schrijf een gedicht over bloemen in de stijl van Manuel Bandeira’ of ‘schrijf een Python-code die een lijst met films in alfabetische volgorde kan sorteren’.
  • Chatbots en conversationele AI's: LLM's kunnen nu al klantenservice bieden via chatbot-agenten die met consumenten communiceren, de betekenis van hun vragen en zorgen interpreteren en passende antwoorden of begeleiding bieden.

Naast deze toepassingsscenario's blijken LLM's een veelbelovende AI-tool te zijn op het gebied van technologie, gezondheid en wetenschap, marketing, recht en ook voor gebruik in banksystemen. Om u een idee te geven: LLM's kunnen momenteel met een hoge mate van nauwkeurigheid de het optreden van borstkanker het eenvoudigweg analyseren van sets celmonsters met een hogere nauwkeurigheid dan veel ervaren clinici.

Robot praat met een dokter op een achtergrond met afbeeldingen
De gezondheidszorgsector kan veel baat hebben bij het gebruik van LLM's voor taakautomatisering. (Afbeelding: Reproduction/Cogitotech)

LLM's en Generative Pre-Trained Transformer (GPT)

O Generatieve voorgetrainde transformator (GPT) is een specifiek type LLM dat gebruikmaakt van een transformerarchitectuur en is ontwikkeld door het bedrijf OpenAI. Het is ontworpen om natuurlijke taal (zoals Portugees of Engels) op een zeer efficiënte en realistische manier te begrijpen, genereren en manipuleren.

Als we de naam analyseren, kunnen we beter begrijpen wat een GPT is:

  • Generatief (Generatief, in het Portugees): geeft aan dat het model tekst genereert, dat wil zeggen dat het in staat is nieuwe zinnen, antwoorden, samenvattingen, codes, etc. te produceren.
  • Vooraf opgeleid (Vooraf getraind, in het Portugees): Dat wil zeggen dat het apparaat al is getraind met een grote hoeveelheid tekst van internet, zoals boeken, artikelen, websites en meer. Vervolgens kan het voor specifieke taken worden aangepast.
  • Transformator: Zoals we eerder al aangaven, is dit de architectuur van het neurale netwerk die de basis vormt voor het model. Het is zeer parallelliseerbaar (kan meerdere taken tegelijkertijd uitvoeren) en efficiënt bij het verwerken van lange tekstreeksen.
Openia chatgpt met een brein aan de zijkant en elektronische circuits
ChatGPT, van het bedrijf OpenAI, is de bekendste AI-agent die het GPT-model gebruikt. (Afbeelding: Reproductie/Knowledgiate)

Het grote verschil tussen GPT en andere LLM's is de opleidingsfase, die uit drie verschillende processen bestaat:

  • Vooropleiding: Er worden enorme hoeveelheden data uit het internet, boeken en zelfs video's en muziek gehaald en vervolgens verwerkt tot tokens.
  • Instructies voor fijnafstelling: Hierbij wordt het model ‘geleerd’ hoe het moet reageren op specifieke instructies, waarbij de reacties worden afgestemd op de nauwkeurigheid ervan.
  • Reinforcement Learning door menselijke feedback: vergelijkbaar met fine-tuning, wordt hier het "onderwijzen" gedaan door middel van menselijke feedback die het proces van "reinforcement learning" induceert, waarbij de AI leert wat "goed" en wat "fout" is door herhalingen en informatie van een externe agent, in dit geval de gebruiker die de AI gebruikt.

Geschiedenis: van miljarden woorden tot complexe teksten

Hoewel de bloei van taalmodellen pas in 2017 plaatsvond, waren de uitlijningsmodellen van IBM al sinds 1990 pioniers op het gebied van statistische taalmodellering. In 2001 behaalde een model dat was getraind op 3 miljoen woorden de volgende resultaten: "state of art" op het gebied van nauwkeurigheid bij het interpreteren van teksten en het construeren van samenhangende zinnen.

Kunstmatige intelligentie en technologie staan ​​centraal, met de nadruk op innovatieve hulpmiddelen en moderne technologische ontwikkelingen.
Miljoen na miljoen werden LLM's robuuster en voerden ze complexere taken uit. (Afbeelding: Reproduction/Singularity Hub)

Vanaf 2012 Neurale netwerken kregen steeds meer aandacht in de wereld van AI en werden al snel gebruikt voor taaltaken. In 2016 heeft Google de Neurale machine vertaling (Neurale Machine Translation, in het Portugees) met behulp van modellen die op dit concept gebaseerd zijn. In 2018 zette het bedrijf OpenAI vol in op de ontwikkeling van AI-agenten op basis van LLM's en lanceerde het GPT-1 voor tests. Pas het jaar daarop begon GPT-2 de aandacht van het publiek te trekken vanwege het potentieel onethische gebruik ervan.

In 2020 de GPT-3 arriveerde met beperkte toegang alleen via API, maar pas in 2022 trok ChatGPT (de AI-agent "aangedreven" door GPT-3) de aandacht van het publiek over de hele wereld.
GPT-4 zal naar verwachting in 2023 worden gelanceerd met multimodale mogelijkheden. Technische details zijn echter nog niet bekendgemaakt. In 2024 lanceerde OpenAI de model o1, gericht op het genereren van lange redeneerketens. Deze hulpmiddelen hebben geleid tot een brede acceptatie van LLM's in uiteenlopende onderzoeksgebieden.

Chat, kunstmatige intelligentie, virtuele assistent, technologische innovatie.
Sinds 2022 hebben LLM's wereldwijd aan populariteit gewonnen dankzij de inzet in ChatGPT, een van de populairste AI-agenten aller tijden. (Afbeelding: Reproduction/OpenAI)

Vanaf 2024 zijn alle grootste en meest efficiënte LLM's gebaseerd op de transformerarchitectuur, waarbij sommige onderzoekers experimenteren en testen met andere architecturen, zoals Terugkerende neurale netwerken (Terugkerende Neurale Netwerken, in het Portugees).

De voordelen en beperkingen van LLM's

Door hun brede toepassingsgebied zijn LLM's bijzonder nuttig voor probleemoplossing, omdat ze informatie op een duidelijke en eenvoudige manier aanbieden, die voor gebruikers gemakkelijk te begrijpen is. Bovendien kunnen ze worden gebruikt voor taalvertaling, het aanvullen van zinnen, sentimentanalyse, het beantwoorden van vragen, wiskundige vergelijkingen en nog veel meer.

De prestaties van LLM's verbeteren voortdurend, omdat er steeds meer gegevens en parameters worden toegevoegd. Met andere woorden: hoe meer je leert, hoe beter je wordt. Bovendien kunnen grote taalmodellen laten zien wat ‘leren in context’ wordt genoemd. Nadat een LLM is voorgetraind, zorgt de prompt met enkele schoten ervoor dat het model van de prompt kan leren zonder dat er aanvullende parameters nodig zijn. Zo blijft hij voortdurend leren.

Door het aantoonbaar maken van het geleerde in context, leren LLM's snel. Ze hebben immers geen extra gewicht, middelen en parameters nodig voor de training. Ze zijn snel in de zin dat ze niet veel voorbeelden nodig hebben om ‘intelligenter’ te worden.

Hersenleren uit meerdere bronnen
Net als alle op AI gebaseerde algoritmes leren LLM's beter naarmate ze meer data consumeren en analyseren. (Afbeelding: Reproductie/Ingebouwd)

Een belangrijk kenmerk van LLM's is hun vermogen om te reageren op onvoorspelbare vragen. Een traditioneel computerprogramma ontvangt bijvoorbeeld opdrachten in de gebruikelijke syntaxis of via een gegeven set gebruikersinvoer. Aan de andere kant kan een LLM reageren op natuurlijke menselijke taal en data-analyse gebruiken om een ​​ongestructureerde vraag of verzoek op een logische manier te beantwoorden. Terwijl een gemiddeld computerprogramma een vraag als "Wat zijn de vijf beste rockbands uit de geschiedenis?" niet zou herkennen, zou een LLM kunnen antwoorden met een lijst van vijf van zulke bands en een redelijk overtuigende verklaring waarom ze de beste zijn.

De betrouwbaarheid van LLM's hangt echter af van de informatie die ze verstrekken. Als ze in de pre-trainingsfase onjuiste informatie krijgen, zullen ze op vragen van gebruikers onjuiste informatie verstrekken. Soms kunnen LLM's ook "hallucineren" door antwoorden te verzinnen en zelfs literaire bronnen te vervalsen als ze zelf geen nauwkeurig antwoord kunnen geven.

Zo heeft het persbureau in 2022 Fast Company vroeg ChatGPT naar het vorige financiële kwartaal van het bedrijf Tesla. Hoewel ChatGPT als reactie een samenhangend nieuwsartikel publiceerde, was veel van de informatie daarin verzonnen. Omdat het een AI-gebaseerd systeem is, is het bekend dat het voortdurend wordt verbeterd. Toch is het nog steeds niet juist om 100% te vertrouwen op de antwoorden die LLM's produceren.

Wat beveiliging betreft, zijn gebruikersgerichte applicaties die gebaseerd zijn op LLM's net zo gevoelig voor bugs als andere applicaties. LLM's kunnen ook worden gemanipuleerd met behulp van kwaadaardige invoer, zodat bepaalde typen reacties boven andere worden geplaatst. Dit kunnen gevaarlijke of onethische reacties zijn.

Lego chatbot maakt fouten in taken
AI-systemen die gebaseerd zijn op LLM's zijn nog niet waterdicht. Er kunnen fouten worden gemaakt en er kan met onjuiste informatie worden gereageerd. (Afbeelding: Reproductie/IEEE Spectrum)

Ten slotte is één van de beveiligingsproblemen van LLM's dat gebruikers beveiligde en vertrouwelijke gegevens kunnen uploaden om hun eigen productiviteit te verhogen. LLM's gebruiken de ontvangen input echter om hun modellen verder te trainen en zijn niet ontworpen als veilige kluizen, omdat ze gevoelige gegevens kunnen blootstellen als reactie op vragen van andere gebruikers.

LLM's en de intelligentie achter woorden

Net als een kind dat losgelaten wordt in een gigantische bibliotheek, zijn LLM's intelligente AI-systemen die op basis van enorme hoeveelheden data leren om natuurlijke menselijke taal te begrijpen en te reproduceren. Hoewel LLM's gewone gebruikers veel voordelen bieden en een krachtig hulpmiddel vormen in de professionele omgeving, moeten de mogelijkheden en gevaren ervan nog steeds zorgvuldig worden bestudeerd.

En jij, wat vond jij van de uitleg in dit artikel over LLM’s? Laat in de reacties uw mening achter.

Veja meer

Fontes: Elasticsearch, CloudFare, IBM

Beoordeeld door Tiago Rodrigues in 16 / 04 / 2025


Ontdek meer over Showmetech

Meld u aan om ons laatste nieuws per e-mail te ontvangen.

Laat een reactie achter

Gerelateerde berichten