Maka på er och ge plats åt språkmodellerna!

Notera att detta är en idétext som utvecklas kontinuerligt. Den kan se lite olika ut i morgon än den gör idag, allteftersom jag formulerar om eller kommer på nya infallsvinklar.
Skapad: 1 juli 2022
Senast uppdaterad: 6 juli 2022

För några år sedan så drabbade mig Max Texmarks bok Liv 3.0 hårt. Det kändes som om jag tagit det röda pillret från filmen Matrix. Det var mycket i boken som behövde smältas, framför allt frågor om vad intelligens och medvetande är och om den fysiska kolbaserade kroppen är avgörande för medvetandet eller inte.

Artificiell generell intelligens

Nu har AI och neurala nätverk åter fångat min uppmärksamhet. Tegmark varnar i sin bok för en artificiell generell intelligens (AGI) som plötsligt klarar av allt det människor kan – och som på sikt tar över världen utan att vi människor riktigt förstår vad det var som hände. I samband med Liv 3.0s lansering så diskuterade forskare flitigt hur lång tid det skulle ta innan AGI skulle uppnås. Vi väntade och inget hände.

Men det har börjat talas om AGI nu igen. Vissa påstår att vi uppnått AGI i form av Google Deepminds Gato. Men Gato är inte ett reflekterande medvetande, utan en multimodal språkmodell. En språkmodell är ett neuralt nätverk som tränats på texter från Internet, böcker och andra textkällor för att sedan skapa en digital modell som innehåller all information som modellen har tränats på. Den kan framstå som mycket intelligent, men den kan inte tänka och reflektera i och med att det inte händer något i modellen när den är för sig själv. Den reagerar bara på input och den genererar output. Det är helt enkelt en gigantisk matematisk ekvation där vi stoppar in värden och ut ploppar ett svar.

Några begrepp

Innan vi fortsätter är det nog på sin plats att jag förklarar några olika begrepp.

AI

AI eller artificiell intelligens är en samling för olika tekniker att med hjälp av datorer skapa logiska tanke- och beslutsprocesser, lite förenklat handlar det om tekniker som försöker att härma mänskligt tänkande.

Neurala nätverk

Den hittills bästa tekniken för att härma tänkande är neurala nätverk. För ett tiotal år sedan märkte flera forskarlag samtidigt att det gick att programmera nätverk som gavs slumpmässiga värden. Forskarna valde sedan ut de nätverk som lyckats bäst för den givna uppgiften. De nätverken muterades sedan slumpmässigt och i vissa fall så kombinerade man också två eller fler framgångsrika nätverk. Forskarna hade återskapat evolutionen:

De mest lämpade nätverken – modellerna – fick leva vidare (naturligt urval) och
förenas med andra (parning) samt att
slumpen förändrade dem lite (mutationer).

Ibland nämns också reinforcement learning, förstärkningsinlärning, i sammanahanget vilket jag tycker påminner en hel del om betingningsprocesser.

Sättet att lagra information i neurala nätverk skiljer sig från hur objektorienterad programmering med frågor och databaser fungerar. Traditionella program går att läsa av och förstå. För neurala nätverk gäller inte detta. Det går inte att tolka alla de kopplingar som skapas i nätverken. De är allt för komplexa i och med att frågor och data lagras i en väv likt neuroner lagrar information i en hjärna. Programmerarna väljer alltså bort att kontrollera och att detaljstyra och ersätter det med målstyrning. Programmerarna bryr sig inte om vad som händer i själva nätverket, de bryr sig bara om utfallet – att det neurala nätverket gör rätt sak.

Neurala nätverk och deep learning möjliggör att vi gör oss av med människor och experter. Datorerna kan själv börja dra slutsatser.

Lex Fridman förklarar neurala nätverk och Deep Learning kan leda till att vi inte längre behöver experter.

Är du nyfiken på vad neurala nätverk är och hur de fungerar i praktiken så finns det en sandlåda att leka i på tensorflow.org.

Språkmodeller

Neurala nätverk skapades sedan för olika syften. Det finns idag neurala nätverk bland annat för att styra industrirobotar, få bilar att kunna navigera och att kontrollera drönare. Men det går också att träna nätverken på skriven text – språkmodeller. Och det är de jag fokuserar på i den här texten. Ofta är språkmodellerna konstruerade så att de förutser vilket ord som troligast kommer att följa efter en rad andra ord utifrån en gigantisk databas som är skapad utifrån analysen av ett stort antal texter.

Multimodalitiet och AGI

Det som gör det hela lite mer komplicerat är att språkmodellerna visat sig så användbara att de kan användas för annat än att analysera språk. Det går att använda språkmodeller bland annat för att skapa bilder och musik, för att lära robotar gå och för att få drönare att flyga.

Det går också att kombinera olika förmågor i en språkmodell så att språkmodellen blir multimodal. Google Deepminds Gato är just en sådan multimodal, eller generell, språkmodell. Och det är just är som vissa tycker att det börjar bli läskigt; när en modell kan göra många olika saker och kanske till slut kan göra allt bättre än en människa. Språkmodellen blir en AGI – en artificiell generell intelligens.

GPT-3

GPT-3 är den mest omtalade språkmodellen. Den har varit igång sedan sommaren 2020. Det går att få tillgång till GPT-3 på olika sätt på Internet, bland annat om du besöker Philosopher AI. Tjänsten kostar pengar. Få GPT-3-drivna tjänster på nätet är gratis i och med att OpenAI som driver GPT-3 tar betalt för att låta andra använda språkmodellen. Det finns sajter på nätet som bland annat använder GPT-3 för att skapa:

färdigformulerade brev
reklamtexter
elevuppsatser
datorkod
personliga brev att använda vid jobbansökningar

Du kan faktiskt få direkt tillgång till själva språkmodellen genom att ansöka på Open AIs webbplats. Då kan du experimentera med GPT-3 som du vill, om du får tillträde. Det är inte säkert. Det beror på hur du utformar din ansökan.

Inte bara GPT-3

De människor som experimenterat med GPT-3 märkte snabbt att GPT-3 klarade av mer än att generera välskrivna texter. GPT-3 klarade också av att skapa datorkod och att skapa bilder. Så GPT-3 avknoppades efter en tid bland annat till Dall•E. Dall•E skapar bilder utifrån skriven text. Och hen gör det så bra att människor frågat sig om Dall•E kommer att bli ett hot mot de kreativa yrkena. En liknande tjänst finns på Craiyon.com. Craiyon är inte alls så bra som Dall•E, men fungerar bra om du vill förstå idén bakom ai-driven bildgenerering. Här ansöker du för att få använda Dall•E.

GPT-3 och Dall•E är inte ensamma på marknaden. Det senaste halvåret har det hänt så mycket att det är svårt att hänga med i utvecklingen. För min egen del så håller jag mig informerad med hjälp av Alan D. Thompsons YouTube-kanal. Thompson forskar själv om språkmodeller och postar regelbundet lättbegripliga, om än lite spekulativa, klipp om AI, neurala nätverk och språkmodeller.

Smakprov på vad Alan D. Thompson sysslar med på YouTube. Om du inte orkar med allt snack: Skrolla mot slutet där han presenterar AI-genererade bilder den nyligen presenterade modellen Google Parti

Språkmodeller i sociala medier

Ibland hör jag människor påstå att olika fenomen driver utveckling och innovation framåt: krig, rymdfart, pornografi, datorspelindustri. Kanske är det dags att föra upp sociala medier på den listan? Jag tror att det är här vi kommer att få se den stora utvecklingen framöver. Allt är inte över med Tiktok. Mer kommer att hända framöver. Kanske är det också fel att nämna Tiktok här? Tiktoks affärsutvecklingschef, Blake Chandlee, menar att det är fel att jämföra Tiktok med Facebook och menar att Tiktok inte är ett socialt medium utan en underhållningsplattform.

Men Tiktok är ändå värt att nämna i sammanhanget i och med att företaget skapat modeller, analogt med språkmodellerna för att ta reda på vad folk gillar och dessutom så har tjänsten lyckats utmana mycket av det vi inte trodde gick att utmana kring upphovsrätt. Många ungdomar vittnar om att det inte går att posta något på YouTube på grund av risken för Copyright strike, medan Tiktok är mycket mer förlåtande. Det är en annan spaning; men jag är ganska säker att upphovsrätten är hotad framöver.

Så hur verkar då neurala nätverk i sociala medier? Jag vet inte, men om jag får spekulera som borde det vara frestande att baserat på aktivitet och ingående variabler som kön, ålder, hudfärg, inkomst m.m. skapa ett neuralt nätverk per person som lär sig hur du fungerar över tid, men även jämför din profil eller signatur med andra liknande person.

Till en början serverar ett sådant system förmodligen innehåll som är typiskt för dina ingående variabler men efterhand lär sig systemet vem du verkligen är och de ingående variablerna blir mindre intressanta för systemet. Ett mer avancerat neuralt nätverk skapas – en slags signatur som beskriver ditt beteende på tjänsten. Du har blivit en funktion eller en ekvation. Och genom att jämföra din funktion med andras kan tjänsten förutse vem du är och vad du vill innan du själv formulerat tanken. Kanske kan detta förklara varför du blir matad av klipp på TikTok som du själv inte var medveten om att du ville se?

Framtiden

Så hur kan vi då tänka oss sociala medier i framtiden då språkmodellerna flyttar in?

Bilder skapade av människor försvinner

Kanske kan vi glömma emoji och memer i framtiden? De kanske ersätts med kortkommandon som direkt i själva texten kan framkalla bilder? Ingen behöver då skapa symbolen, GIFen eller bilden. Ingen behöver ge sig ut i verkligheten för att ta det där speciella kortet där en elefant står framför Eiffeltornet. Det är ju bara att skapa en egen:

Bilderna är genererade av DallE för mig 2 juli 2022 utifrån prompten: ”Elefant framför Eiffeltornet”. Bilderna fanns inte innan dess. Och ja! Jag har fått ett personligt konto för DallE-2.

Hej mamma! /Bild av söt hundvalp med hjärtformade ballonger i bakgrunden. Ballongerna ska vara i regnbågens alla färger/
Fiktivt inlägg i chat

Den här bilden är genererad av GPT3 av mig för att som illustration till den här texten.

GPT3-prompt: painting of happy puppy with heart shaped balloons in the background. The ballons are in all the rainbows colors

Och varför hålla på med människoskapade bilder när det bara leder till upphovsrättsproblem? Är det inte bättre att välja genererade bilder? Och kommer då verkliga fotografier att trängas undan från Internet?

Augmented Persona

Kanske kommer politiker att skapa digitalt förstärkta versioner av sig själva, vi kan kalla dem Augmented Persona (AP); egna neurala nätverk som är tränade på tidigare skrivna texter, framträdanden och på partiprogrammet – en bot som bevakar sociala medier dygnet runt, skriver kvickt och korrekt på Twitter, som genererar debattartiklar på nolltid, och i värsta fall; kanske låter den egna digitala avataren debattera med partimotståndare i tv-rutan? Och när politikerna får frågan om det lämpliga med den typen av debatter:

– Det gör väl inget om det inte är på riktigt? Det är ju mina åsikter!

Varje kväll förbättrar sedan politikern det den personligt designade språkmodellen genom att betygsätta modellens insatser under dagen.

Rätten till din person

I dagarna röstade EU-parlamentet igenom rättsakten om digitala tjänster och digitala marknader. De två rättsakterna ställer krav på tjänsteleverantörer som marknader för försäljning av appar, sociala medier och medieleverantörer. Kan vi vi i framtiden kanske tänka oss rätten till vår egen persona? Tänk om bara du får äga neurala nätverk som beskriver din egen person och att tjänsteleverantörer bara får låna dina uppgifter när de levererar tjänster? För att illustrera kan vi tänka oss mötet med föreståndaren för en handelsbod. Utan rättigheterna till din egen person:

– Goddag Björn! Har en lapp som beskriver allt om dig. Jag vet precis vad du behöver och vill ha! Kusligt va?

Och med dessa regler på plats där du själv lagrar din persona på någonstans på nätet där du avgör vem som ska få läsa av vad och när:

– Nej men se goddag! Vem är du?
– Hej. Jag heter Björn.
– Vad önskar du från butiken då Björn? Jag ser att du har en inköpslista där. Kan jag få se på den?
– Mycket gärna! Varsågod!
– Oo! Jag ser precis vad du behöver!
– Tackar!
– Välkommen åter! Här får du tillbaka din inköpslista. Förresten. Jag har lagt till några förslag på saker du kan köpa när du kommer tillbaka nästa gång!

Vissa av dessa rättigheter finns redan inbyggda i EU: regelstystem, bland annat i GDPR, men tanken här är att inga tjänster behöver lagra några data om dig. Du själv bygger upp din digitala persona och du lagrar den själv där bara du har tillgång till, men du kan låna ut den tillfälligtvis till sajter du besöker. Kanske kan du också låta dessa sajter modifiera din persona så att dina preferenser uppdateras och kan tas med till nästa tjänst på nätet.

Bildbevis nedvärderas

För bildtjänster som genererar bilder utifrån textsträngar behövs inget kanske. Dessa tjänster är redan tillgängliga för allmänheten. Det finns redan tjänster där du kan skriva in vilken bild du önskar för att sedan låta modellen skapa den bilden.

Men spelar det någon roll för användaren om bilden är skapad av en människa eller om den är genererad? Kommer användaren att uppfatta skillnaden?

För den uppväxande generationen kommer begreppen bild och bevis att vara helt frånkopplade från varandra. Det källanalytiska (vissa kallar det källkritiska) arbetet kommer att bli än svårare!

Människors kreativa identitet

Vad ska vi göra i världen om skapandet tas ifrån oss, om språkmodeller och neurala nätverk behärskar originalitet och genialitet bättre än människorna?

Jag börjar bli allt mer orolig för människans plats i världen. Vad ska vi göra i världen om språkmodellerna tar skapandet ifrån oss, om språkmodeller och neurala nätverk behärskar originalitet och genialitet bättre än människorna? Kommer det ens vara lönt att träna för att bli duktig på något? Kommer konstärskråna att dö ut? Behövs författare i framtiden? Behövs bildskapare? Kommer Netflix egna AI att skapa skräddarsydda serier i oändligt antal varianter efter tycke och smak? Och om det blir på det sättet: Kommer vi människor då överhuvudtaget att ha några gemensamma referenspunkter? Vad ska vi tala om och byta erfarenheter kring om vi målar in oss i varsin skräddarsydd bubbla? Håller vi på att tränga ut mänskligheten från att vara innovatör till att enkom konsumera kurerade flöden?

The Law of Accelerating Returns

Ray Kurzweil är svårbeskrivbar, men jag kan här presentera honom som futurolog. Kurzweil har bland annat lanserat The Law of Accelerating Returns. Den teknologiska utvecklingens avkastning leder till mer utveckling som leder till större avkastning i en evig loop. Den teknologiska utvecklingen är exponentiell. Utvecklingen går snabbare och snabbare och vi är bara i dess begynnelse!

Vi kan illustrera tanken genom att fundera på hur långt i framtiden en människa kan färdas innan hen behöver lära om för att kunna delta och verka i samhället:

Jägaren och samlaren kunde flytta sig tiotusentals år framåt i tiden och ändå kunna landa i ett samhälle och kunna känna igen sig och verka i samhället. Det upphörde med att människor blev bofasta och började bruka jorden.
Bonden kunde färdas 10 000 år fram i tiden till dess att de större staterna dök upp och att städerna krävde specialisering.
Stadsbon kunde färdas kanske tusen år framåt i tiden fram till industrialiseringen och massproduktionen.
Den sena 1800-talsmänniskan skulle bara klarat sig fram till världskrigen innan samhället förändrades dramatiskt i och med att oljeekonomin tog över.
Mina föräldrar som födde på 40-talet var tvungna att lära sig nytt under hela sin yrkesverksamma tid. De började utan datorer och gick i pension när Internet hade gjort sitt intåg på arbetsmarknaden.
Du kan inte längre leva ett helt liv i ett oförändrat samhälle. Du kommer att behöva lära om under hela din karriär.
Hur ofta kommer tekniken att i grunden förändra samhället under en livstid för våra barn?

Språkmodellerna gasar på

Och utvecklingen av neurala nätverk går mycket snabbt nu. I tabellen har jag listat antalet parametrar för några av senare års språkmodeller.

2018	ELMo	94 000 000
2018	BERT-large	340 000 000
2019	GPT-2	1 500 000 000
2019	Megatron-LM	8 300 000 000
2019	T5	11 000 000 000
2020	Turing-NLG	17 200 000 000
2020	GPT-3	175 000 000 000
2020	Megatron-Turing NLG	530 000 000 000

Några språkmodeller och deras storlek, beräknat i antal parametrar.
Källa: huggingface.co: Large Language Models: A New Moore’s Law?

När forskare sedan mäter hur väl de olika modellerna svarar på frågor och löser uppgifter så märker de att större neurala nätverk också ger smartare system, så vi lär se en fortsatt ökning i storlek framöver. GPT-4, som just nu tränas just nu bland annat genom att lyssna på det vi gör på Internet, beräknas att bli 500 gånger så stor som GPT-3.

Storleken är dock inte allt. Utvecklingen verkar leda allt mer mot skräddarsydda språkmodeller som klarar av begränsade uppgifter, men gör det bättre än de stora klumpiga modellerna (TechCrunch: The emerging types of language models and why they matter).

Teknologin som ramverk för vår verklighetsuppfattning

Jag återkommer ofta till Aaron Antonovskys salutogena livsperspektiv som brukar sammanfattas Känslan av sammanhang (KASAM). Enligt Antonovsky så behöver vi människor kunna förstå och hantera tillvaron. Och vi behöver dessutom känna att det vi gör är meningsfullt. Vad gäller tekniken så kan den inte förändra sig så snabbt att vi inte lär oss hantera den. Vi behöver teknologiska ledstänger som kan leda oss in i den nya tekniken i form av konsekventa, sakta föränderliga användargränssnitt.

Vi behöver begripa vad vi ser i våra datorer och mobiltelefoner. Vi behöver förstå vad som är sant och vad som inte är sant och vi behöver förstå vilka krafter som försöker påverka oss.

Vi behöver också en tillvaro som ger oss mening. Tekniken kan inte ta ifrån oss kreativitet och skapande aktiviteter.

Den galenskap vi sett prov på under senare år, bland annat i form av att bland annat Ryssland och USA låter sig styras av vettvillingar som styr med hjälp av one-liners i tv och i sociala medier, är den ett resultat av folk som vars KASAM börjar glida från dem?

Och om vi nu klarar balansen för vår tids demokratiska kris, hur klarar vi av nästa teknikinducerade Seldonkris?