Multimodal språkmodell

Nu tar AI Swedens språkteam nästa stora steg genom att starta utvecklingen av Sveriges första stora multimodala språkmodell. Den nya modellen förväntas, precis som GPT-SW3, bli en viktig nationell resurs för Sverige.

An illustrative composition featuring multiple screens arranged in a circular formation, radiating light from the center

Den nya modellen kommer att kunna hantera text, bild och ljud och därmed få en bred förmåga att lösa många olika typer av uppgifter, inklusive interaktion med externa verktyg som till exempel databaser och webbläsare. Dessutom kommer den att kunna generera både bilder och ljud.

Sedan arbetet med GPT-SW3 startade har frontlinjen för storskaliga språkmodeller flyttats, från att bara kunna hantera text till att kunna hantera flera olika modaliteter såsom bild, ljud och text.. Genom att utvecklingen av en multimodal modell nu startar fortsätter Sverige att befinna sig i framkanten av utvecklingen av detta område.

Fakta

Ambitionen är en modellfamilj där den största har minst 100 miljarder parametrar.
Alla modeller som utvecklas inom detta projekt planeras vara öppna och därmed nedladdningsbara och tillgängliga för modifiering, finjustering, forskning och kommersialisering.

Fas 1

Det är den första fasen, som pågår fram till sommaren 2024, som nu finansieras av Vinnova
Under perioden samlar vi bland annat in träningsdata för modellen, samt utför experiment kring ny funktionalitet i modellen