Multimodal språkmodell
Nu tar AI Swedens språkteam nästa stora steg genom att starta utvecklingen av Sveriges första stora multimodala språkmodell. Den nya modellen förväntas, precis som GPT-SW3, bli en viktig nationell resurs för Sverige.
Den nya modellen kommer att kunna hantera text, bild och ljud och därmed få en bred förmåga att lösa många olika typer av uppgifter, inklusive interaktion med externa verktyg som till exempel databaser och webbläsare. Dessutom kommer den att kunna generera både bilder och ljud.
Sedan arbetet med GPT-SW3 startade har frontlinjen för storskaliga språkmodeller flyttats, från att bara kunna hantera text till att kunna hantera flera olika modaliteter såsom bild, ljud och text.. Genom att utvecklingen av en multimodal modell nu startar fortsätter Sverige att befinna sig i framkanten av utvecklingen av detta område.
Fakta
Ambitionen är en modellfamilj där den största har minst 100 miljarder parametrar.
Alla modeller som utvecklas inom detta projekt planeras vara öppna och därmed nedladdningsbara och tillgängliga för modifiering, finjustering, forskning och kommersialisering.
Fas 1
- Det är den första fasen, som pågår fram till sommaren 2024, som nu finansieras av Vinnova
- Under perioden samlar vi bland annat in träningsdata för modellen, samt utför experiment kring ny funktionalitet i modellen
Fas 2
- Etapp två planeras fram till slutet av 2024
- Under perioden planeras den storskaliga träningen av den nya modellen ske