Tekoälyn kehityssuuntauksia

Suuremmat mallit, enemmän dataa ja nopeampi laskenta ovat olleet tekoälyn kulmakiviä GPT-aikakauden alusta lähtien. Mutta nyt tämän yksinkertaisen peruspilarien kasvattaminen on saavuttanut väistämättömän vähenevien tuottojen vaiheen. Olemmeko jo saavuttaneet kehityksen tasanteen, jossa kaikesta hypestä huolimatta yleishyödyllisen tekoälyn saavuttaminen siirtyy hamaan tulevaisuuteen?

Vaikka Nvidia ja sen kilpailijat työntävät laskentatehon rajoja yhä kauemmas jokaisella uudella laitteistosukupolvellaan, kysyntä kasvaa vielä nopeammin. Yhä useammat ihmiset käyttävät tekoälyä jokapäiväisessä elämässään, ja yritykset alkavat ymmärtää, etteivät ne selviä ilman laajamittaista tekoälyn käyttöönottoa. Laskennan energiatarpeiden tyydyttämiseksi keskustellaan jo laskentakeskuksien yksityisistä ydinvoimaloista.

Kaikki helposti saatavilla oleva data on jo kerätty ja käytetty tekoälymallien koulutukseen. Edes suurimmat tekoälymallit eivät näytä enää viisastuvan merkittävästi vain syöttämällä niille lisää raakadataa. Käyttämättömiä datalähteitä saattaa vielä olla, mutta on kyseenalaista, auttaisivatko ne luomaan aidosti parempia malleja.

Nämä ongelmat voidaan kuitenkin kiertää täysin uudenlaisilla laitteistoteknologioilla, uusilla mallialgoritmeilla, niiden koulutusmenetelmillä ja järjestelmäajattelulla yhdessä datan valinnan ja generoinnin tekniikoiden kanssa. Ne varmistavat, että kasvavat tarpeet tekoälylle ja sen laadulle saadaan täytettyä.

Laskentatehon ja energiankulutuksen kasvavaan tarpeeseen on kehiteillä uusia teknologioita, kuten valolla laskentaa ja analogisia prosessoreita, vaikka ne eivät vielä olekaan kaupallisesti saatavilla. Valolaskentasirut, jotka perustuvat fotoneihin elektronien sijasta, ovat laboratoriovaiheessa, mutta lupaavat huomattavasti nopeampaa laskentaa ja paljon pienempää energiankulutusta kuin mikä on mahdollista nykyisillä piipohjaisilla transistoripiireillä.

Analogiset tekoälyprosessorit ovat lähempänä toteutumista, mutta niitä ei voida käyttää mallien koulutukseen nykyisillä algoritmeilla, koska ne eivät ole siihen tarpeeseen riittävän tarkkoja. Valmiiksi laskettujen mallien päivittäiseen käyttöön riittää kuitenkin paljon pienempi laskentatarkkuus. Analogiset sirut tarjoavat paljon pienemmän virrankulutuksen, nopeamman päättelyn suorituksen ja jopa monta kertaluokkaa halvemmat prosessorit, koska analogiapiirit voidaan toteuttaa edullisemmilla painotekniikoilla.

Mallien kokojen trendi on kohti pienempiä malleja, jotka ovat paljon halvempia ja nopeampia sekä kouluttaa että hyödyntää. Kaksi tähän käytettyä päätekniikkaa ovat Mixture of Experts (MoE) -mallit ja mallien kouluttaminen korkealaatuisemmalla datalla. MoE:ssa käytetään yhden jättimäisen yleiskäyttöisen monoliittisen mallin sijaan useita pienempiä malleja, joista kukin erikoistuu johonkin kapeampaan alueeseen. Korkealaatuisempaa dataa tuotetaan synteettisesti suurten mallien avulla. Yllättäen näin koulutetut pienemmät mallit tulevat älykkäämmiksi tällä kapealla alueella kuin niiden paljon suuremmat opettajat.

GPT-algoritmin suurin heikkous on sen neliöllinen laskentatarve konteksti-ikkunalle. Käsiteltävän sisällön (tokenien määrän) kaksinkertaistaminen esimerkiksi ChatGPT:n yhdellä kutsulla vaatii nelinkertaisen laskennan ja siten myös nelinkertaisen energian. Tulossa on kuitenkin uusia lupaavia arkkitehtuureja, joiden laskentatarpeet kasvavat vain lineaarisesti syötteen pituuden mukaan. Toinen tekniikka energiantarpeen vähentämiseen ja myös mallien älykkyyden lisäämiseen on käyttää käsitteitä prosessoinnin perusyksiköinä sanojen tai sanan osien sijaan. Suuremmat käsitteet vähentävät tokenien määrää samalle tekstille ja mahdollistavat abstraktimman ajattelun.

Haasteeseen yhä suurempien mallien älykkyyden kasvun hidastumisesta on keksitty ratkaisuksi antaa niille enemmän ajatteluaikaa. Sen sijaan, että annettaisiin suhteellisen lyhyt vastaus päättelytehtävään, viisaimpia malleja opetetaan nyt kirjoittamaan erittäin pitkiä ajatusketjuja eri tekniikoilla sekä tarkastelemaan ongelmaa monista näkökulmista, kunnes ne tekevät synteesin kaikesta ja antavat lopullisen vastauksen. Tällaiset mallit, kuten OpenAI:n o1/o3 ja avoimen lähdekoodin DeepSeek-R1, ohittavat keskimääräisen ihmisälyn jo monilla aloilla.

Vuoden 2024 viimeisen neljänneksen näennäisen hengähdystauon jakson jälkeen tekoälyinnovaatioiden tahti tuntuu jälleen kiihtyvän.