Kuinka parantaa kielimallien tuloksia, kun skaalaaminen ei enää auta?

Ai4Valuen ohjelmistokehittäjä Otto Westerlundin blogiteksti

OpenAI:n johdolla kehitetty LLM-teknologia on mullistanut ajatuksiamme tekoälystä ja sen vaikutuksesta tulevaisuuteemme. Monet kehittyneet tekoälymallit, kuten GPT, hyödyntävät Googlen kehittämää transformer-arkkitehtuuria, joka mahdollistaa valtavien tietomäärien käsittelyn ja koodaamisen neuroverkkoihin. Mallien skaalaamisessa aina vain suuremmiksi, on kuitenkin tullut taloudelliset rajat jo vastaan ja siksi tekoälylaboratoriot etsivät uusia tekniikoita mallien ominaisuuksien parantamiseksi. Yksi lupaava keino on koneoppimisen ja klassisten algoritmien (esim. haku) yhdistäminen.

Koneoppiminen ja sen taustalla olevat neuroverkot eivät kuitenkaan ole ratkaisu kaikkeen.  Tärkeimpänä syynä se, että koneoppimismallit käytännössä ”arvaavat” vastaukset. Tehdyt arvaukset ovat monissa tapauksissa tarkoitustaan varten riittävän hyviä ja voivat joissain tapauksissa olla jopa ihmisen antamia vastauksia parempia. Silti monissa käyttötapauksissa lähellä oleva vastaus ei riitä vastaukseksi. Neuroverkkoa ei esimerkiksi ole järkevää kouluttaa suorittamaan perusaritmetiikan tehtäviä. Tällaisissa tapauksissa perinteiset algoritmit antavat ongelmaan tarkan ja varmennetun ratkaisun.

Myös perinteisillä menetelmillä, kuten hakualgoritmeilla, on omat puutteensa. Jos esimerkiksi hakuavaruus on todella laaja, voi oikean ratkaisun löytäminen kestää erittäin kauan. Tunneista jopa vuosiin asti. Voi olla myös vaikeaa määrittää niitä sääntöjä, joita algoritmin tulee noudattaa ratkaisua etsiessään. Edellä kuvatuissa tapauksissa koneoppimismenetelmien hyödyntäminen voi olla suositeltavaa.

Tuloksia voitaisiin parantaa malleja yhdistämällä. Valtavan suuret tekoälymallit, kuten GPT, antavat jo nyt hyvinkin kelvollisia vastauksia, jotka ovat 80-90% oikein. Uudet tekniikat hyödyntävät suuria kielimalleja (LLM), jotka tuottavat suuren määrän mahdollisia vastauksia sekä hakualgoritmeja, jotka arvioivat mahdollisia vastauksia ja etsivät niistä sopivimman. Näin kielimallia käytetään eräänlaisena heuristisena sääntönä, jonka avulla karsitaan mahdollisten ratkaisujen määrää huomattavasti. Kasvavaa kiinnostusta on myös paluuseen pienempiin erikoismalleihin sen sijaan, tavoiteltaisiin yhtä jättimäistä mallia, joka tietäisi ja tekisi kaiken.

Vaikka tekoälyyn liittyvien lupausten lunastaminen saattaa tarvita vielä useammankin läpimurron, voidaan jo nykyisilläkin menetelmillä tuottaa paljon lisäarvoa. Taustalla tapahtuu paljon mielenkiintoisia asioita, tavoitteen entistäkin suuremat hyödyt.