OCR-vallankumouksia

04.11.2024

Kirjoittanut AI4Valuen CTO Pasi Karhu

Kiinnostukseni tekoälyyn heräsi ensimmäisen kerran noin neljäkymmentä vuotta sitten, kun löysin kirjastosta kirjan ”älykkäistä koneista”. Muistan ihmetykseni kaikista niistä upeista asioita, joita koneet pystyivät jo silloin tekemään. Kuitenkin vain kaksi asiaa kirjasta jäi pysyvästi mieleeni: toinen oli shakkipeliohjelmissa käytetty algoritmi (min-max) ja toinen oli Raymond Kurzweilin nimi sekä se, kuinka hänen koneensa pystyivät lukemaan painettua tekstiä. Kurzweil työskentelee yhä tekoälyn parissa (Googlella), mutta nykyään hänet tunnetaan paremmin singulariteettiennustuksistaan.

Ennen Kurzweilin keksintöä oli jo olemassa yksinkertaisia OCR (Optical Character Recognition) -ohjelmia, jotka pystyivät lukemaan yksittäisiä fontteja. Kurzweilin kone pystyi kuitenkin lukemaan mitä tahansa normaalia hyvälaatuista fonttia, mikä oli tuolloin mullistavaa. OCR on sittemmin kehittynyt kenen tahansa käytettävissä olevaksi vakiotyökaluksi. Silti erityisesti huonolaatuiset tulosteet ja skannaukset tuottavat perus-OCR:n jälkeen tuloksia, jotka ovat täynnä virheitä.

Kuusi vuotta sitten tein projektin, jossa oli tuhansia heikkolaatuisia skannattua paperidokumentteja. Niiden tekstiksi muuntamisessa oli kolme päähaastetta: kuluneella mustenauhalla tehty kirjoituskoneteksti (nuorempi sukupolvi – googlatkaa tarvittaessa :-), kopioiden kopiot kopiokoneista ja vinot skannaukset. Kun nämä kaikki yhdistää, OCR-lopputuloksessa puolet sanoista on jollain tavalla sekaisin.

Jouduin käyttämään kaikki aiemmat temppuni ja keksimään uusia. Erityisen hyödylliseksi osoittautui Ai4Valuen oma automaattinen ontologiatyökalu, jota käytämme yhä menestyksekkäästi monissa datan puhdistustehtävissä. Vaikka lopulta sain suurimman osan virheistä korjattua ja tuloksena olevat tekstit ymmärrettäviksi, jäljelle jäi paljon ärsyttäviä pieniä virheitä, joiden korjaaminen olisi vaatinut liikaa työtä.

Nyt, vain kuusi vuotta myöhemmin, kuvantunnistuksella varustetut generatiiviset tekoälymallit pystyvät helposti tekemään saman työn ilman OCR:ää ja erillisiä virheenkorjauksia. Lisäksi ne voivat poimia saman tien halutut tiedot, kuten vaikkapa sekalaisista paperilaskuista kaikki tarvittavat yksityiskohdat, helposti jatkokäsiteltävään koneelliseen muotoon.

Harvat työkalut kuitenkaan toimivat hyvin ilman niiden rajoitusten ymmärtämistä. Esimerkiksi skannatussa datassa voi olla yrityksen sisäisiä termejä ja koodeja, joita generatiiviset tekoälymallit ovat nähneet harvoin, jos koskaan. Tämä altistaa ne ”hallusinoimaan” omiaan, ja silloin tarvitaan yhä ”vanhoja hyviä konsteja” tuottamaan luotettavia tuloksia.

Monissa tapauksissa parhaat tulokset saavutetaan hybridimenetelmillä käyttämällä sekä vanhoja vakiintuneita työkaluja että uusia, voimakkaassa kehitysvaiheessa olevia, generatiivisen tekoälyn menetelmiä yhdessä. Meillä Ai4Valuessa on vahva kokemus molemmista, niin OCR-projekteihin, kuin muihinkin tekoälysovelluksiin.