Valtavaa opetusaineistoa on jyryytettävä läpi lukemattomat kerrat. Pikkuhiljaa kone oivaltaa, millaista on ihmisen kieli.


Pikkuhiljaa kone oivaltaa, millaista on ihmisen kieli.

Sisältö jatkuu mainoksen jälkeen

Sisältö jatkuu mainoksen alla


Ensimmäinen askel on opettaa konekääntäjälle, millaisia ovat kohde- ja lähdekielen lauseet. Tämä tapahtuu syöttämällä järjestelmälle valtava määrä halutuilla kielillä kirjoitettua tekstiä. Tällaista suurta tekstimassaa kutsutaan kielitieteessä nimellä korpus. Opetusmateriaalissa voi olla satoja miljardeja sanoja; määrä vastaa miljoonaa tavallista romaania.


Kielimalli tutkii lauseet

Opetusmateriaalin avulla luodaan niin kutsuttu kielimalli. Se määrittelee, miten todennäköinen jokin lause tai ilmaus on kielessä - eli miten todennäköistä on esimerkiksi se, että joku sanoo: Minä pidän mansikoista ja kermavaahdosta. Mitä suurempi todennäköisyys, sitä luultavammin lause on hyvää ja oikeaa kieltä. Tätä tietoa tarvitaan myöhemmin oikean käännöksen valitsemisessa.

Kielimallit käsittelevät virkkeitä yleensä trigrammeina eli kolmen sanan pätkinä. Mansikkaesimerkin perkaaminen aloitetaan laskemalla, miten moni lause opetuskorpuksessa alkaa sanoilla minä pidän mansikoista. Sitten siirytään yksi sana eteenpäin ja lasketaan, miten monessa lauseessa on peräkkäin sanat pidän, mansikoista sekä ja. Tällä tavoin, sana kerrallaan edeten, kielimalli oppii valtavan määrän kolmen sanan mittaisia jaksoja, joille samalla lasketaan esiintymistodennäköisyydet.


Uudetkin lauseet laskettavissa

Kun kielimalli on koulutettu, se osaa laskea todennäköisyyden sellaisellekin lauseelle, jota ei löydy opetusmateriaalista.

Jos uusi lause on vaikkapa hän pelasi jalkapalloa maajoukkueessa, kielimalli tarkastaa, miten usein opetusmateriaalissa esiintyvät peräkkäin sanat hän pelasi jalkapalloa sekä pelasi jalkapalloa maajoukkueessa.

Jos molemmat esiintyvät usein, uusikin lause on mallin mielestä kelvollista suomea ja saa oman todennäköisyytensä.

Joskus voi käydä niin, että opetusmateriaalista ei kerta kaikkiaan löydy tiettyä kolmen sanan yhdistelmää.

Lauseen todennäköisyydeksi tulisi tällöin nolla, vaikka se olisi ihmisen mielestä aivan kelvollinen. Tämän välttämiseksi sanoja voidaan käsitellä kaksikkoina tai todennäköisyyksiä voidaan tasoitella eri menetelmin, esimerkiksi antamalla jokaiselle tarkastellulle tekstinpätkälle tietty perustodennäköisyys.


Käännösmalli vertaa kieliä

Kun järjestelmällä on käsitys siitä, millaisia lauseita lähde- ja kohdekielessä on, sille opetetaan seuraavaksi, mitkä ovat todennäköisiä käännöksiä. Tähän tarvitaan niin sanottu rinnakkaiskorpus, esimerkkikäännös, joka sisältää saman tekstin kummallakin kielellä.

Nyt työhön käy käännösmalli. Se vertailee erikielisiä lauseita keskenään ja päättelee, mitkä sanoista ja ilmauksista vastaavat toisiaan.

Vertailussa törmätään usein siihen, että eri kielissä käytetään eri määrää sanoja. Esimerkiksi suomen huonekalu-sanaa vastaa englannissa kolme sanaa: piece of furniture. Lisäksi substantiiveihin liittyy englannissa artikkeli, a flower ja the house. Ilmiötä kutsutaan sanojen hedelmällisyydeksi (fertility), ja se tekee sanojen ja ilmausten täsmäämisestä haastavaa.

Koska tilastollinen käännin käsittelee todennäköisyyksiä, niitä voidaan vertailuvaiheessa hyödyntää.

Käännösmalli voi kokeilla jokaiselle sanalle montaa eri hedelmällisyystasoa: miltä näyttäisi, jos englannin sanaa does vastaisi yksi suomen kielen sana? Tai ei yhtään? Tai kaksi? Näistä valitaan lopuksi se, joka on laskelmien mukaan todennäköisin.


Pääte erilleen vartalosta

On helppo kuvitella, että tilastollinen käännösjärjestelmä toimii hyvin englannin kaltaisissa kielissä, joissa sanoja ei juuri taivuteta. Tällöin yksittäisten sanojen kääntämisellä ja niiden järjestyksen muuttamisella pääsee pitkälle. Suomen kaltainen runsaasti taivutuksia käyttävä kieli on hankalampi. Missä yhteydessä käytetään esimerkiksi voittaa-verbin muotoa voittamatta, ja kuinka monta englannin sanaa sitä vastaa?

Sanojen taivutuksiakin voi analysoida tilastollisesti. Mathias Creutzin ja Krista Laguksen Teknillisessä korkeakoulussa kehittämä Morfessori-järjestelmä osaa automaattisesti jaotella sanat morfeemeiksi kutsuttuihin rakenneyksiköihin. Esimerkiksi sanan vartalo ja eri taivutuspäätteet ovat morfeemeja.

Vertailemalla suurta määrää sanoja Morfessori päättelee, että esimerkiksi -ssa, -t  ja -iin ovat suomen kielessä luultavasti päätteitä, sillä ne esiintyvät useissa sanoissa ja yleensä niiden lopussa. Kun järjestelmä näkee uuden sanan, vaikkapa puussa, kissat  ja konttiin, se hoksaa, että ne ovat todennäköisesti sanojen puu, kissa ja kontti taivutettuja muotoja.

Kun päätteet on erotettu omiksi yksiköikseen, käännösmallia kehitettäessä voidaan täsmätä kokonaisten sanojen sijaan niiden vartaloita ja päätteitä. Sanan talossa voi lohkaista talo-vartaloon ja -ssa-päätteeseen, jolloin järjestelmä kuittaa vartalon vastaavan englannin house-sanaa. Vartaloon liittyvät erilaiset päätteet vastaavat englannin in-, on- ja at-prepositioita.


Käännettävä lause: Hän ei syö voita
Kielimalli: Ehdotuksen sanat eivät esiinny opetusmateriaalissa koskaan peräkkäin. 0 pistettä.
Dekoodausmalli: Yhteensä 10 pistettä.  

Kielimalli: eat butter esiintyy jo opetusmateriaalissa, mutta he no eat ja no eat butter eivät. 3 pistettä.
Dekoodausmalli: Yhteensä 11 pistettä.
Kielimalli: Sanayhdistelmät esiintyvät usein yhdessä opetusmateriaalissa. 10 pistettä.
Dekoodausmalli: Yhteensä 17 pistettä.

Dekoodausmalli valitsee

Varsinaisen kääntämisen hoitaa niin sanottu dekoodausalgoritmi, joka hyödyntää kieli- ja käännösmallin tietoja. Kielimallille on opetettu, millaista on hyvä kohde- ja lähdekieli, kun taas käännösmalli sisältää tietoa siitä, mitkä sanat ja ilmaukset luultavasti vastaavat toisiaan.

Voidaan ajatella, että käännös- ja kielimalli tekevät ehdotuksia, joilla on tietty määrä pisteitä sen mukaan, miten hyviä ehdotukset mallien mielestä ovat. (Oikeasti mallit käyttävät tarkkoja todennäköisyyksiä, mutta pisteiden avulla toimintaperiaate on helpompi havainnollistaa.)

Dekoodausmalli valitsee saamistaan ehdotuksista yhdistelmän, jonka kokonaispisteet ovat mahdollisimman suuret.

Jos suomi-englanti-käännöskone saisi tehtäväkseen lauseen hän ei syö voita, käännösmalli tietäisi, että sanan ei todennäköisin käännös on no ja voita-sanalla tarkoitetaan voittamista. Käännösmallin mukaan todennäköisin ja parhaat pisteet saava käännös olisi siis he no eat win, jossa kaikille sanoille on valittu niiden yleisin käännösvastine.

Kielimalli kuitenkin kertoisi, että lause on kelvotonta englantia, koska sen sanat sanat eivät esiintyneet opetusmateriaalissa kertaakaan peräkkäin - nolla pistettä.

Kun dekoodausalgoritmi yhdistää nämä tiedot, ehdotuksen kokonaispistemäärä jää pieneksi. Tarvitaan parempi vaihtoehto.

Miten kone pisteyttää muut ehdotukset, näet yllä olevasta taulukosta.Janos Honkonen on vapaa tiede- ja tekniikkatoimittaja.

Sisältö jatkuu mainoksen alla