Valtavaa opetusaineistoa on jyryytettävä läpi lukemattomat kerrat. Pikkuhiljaa kone oivaltaa, millaista on ihmisen kieli.


Pikkuhiljaa kone oivaltaa, millaista on ihmisen kieli.




Ensimmäinen askel on opettaa konekääntäjälle, millaisia ovat kohde- ja lähdekielen lauseet. Tämä tapahtuu syöttämällä järjestelmälle valtava määrä halutuilla kielillä kirjoitettua tekstiä. Tällaista suurta tekstimassaa kutsutaan kielitieteessä nimellä korpus. Opetusmateriaalissa voi olla satoja miljardeja sanoja; määrä vastaa miljoonaa tavallista romaania.


Kielimalli tutkii lauseet

Opetusmateriaalin avulla luodaan niin kutsuttu kielimalli. Se määrittelee, miten todennäköinen jokin lause tai ilmaus on kielessä - eli miten todennäköistä on esimerkiksi se, että joku sanoo: Minä pidän mansikoista ja kermavaahdosta. Mitä suurempi todennäköisyys, sitä luultavammin lause on hyvää ja oikeaa kieltä. Tätä tietoa tarvitaan myöhemmin oikean käännöksen valitsemisessa.

Kielimallit käsittelevät virkkeitä yleensä trigrammeina eli kolmen sanan pätkinä. Mansikkaesimerkin perkaaminen aloitetaan laskemalla, miten moni lause opetuskorpuksessa alkaa sanoilla minä pidän mansikoista. Sitten siirytään yksi sana eteenpäin ja lasketaan, miten monessa lauseessa on peräkkäin sanat pidän, mansikoista sekä ja. Tällä tavoin, sana kerrallaan edeten, kielimalli oppii valtavan määrän kolmen sanan mittaisia jaksoja, joille samalla lasketaan esiintymistodennäköisyydet.


Uudetkin lauseet laskettavissa

Kun kielimalli on koulutettu, se osaa laskea todennäköisyyden sellaisellekin lauseelle, jota ei löydy opetusmateriaalista.

Jos uusi lause on vaikkapa hän pelasi jalkapalloa maajoukkueessa, kielimalli tarkastaa, miten usein opetusmateriaalissa esiintyvät peräkkäin sanat hän pelasi jalkapalloa sekä pelasi jalkapalloa maajoukkueessa.

Jos molemmat esiintyvät usein, uusikin lause on mallin mielestä kelvollista suomea ja saa oman todennäköisyytensä.

Joskus voi käydä niin, että opetusmateriaalista ei kerta kaikkiaan löydy tiettyä kolmen sanan yhdistelmää.

Lauseen todennäköisyydeksi tulisi tällöin nolla, vaikka se olisi ihmisen mielestä aivan kelvollinen. Tämän välttämiseksi sanoja voidaan käsitellä kaksikkoina tai todennäköisyyksiä voidaan tasoitella eri menetelmin, esimerkiksi antamalla jokaiselle tarkastellulle tekstinpätkälle tietty perustodennäköisyys.


Käännösmalli vertaa kieliä

Kun järjestelmällä on käsitys siitä, millaisia lauseita lähde- ja kohdekielessä on, sille opetetaan seuraavaksi, mitkä ovat todennäköisiä käännöksiä. Tähän tarvitaan niin sanottu rinnakkaiskorpus, esimerkkikäännös, joka sisältää saman tekstin kummallakin kielellä.

Nyt työhön käy käännösmalli. Se vertailee erikielisiä lauseita keskenään ja päättelee, mitkä sanoista ja ilmauksista vastaavat toisiaan.

Vertailussa törmätään usein siihen, että eri kielissä käytetään eri määrää sanoja. Esimerkiksi suomen huonekalu-sanaa vastaa englannissa kolme sanaa: piece of furniture. Lisäksi substantiiveihin liittyy englannissa artikkeli, a flower ja the house. Ilmiötä kutsutaan sanojen hedelmällisyydeksi (fertility), ja se tekee sanojen ja ilmausten täsmäämisestä haastavaa.

Koska tilastollinen käännin käsittelee todennäköisyyksiä, niitä voidaan vertailuvaiheessa hyödyntää.

Käännösmalli voi kokeilla jokaiselle sanalle montaa eri hedelmällisyystasoa: miltä näyttäisi, jos englannin sanaa does vastaisi yksi suomen kielen sana? Tai ei yhtään? Tai kaksi? Näistä valitaan lopuksi se, joka on laskelmien mukaan todennäköisin.


Pääte erilleen vartalosta

On helppo kuvitella, että tilastollinen käännösjärjestelmä toimii hyvin englannin kaltaisissa kielissä, joissa sanoja ei juuri taivuteta. Tällöin yksittäisten sanojen kääntämisellä ja niiden järjestyksen muuttamisella pääsee pitkälle. Suomen kaltainen runsaasti taivutuksia käyttävä kieli on hankalampi. Missä yhteydessä käytetään esimerkiksi voittaa-verbin muotoa voittamatta, ja kuinka monta englannin sanaa sitä vastaa?

Sanojen taivutuksiakin voi analysoida tilastollisesti. Mathias Creutzin ja Krista Laguksen Teknillisessä korkeakoulussa kehittämä Morfessori-järjestelmä osaa automaattisesti jaotella sanat morfeemeiksi kutsuttuihin rakenneyksiköihin. Esimerkiksi sanan vartalo ja eri taivutuspäätteet ovat morfeemeja.

Vertailemalla suurta määrää sanoja Morfessori päättelee, että esimerkiksi -ssa, -t  ja -iin ovat suomen kielessä luultavasti päätteitä, sillä ne esiintyvät useissa sanoissa ja yleensä niiden lopussa. Kun järjestelmä näkee uuden sanan, vaikkapa puussa, kissat  ja konttiin, se hoksaa, että ne ovat todennäköisesti sanojen puu, kissa ja kontti taivutettuja muotoja.

Kun päätteet on erotettu omiksi yksiköikseen, käännösmallia kehitettäessä voidaan täsmätä kokonaisten sanojen sijaan niiden vartaloita ja päätteitä. Sanan talossa voi lohkaista talo-vartaloon ja -ssa-päätteeseen, jolloin järjestelmä kuittaa vartalon vastaavan englannin house-sanaa. Vartaloon liittyvät erilaiset päätteet vastaavat englannin in-, on- ja at-prepositioita.


Käännettävä lause: Hän ei syö voita
















Kielimalli: Ehdotuksen sanat eivät esiinny opetusmateriaalissa koskaan peräkkäin. 0 pistettä.
Dekoodausmalli: Yhteensä 10 pistettä.



 



 

Kielimalli: eat butter esiintyy jo opetusmateriaalissa, mutta he no eat ja no eat butter eivät. 3 pistettä.
Dekoodausmalli: Yhteensä 11 pistettä.
Kielimalli: Sanayhdistelmät esiintyvät usein yhdessä opetusmateriaalissa. 10 pistettä.
Dekoodausmalli: Yhteensä 17 pistettä.

Dekoodausmalli valitsee

Varsinaisen kääntämisen hoitaa niin sanottu dekoodausalgoritmi, joka hyödyntää kieli- ja käännösmallin tietoja. Kielimallille on opetettu, millaista on hyvä kohde- ja lähdekieli, kun taas käännösmalli sisältää tietoa siitä, mitkä sanat ja ilmaukset luultavasti vastaavat toisiaan.

Voidaan ajatella, että käännös- ja kielimalli tekevät ehdotuksia, joilla on tietty määrä pisteitä sen mukaan, miten hyviä ehdotukset mallien mielestä ovat. (Oikeasti mallit käyttävät tarkkoja todennäköisyyksiä, mutta pisteiden avulla toimintaperiaate on helpompi havainnollistaa.)

Dekoodausmalli valitsee saamistaan ehdotuksista yhdistelmän, jonka kokonaispisteet ovat mahdollisimman suuret.

Jos suomi-englanti-käännöskone saisi tehtäväkseen lauseen hän ei syö voita, käännösmalli tietäisi, että sanan ei todennäköisin käännös on no ja voita-sanalla tarkoitetaan voittamista. Käännösmallin mukaan todennäköisin ja parhaat pisteet saava käännös olisi siis he no eat win, jossa kaikille sanoille on valittu niiden yleisin käännösvastine.

Kielimalli kuitenkin kertoisi, että lause on kelvotonta englantia, koska sen sanat sanat eivät esiintyneet opetusmateriaalissa kertaakaan peräkkäin - nolla pistettä.

Kun dekoodausalgoritmi yhdistää nämä tiedot, ehdotuksen kokonaispistemäärä jää pieneksi. Tarvitaan parempi vaihtoehto.

Miten kone pisteyttää muut ehdotukset, näet yllä olevasta taulukosta.



Janos Honkonen on vapaa tiede- ja tekniikkatoimittaja.

Suomalaistutkija havaitsi, että maaseudun monimuotoinen luonto saattaa suojata koiria allergialta. Se antaa tukea biodiversiteettihypoteesille.

Kaupunkilaiskoirilla on enemmän allergioita kuin maaseudulla asuvilla. Vähiten allergioita on koirilla, jotka elävät maalla maalaismaiseen tapaan monilapsisessa, muitakin eläimiä omistavassa perheessä ja saavat ulkoilla vapaasti kotipihalla.

Tällaisia asioita koirista Jenni Lehtimäki sai selville väitöstutkimuksessaan, josta Helsingin Sanomat kertoo jutussaan.

Ihmisistä tosin ei samanlaista yhteyttä löytynyt allergioiden ja asuinpaikan väliltä.

Lehtimäki testasi biodiversiteettihypoteesia. Sen mukaan immuunijärjestelmämme häiriintyy ja allergian tapaiset tulehdusperäiset sairaudet lisääntyvät, kun ympäristön monimuotoisuus hupenee ja me altistumme entistä vähemmille luonnon mikrobeille.

Väitöskirja koostui neljästä tutkimuksesta, joista kaksi käsitteli lapsia ja kaksi lemmikkikoiria.

Kummassakaan lapsitutkimuksessa ei löytynyt merkittävää yhteyttä allergioiden ja ihon mikrobien tai luonnon monimuotoisuuden välillä.

Toisin oli lemmikkien laita. Koiranomistajille suunnatun kyslytutkimusken mukaan sairaimpia olivat kaupunkilaiskoirat, joista noin 17 prosentilla oli allergiaa. Maalla osuus oli viitisen prosenttia.

”Kysely osoittaa ensimmäistä kertaa urbaanin ympäristön ja muun nisäkkään kuin ihmisen allergian välisen yhteyden”, Lehtimäki kertoo.

Vielä selvemmän näytön tarjoaa neljäs tutkimus, johon osallistui yhteensä 170 labradorinnoutajaa ja suomenlapinkoiraa.

Se paljasti, että eniten allergioista kärsivät kaupungissa esimerkiksi kerrostalossa asuvat koirat, joilla on ”urbaani elämäntyyli”. Niiden hoidosta vastaa yksi ihminen, joka harrastaa monenlaista ja lenkkeilee paljon koiran kanssa.

Harvinaisimpia allergiat ovat maalaiseen tapaan maalla elävillä koirilla. Niiden iholla on viljalti ympäristöstä peräisin olevia bakteereja.

Lehtimäki ihmettelee, miksi ympäristön ja allergian yhteys tuli ilmi koirilla muttei lapsilla.

”Allergia on monimutkainen sairaus ja ihmiselämä on monimutkaista, mikä saattaa piilottaa ympäristön vaikutuksen”, hän miettii.

Täysin piiloon ihminen ei kuitenkaan jäänyt. Kyselytutkimuksessa paljastui, että jos allergia vaivaa koiraa, omistajakin on todennäköisesti allergikko. Tämä johtuu epäilemättä jostain yhteisestä tekijästä koiran ja omistajan elämäntavoissa tai ympäristössä.

”Maaseutumaisessa ympäristössä koiran ja ihmisen elimistö altistuu mikrobeille, jotka jollakin tavalla tukevat immuunijärjestelmän toimintaa”, Lehtimäki toteaa.

Kysely

Uskotko biodiversiteettihypoteesiin?

Tutustu sisältöön ja lue uusi lehti digilehdet.fi:ssä.

 

Tieteessä 2/2018 

 

PÄÄKIRJOITUS

Kun viha vie

Vihapuhuja ratsastaa alkukantaisella reaktiolla.

 

PÄÄUUTISET

Unissa puhutaan rumia

Myöntisen päiväminän takaa kurkkii
kielteinen yöminä – hyvästä syystä.

Alienkivi on yksi miljoonista

Tähtienvälisiä asteroideja syöksyy
aurinkokunnan läpi jatkuvasti.

Nykyihminen seikkaili
ulos Afrikasta useita kertoja

Yhden ulostulon malli ei enää mitenkään
istu Aasian löytöihin.

Korallit kalpenevat kiihtyvää tahtia

Lämpenevät vedet riistävät
polyypilta elintärkeän kumppanin.

 

ARTIKKELIT

Migreeni vyöryy aivorungosta

Kun sähköt sekoavat hermokeskuksessa,
kipuviestit kiihdyttävät aivot hälytystilaan.

Esinisäkkäät
Maailman valtiaat ennen dinosauruksia

Kehitys kohti meitä käynnistyi jo silloin,
kun maapallon mantereet olivat vielä yhtä.

Siittiöt hukassa

Enää hälytyskellot eivät kilise van kumisevat.
Miesten siittiömäärät ovat romahtaneet.

James Bond
Harmaa agentti hurmasi maailman

Vastoin odotuksia huomaamaton vakooja sai
valtavan huomion. Kohu teki fiktiosta faktaa.

Liikenne jättää tiet

Visio on villi muttei utopiaa. Jokainen sopiva
maapala tarvitaan luonnolle ja ruoalle.

Ennen paras mies oli poikamies

Naiset ja seksi eivät ole aina olleet miehen mitta.
Elämän tärkeät asiat löytyivät pitkään toisaalta.

 

TIEDE VASTAA

Voiko pissa jäätyä kaarelle?

Haudataanko vainajat ilmansuuntien mukaan?

Mikä on puujalkavitsi?

Miksi kuusi kestää lumen painon?

Miten norppa löytää takaisin avannolle?

Voiko avaruusaseman palauttaa Maahan?

 

KIRJAT

Oma dna kantaa suvun historiaa

Marja Pirttivaara teki suomalaisille sukututkijoille uudenlaisen kätevän oppaan.

 

KUVA-ARVOITUS

Klassikkopalsta

kutsuu lukijoita tulkitsemaan kuvia lehden Facebook-sivustolle: facebook.com/tiede.fi

 

OMAT SANAT

Valoa kohti

Entisinä aikoina kantasana tarjosi myös lämpöä.

 

Jos olet Sanoman jonkin aikakauslehden tilaaja, voit lukea uusimman numeron jutut Sanoman Digilehdet-palvelussa.

Ellet vielä ole ottanut tilaukseesi kuuluvaa digiominaisuutta käyttöön, tee se osoitteessa https://oma.sanoma.fi/aktivoi/digilehdet. Aktivoinnin jälkeen pääset kirjautumaan suoraan digilehdet.fi-palveluun.