Valtavaa opetusaineistoa on jyryytettävä läpi lukemattomat kerrat. Pikkuhiljaa kone oivaltaa, millaista on ihmisen kieli.


Pikkuhiljaa kone oivaltaa, millaista on ihmisen kieli.




Ensimmäinen askel on opettaa konekääntäjälle, millaisia ovat kohde- ja lähdekielen lauseet. Tämä tapahtuu syöttämällä järjestelmälle valtava määrä halutuilla kielillä kirjoitettua tekstiä. Tällaista suurta tekstimassaa kutsutaan kielitieteessä nimellä korpus. Opetusmateriaalissa voi olla satoja miljardeja sanoja; määrä vastaa miljoonaa tavallista romaania.


Kielimalli tutkii lauseet

Opetusmateriaalin avulla luodaan niin kutsuttu kielimalli. Se määrittelee, miten todennäköinen jokin lause tai ilmaus on kielessä - eli miten todennäköistä on esimerkiksi se, että joku sanoo: Minä pidän mansikoista ja kermavaahdosta. Mitä suurempi todennäköisyys, sitä luultavammin lause on hyvää ja oikeaa kieltä. Tätä tietoa tarvitaan myöhemmin oikean käännöksen valitsemisessa.

Kielimallit käsittelevät virkkeitä yleensä trigrammeina eli kolmen sanan pätkinä. Mansikkaesimerkin perkaaminen aloitetaan laskemalla, miten moni lause opetuskorpuksessa alkaa sanoilla minä pidän mansikoista. Sitten siirytään yksi sana eteenpäin ja lasketaan, miten monessa lauseessa on peräkkäin sanat pidän, mansikoista sekä ja. Tällä tavoin, sana kerrallaan edeten, kielimalli oppii valtavan määrän kolmen sanan mittaisia jaksoja, joille samalla lasketaan esiintymistodennäköisyydet.


Uudetkin lauseet laskettavissa

Kun kielimalli on koulutettu, se osaa laskea todennäköisyyden sellaisellekin lauseelle, jota ei löydy opetusmateriaalista.

Jos uusi lause on vaikkapa hän pelasi jalkapalloa maajoukkueessa, kielimalli tarkastaa, miten usein opetusmateriaalissa esiintyvät peräkkäin sanat hän pelasi jalkapalloa sekä pelasi jalkapalloa maajoukkueessa.

Jos molemmat esiintyvät usein, uusikin lause on mallin mielestä kelvollista suomea ja saa oman todennäköisyytensä.

Joskus voi käydä niin, että opetusmateriaalista ei kerta kaikkiaan löydy tiettyä kolmen sanan yhdistelmää.

Lauseen todennäköisyydeksi tulisi tällöin nolla, vaikka se olisi ihmisen mielestä aivan kelvollinen. Tämän välttämiseksi sanoja voidaan käsitellä kaksikkoina tai todennäköisyyksiä voidaan tasoitella eri menetelmin, esimerkiksi antamalla jokaiselle tarkastellulle tekstinpätkälle tietty perustodennäköisyys.


Käännösmalli vertaa kieliä

Kun järjestelmällä on käsitys siitä, millaisia lauseita lähde- ja kohdekielessä on, sille opetetaan seuraavaksi, mitkä ovat todennäköisiä käännöksiä. Tähän tarvitaan niin sanottu rinnakkaiskorpus, esimerkkikäännös, joka sisältää saman tekstin kummallakin kielellä.

Nyt työhön käy käännösmalli. Se vertailee erikielisiä lauseita keskenään ja päättelee, mitkä sanoista ja ilmauksista vastaavat toisiaan.

Vertailussa törmätään usein siihen, että eri kielissä käytetään eri määrää sanoja. Esimerkiksi suomen huonekalu-sanaa vastaa englannissa kolme sanaa: piece of furniture. Lisäksi substantiiveihin liittyy englannissa artikkeli, a flower ja the house. Ilmiötä kutsutaan sanojen hedelmällisyydeksi (fertility), ja se tekee sanojen ja ilmausten täsmäämisestä haastavaa.

Koska tilastollinen käännin käsittelee todennäköisyyksiä, niitä voidaan vertailuvaiheessa hyödyntää.

Käännösmalli voi kokeilla jokaiselle sanalle montaa eri hedelmällisyystasoa: miltä näyttäisi, jos englannin sanaa does vastaisi yksi suomen kielen sana? Tai ei yhtään? Tai kaksi? Näistä valitaan lopuksi se, joka on laskelmien mukaan todennäköisin.


Pääte erilleen vartalosta

On helppo kuvitella, että tilastollinen käännösjärjestelmä toimii hyvin englannin kaltaisissa kielissä, joissa sanoja ei juuri taivuteta. Tällöin yksittäisten sanojen kääntämisellä ja niiden järjestyksen muuttamisella pääsee pitkälle. Suomen kaltainen runsaasti taivutuksia käyttävä kieli on hankalampi. Missä yhteydessä käytetään esimerkiksi voittaa-verbin muotoa voittamatta, ja kuinka monta englannin sanaa sitä vastaa?

Sanojen taivutuksiakin voi analysoida tilastollisesti. Mathias Creutzin ja Krista Laguksen Teknillisessä korkeakoulussa kehittämä Morfessori-järjestelmä osaa automaattisesti jaotella sanat morfeemeiksi kutsuttuihin rakenneyksiköihin. Esimerkiksi sanan vartalo ja eri taivutuspäätteet ovat morfeemeja.

Vertailemalla suurta määrää sanoja Morfessori päättelee, että esimerkiksi -ssa, -t  ja -iin ovat suomen kielessä luultavasti päätteitä, sillä ne esiintyvät useissa sanoissa ja yleensä niiden lopussa. Kun järjestelmä näkee uuden sanan, vaikkapa puussa, kissat  ja konttiin, se hoksaa, että ne ovat todennäköisesti sanojen puu, kissa ja kontti taivutettuja muotoja.

Kun päätteet on erotettu omiksi yksiköikseen, käännösmallia kehitettäessä voidaan täsmätä kokonaisten sanojen sijaan niiden vartaloita ja päätteitä. Sanan talossa voi lohkaista talo-vartaloon ja -ssa-päätteeseen, jolloin järjestelmä kuittaa vartalon vastaavan englannin house-sanaa. Vartaloon liittyvät erilaiset päätteet vastaavat englannin in-, on- ja at-prepositioita.


Käännettävä lause: Hän ei syö voita
















Kielimalli: Ehdotuksen sanat eivät esiinny opetusmateriaalissa koskaan peräkkäin. 0 pistettä.
Dekoodausmalli: Yhteensä 10 pistettä.



 



 

Kielimalli: eat butter esiintyy jo opetusmateriaalissa, mutta he no eat ja no eat butter eivät. 3 pistettä.
Dekoodausmalli: Yhteensä 11 pistettä.
Kielimalli: Sanayhdistelmät esiintyvät usein yhdessä opetusmateriaalissa. 10 pistettä.
Dekoodausmalli: Yhteensä 17 pistettä.

Dekoodausmalli valitsee

Varsinaisen kääntämisen hoitaa niin sanottu dekoodausalgoritmi, joka hyödyntää kieli- ja käännösmallin tietoja. Kielimallille on opetettu, millaista on hyvä kohde- ja lähdekieli, kun taas käännösmalli sisältää tietoa siitä, mitkä sanat ja ilmaukset luultavasti vastaavat toisiaan.

Voidaan ajatella, että käännös- ja kielimalli tekevät ehdotuksia, joilla on tietty määrä pisteitä sen mukaan, miten hyviä ehdotukset mallien mielestä ovat. (Oikeasti mallit käyttävät tarkkoja todennäköisyyksiä, mutta pisteiden avulla toimintaperiaate on helpompi havainnollistaa.)

Dekoodausmalli valitsee saamistaan ehdotuksista yhdistelmän, jonka kokonaispisteet ovat mahdollisimman suuret.

Jos suomi-englanti-käännöskone saisi tehtäväkseen lauseen hän ei syö voita, käännösmalli tietäisi, että sanan ei todennäköisin käännös on no ja voita-sanalla tarkoitetaan voittamista. Käännösmallin mukaan todennäköisin ja parhaat pisteet saava käännös olisi siis he no eat win, jossa kaikille sanoille on valittu niiden yleisin käännösvastine.

Kielimalli kuitenkin kertoisi, että lause on kelvotonta englantia, koska sen sanat sanat eivät esiintyneet opetusmateriaalissa kertaakaan peräkkäin - nolla pistettä.

Kun dekoodausalgoritmi yhdistää nämä tiedot, ehdotuksen kokonaispistemäärä jää pieneksi. Tarvitaan parempi vaihtoehto.

Miten kone pisteyttää muut ehdotukset, näet yllä olevasta taulukosta.



Janos Honkonen on vapaa tiede- ja tekniikkatoimittaja.

Hyvä harrastus – ja helppo. Lukemista löytyy aina. Kuva: Shutterstock

Kieli rikastuu, ajattelu syvenee ja sosiaalinen taju kehittyy.

Tietokirjan järki on selvä: saa tietoa, jolla jäsentää maailmaa ja vaientaa mutuilijat. Riittävästi tietoa hankkimalla tulee asiantuntijaksi, ja sillä on selvä hyötyarvo.

Entä missä on fiktion lukijan tulosvastuu? Mitä itua on kuluttaa aikaansa tuntitolkulla hatusta vedettyjen ihmisten hatusta vedettyihin edesottamuksiin? Paljonkin: romaani tai novelli opettaa toimimaan muiden ihmisten kanssa.

Fiktio simuloi sosiaalista maailmaa, esittää asiaa tutkinut Toronton yliopiston psykologian professori Keith Oatley. Niin kuin lentosimulaattori opettaa lentotaitoja, sosiaalisten tilanteiden simulaattori – romaani – opettaa sosiaalisia taitoja.

Kokeet vahvistavat, että fiktiota lukeneet tajuavat paremmin so­siaalisia kuvioita kuin tietotekstiä lukeneet. 

Suvaitsevaisuus kasvaa

Kuvitteellisesta tarinasta on sekin ilo, että pääsee väliaikaisesti jonkun toisen nahkoihin. Samastuminen tarinan henkilöön voi muuttaa lukijan käyttäytymistä ja pistää asenteet uusiksi, ovat kokeillaan osoittaneet Ohion yliopiston tutkijat.

Samastumisella on vaaransa. Romaanin aiheuttama itsemurha-aalto koettiin 1700-luvun lopulla, kun nuoret onnettomat miehet matkivat Johan Wolfgang von Goethen päähenkilön tekoa Nuoren Wertherin kärsimyksissä.

Ohiolaistutkimuksessa vaikutus oli rakentavampi: kun nuoret aikuiset olivat lukeneet tarinan miehestä, joka meni äänestämään, he menivät hanakammin vaaliuurnille vielä viikon kuluttua lukemisesta. He olivat saaneet kansalaishyvetartunnan.

Valkoihoisten suvaitsevaisuutta taas kasvattivat tarinat, joissa päähenkilö osoittautui homoseksuaaliksi tai afroamerikkalaiseksi. Lukijoilta karisi myös stereotypioita. Tämä kuitenkin edellytti, että päähenkilön ”erilaisuus” paljastui vasta tarinan myöhemmässä vaiheessa ja lukijat olivat ehtineet asettua hänen nahkoihinsa.

Stressi väistyy

Kun uppoutuu lukemaan, maailman meteli jää kauas ja paineet hellittävät. Tuttu tunne, josta on myös tieteelliset näytöt: lukeminen poistaa stressiä.

Terveystieteen opiskelijat saivat Yhdysvalloissa tehdyssä tutkimuksessa lukeakseen netistä ja aikakauslehdestä poimittuja artikkeleita, jotka käsittelivät historiallisia tapauksia ja tulevaisuuden innovaatioita. Aihepiirit olivat siis kaukana tenttikirjojen pakkolukemistosta.

Puolentunnin lukutuokio riitti laskemaan verenpainetta, sykettä ja stressin tuntua. Huojennus on yhtä suuri kuin samanpituisella joogahetkellä tai televisiohuumorin katselulla. Mikä parasta, apu löytyy helposti, lukemista kun on aina saatavilla.

Sanasto karttuu

Kirjoitettu kieli on ylivoimaisesti suurempi uusien sanojen lähde kuin puhuttu. Erot lasten sanavaraston runsaudessa voi johtaa suoraan siihen, miten paljon he altistuvat erilaisille teksteille, vakuuttavat lukemisen tutkijat Anne Cunningham ja Keith Stanovich.

Tiuhimmin uutta sanastoa kohtaa tieteellisten julkaisujen tiivistelmissä: tuhatta sanaa kohti harvinaisia on peräti 128. Sanoma- ja aikakauslehdissä harvinaisten sanojen tiheys nousee yli 65:n ja aikuisten kirjoissa yli 50:n.

Lastenkirjakin voittaa sanaston monipuolisuudessa televisio-ohjelman mennen tullen. Lapsilukija kohtaa kirjassa yli 30 harvinaista sanaa tuhatta kohti, kun aikuisten telkkariviihdettä katsoessa niitä tulee vastaan 23 ja lastenohjelmissa 20.

Juttelukaan ei pahemmin kartuta sanavarastoa. Aikuispuhe sisältää vain 17 epätavallista sanaa tuhatta kohti.

Syntyy omia ajatuksia

Ihmisen aivoja ei ole ohjelmoitu lukemaan. Kun taito kehittyi 5 500 vuotta sitten, näkemiseen, kuulemiseen, puhumiseen ja ajatteluun rakentuneet alueet alkoivat tehdä uudenlaista yhteistyötä.

Nyt olemme jälleen uudenlaisen lukukulttuurin alussa. Verkkolukeminen on tullut jäädäkseen, ja jotkut pelkäävät, että tyhmistymme, kun totutamme aivomme ärsyketulvaan ja pikaselailuun netissä. Tiedonvälitys on lisääntynyt räjähdysmäisesti mutta niin myös häly.

Syventyvän lukemisen kohtalosta kantaa huolta professori Maryanne Wolf Tufts-yliopistosta. Tapaa näet kannattaisi vaalia. Aivokuvaukset paljastavat, että paneutuva lukija käyttää laajasti molempia aivopuoliskojaan. Hän ei vain vastaanota kirjoittajan sanomaa vaan vertaa sitä aiemmin hankkimaansa tietoon, erittelee sitä ja rakentaa omaa ajatteluaan. Pintalukijalla ei tähän ole aikaa.

Mikko Puttonen on Tiede-lehden toimittaja.

Julkaistu Tiede-lehdessä 12/2012 

Täysin raittiiden suomalaisnuorten osuus on moninkertaistunut vuosituhannen alusta.

Nuoruus raitistuu, kertoo Helsingin Sanomat jutussaan.

Nuorten alkoholin käyttö kasvoi vuoteen 1999, joka oli myös kaikkein kostein vuosi. Silloin vain joka kymmenes yhdeksäsluokkalainen ilmoitti, ettei ollut koskaan käyttänyt alkoholia.

Sittemmin täysin raittiiden osuus on moninkertaistunut, ilmenee vuoteen 2015 ulottuneesta eurooppalaisesta, nuorten päihteidenkäyttöä käsittelevästä Espad-tutkimuksesta.

Jopa muut eurooppalaiset jäävät jälkeen. Suomessa täysin raittiita 15–16-vuotiaista nuorista on joka neljäs, kun Euroopassa heitä on keskimäärin joka viides.

Terveyden ja hyvinvoinnin laitoksen THL:n erikoistutkija Kirsimarja Raitasalo kollegoineen on ­koettanut tunnistaa niitä nuoruuden muutoksia, jotka voisivat selittää humalan hiipumista.

Ratkaisevaa näyttää olleen ainakin se, että alaikäisten on yhä vaikeampi saada alkoholia. Nykynuoret kokevat sen selvästi hankalammaksi kuin aiemmat ikäpolvet.

Kauppojen omavalvonta on osaltaan tehonnut. Kassoilla kysytään kaikilta alle 30-vuotiaan näköisiltä papereita.

Vanhemmat ja muutkin aikuiset ovat tiukentaneet asenteitaan nuorten juomiseen.

”Tietoisuus alkoholin haitoista on ehkä lisääntynyt. On tullut paljon tutkimustietoa esimerkiksi siitä, miten alkoholi vaikuttaa nuorten aivojen kehitykseen”, Raitasalo pohtii.

Nuorten omakin maailma on muuttunut toisenlaiseksi. Älylaitteet, pelit ja sosiaalinen media kyllästävät arkea. Pussikaljoittelu joutuu kilpailemaan monen muun kiinnostavan ajanvietteen kanssa ja on ehkä osittain hävinnyt niille.

Juovuksissa olemisesta on ehkä tullut myös tyylirikko. Nuoret eivät enää näytä arvostavan kännissä örveltämistä.

Kysely

Mikä mielestäsi raitistaa nuoria?

Neutroni
Seuraa 
Viestejä25775
Liittynyt16.3.2005

Viikon gallup: Mikä mielestäsi raitistaa nuoria?

Käyttäjä4809 kirjoitti: Eiköhän syy ole -90 luvulla alkaneen laman menetetyt työpaikat ja samalla supistettu koulutus, minkä seurauksena vuodestä -99 alkaen vanhemmilla ei enää ole ollut niin paljon rahaa annettavaksi nuorisolle. Sekä myös nuorisolle soveltuvien työpaikkojen vähentyminen ja samaan aikaan tapahtunut kohtuuton vuokrien nousu, vasinkin pääkaupunkiseudulla. En tiedä, mutta en usko rahaan. Esimerkiksi kilju, 10 % juoma joka maksaa joitain senttejä litralta, tuntuu olevan...
Lue kommentti
molaine
Seuraa 
Viestejä1189
Liittynyt3.8.2011

Viikon gallup: Mikä mielestäsi raitistaa nuoria?

En kyllä usko, että rahalla on iso merkitys ja veikkaan, että käytettävissä olevat rahat on vain kasvaneet, jos verrataan vaikka omaan nuoruuteen. Ei viina suomessa ole niin kallista, etteikö köyhälläkin olisi varaa dokailla. Oma junnu ei läträä lainkaan viinan kanssa. Iso osa kavereistakaan ei, vaikka osa ilmeisesti jonkin verran lipittelee. Kyllä nuorten asenteet on mielestäni muuttuneet ihan selkeästi. Ehkä alkoholipolitiikka on toiminut? Kotoa ei meillä kyllä tällaista ole opittu...
Lue kommentti

Panterarosa: On selvää, että "Partitava kisaa kurupati-kuvaa" ei oikein aukene kehitysmaalaisille N1c- kalmukinperseille.