Kun ihmiskielten tietokoneistettua kääntämistä ryhdyttiin tutkimaan 50-luvulla, toimivaa järjestelmää luultiin muutaman vuoden työksi. Luonnollista kieltä on kuitenkin vaikea selättää. Täyden kympin käännöskone on unelma, mutta yhdeksikölläkin pärjää.


toimivaa järjestelmää luultiin muutaman vuoden työksi. Luonnollista kieltä on
kuitenkin vaikea selättää. Täyden kympin käännöskone on unelma,
mutta yhdeksikölläkin pärjää.




Kuvittele, että joutuisit kääntämään tekstiä vepsän kielestä tagalogiksi mutta et osaisi sanaakaan kumpaakaan kieltä. Apuvälineiksi saisit vepsä-tagalog-vepsä-sanakirjan ja kummankin kielen kieliopin.

Kääntäessäsi yrittäisit tunnistaa vepsän sanan ja sen taivutuksen: katsoisit sanakirjasta, onko se esimerkiksi substantiivi vai verbi. Sitten etsisit sille tagalogin vastineen.

Etenisit sana sanalta, etkä koko aikana ymmärtäisi mitään tekstistä, jota käännät. Lyhyitä lauseita onnistuisit ehkä kääntämään, varsinkin jos olisit hyvin ripeä selaamaan sanastoja ja kielioppeja. Mutta jos vastaan tulisi sananmuunnos, ammattitermi, monitulkintainen sana tai vaikkapa vain kirjoitus- tai kielioppivirhe, todennäköisesti menisi sormi suuhun.

Tietokone on likipitäen tällaisessa tilanteessa kääntäessään kieltä.


Kylmä sota herätti innostuksen

Konekääntämisen tutkimus käynnistyi 40- ja 50-luvun taitteessa kylmän sodan alkumainingeissa, jolloin venäjänkielisen tekstin kääntäminen englanniksi oli tiedustelusyistä tärkeää. Kieltä pidettiin samankaltaisena järjestelmänä kuin salakirjoituskoodeja, joita oli onnistuneesti murrettu sodan aikana. Tutkimusta rahoitettiin runsaskätisesti, ja tutkijat lupasivat, että muutaman vuoden kehitystyön jälkeen olisi käytössä ihmiskääntäjän korvaavia konekäännösjärjestelmiä.

Toisin kävi. Kymmenen vuoden jälkeen alkuinnostus hiipui, sillä toimiva konekäännösohjelma oli edelleen pelkkä haave.

Silti alan tutkimus jatkui, ja pikkuhiljaa tulokset paranivat. Nykytekniikalla syntyy ohjelmisto, joka kääntää optimitilanteessa 90-prosenttisesti oikein - mutta sen jälkeen jokainen prosentti on työn ja tuskan takana.

Konekäännösjärjestelmiä hyödyntävät tällä haavaa sekä virastot että yritykset. Maailman ykköskäyttäjä on EU, jossa dokumentit pitää kääntää kaikille jäsenmaiden kielille. Suomessa käännösohjelmapalveluita tarjoavat esimerkiksi Kielikone Oy ja Sunda Systems Oy.

Kone kompastuu merkitykseen

90-prosenttisesti oikein kääntävä järjestelmä kuulostaa melko pätevältä, kunnes miettii, mitä tämä käytännössä tarkoittaa: joka kymmenes sana tai ilmaus on käännetty virheellisesti. Tällaisella tuloksella ihmiskääntäjä ei pysyisi kovin pitkään alalla.

Mistä homma kiikastaa?

Nykynäkemyksen mukaan kieli koostuu neljästä tasosta. Fonologisella tasolla käsitellään äänteitä ja niiden liittymistä toisiinsa, eikä se ole kovin tärkeää, kun ei käännetä puhetta vaan tekstiä.

Seuraava taso on morfologia, jossa tarkastellaan sanojen muotoja ja taivutuksia. Ne ovat tärkeitä etenkin suomen kaltaisissa sanoja runsaasti taivuttavissa kielissä. Käännösjärjestelmän tulee ymmärtää, että esimerkiksi löytää, löydän ja löysi ovat saman verbin eri taivutuksia. Sen pitää myös määrittää taivutusmuotojen kielellinen tehtävä ja luoda kohdekielelle oikeat vastineet.

Kolmas taso, syntaksi, käsittelee lauseen rakennetta, muun muassa sanajärjestystä. Esimerkiksi englannissa sanajärjestyksellä ilmaistaan monia asioita, joihin suomessa käytetään taivutuksia. Siksi sanajärjestyskin pitää konekäännöksissä hallita.

Neljäs taso on semantiikka, lauseiden merkitykset. Se on tällä hetkellä konekäännöksen kompastuskivi, sillä tietokone ei aidosti ymmärrä käsittelemäänsä tekstiä. Se näkee pelkkiä kirjainjonoja, jotka on koottu tiettyjen sääntöjen mukaisesti. Siinä missä ihmiskääntäjä ymmärtää tekstin merkityksen, nykyiset käännösjärjestelmät joutuvat turvautumaan mekaanisiin päättelysääntöihin.


Lyhyt muisti ja putkinäkö

Kehitysjohtaja Kaarina Hyvönen Kielikone Oy:stä luonnehtii ihmistä varsin huolimattomaksi ja luovaksi kielen käyttäjäksi. Ihmiskieli ei ole yksiselitteistä eikä aina loogistakaan, mikä tekee mekaanisten sääntöjen soveltamisesta  vaikeaa.

Nykyiset käännösjärjestelmät pystyvät käsittelemään suhteellisen hyvin yleiskielistä tekstiä, joka on kirjoitettu kieliopillisesti hyvin ja jossa lauserakenteet ovat kohtalaisen yksinkertaisia. Parhaiten koneen käännettäviksi soveltuvat esimerkiksi ohjekirjat ja standardimuotoiset dokumentit.

Käännösohjelma käsittelee yleensä virkkeen kerrallaan, eikä se pysty muistamaan, mistä aikaisemmin oli puhe. Virkkeiden väliset viittaukset ovat siksi hankalia. Koneella on yksinkertaisesti lyhyt muisti ja putkinäkö.

Vertauskuvat, sanonnat ja etenkin sanaleikit ovat tietokoneelle mahdottomia kääntää, eivätkä ne ole aina helppoja ihmiskääntäjällekään. Sama pätee puhekieleen ja murteisiin.

Kielen monimerkityksisyys on iso ongelma. Esimerkiksi suomen kielen sana kuusi voi tarkoittaa numeroa, puuta tai sinun kuutasi. Tämä on vielä helppoa, mutta esimerkiksi englannin set-sanan eri tulkinnat täyttävät sivun sanakirjasta.

Joskus koneen on vaikea ymmärtää yhdyssanoja. Onko aasialainen kansallisuus vai tyhmä työntekijä? Entä onko kuutamoilta yhdyssana? Millainen höyhenpeitteinen vahtimestari on virtuaalikanavaksi? Kuinka jaetaan riveille kaivosaukko?

Oma lukunsa ovat ammattitermit. Levykaupan levy on eri asia kuin hitsaajan levy, eivätkä divarin ja ruokakaupan hevi-osastot tarjoa samaa tavaraa.

Hyvösen mukaan käännösjärjestelmän voi kuitenkin mukauttaa tiettyyn ammattisanastoon, mikä parantaa huomattavasti sen suorituskykyä. Järjestelmälle opetetaan yleiskieleen kuulumaton alan erikoissanasto ja sitä kehotetaan tarvittaessa poimimaan esimerkiksi levy-sanalle oikea vastine sanastosta.


Kone oppii kieliopin

Nykyisin käytettävät niin sanotut symboliset käännösjärjestelmät perustuvat suureen kokoelmaan kielioppisääntöjä. Käännös alkaa tekstin analysoinnista. Analyysi muistuttaa peruskoulun äidinkielen tunneilta tuttua lauseenjäsennystä, jossa virkkeestä etsitään pää- ja sivulauseet, subjekti, predikaatti jne. Kun lauseen rakenne on selvillä, käännetään sen sanat kohdekielelle ja muutetaan lauseen rakenne kohdekielen kielioppiin sopivaksi.

Esimerkiksi virkkeessä jänis nukahti syötyään porkkanan määritellään pääsanaksi verbi nukahtaa ja subjektiksi jänis. Virkkeen loppu on lauseenvastike, joka kuvaa nukahtamista edeltänyttä toimintaa.

Ensin sanat käännetään englanniksi ja taivutetaan asianmukaisesti. Samalla suomen sana syötyIään halkaistaan ilmaukseksi after it had finished eating. Lopuksi järjestellään sanat kohdekielen lauserakenteen mukaisiksi: after it had finished eating the carrot, the rabbit fell asleep.

Esimerkki osoittaa, että käännösohjelman tulee ymmärtää hieman myös sanojen merkityksiä. Koska lauseessa puhutaan eläimestä, siihen tulee viitata sanalla it. Jos porkkanan syöjä olisi ihminen, sanaksi pitäisi valita he tai she sukupuolen mukaan.




Kaksi tapaa kääntää


Konekäännökseen on kaksi lähestymistapaa: symbolinen ja tilastollinen. Edellinen perustuu logiikkaan ja kielioppisääntöihin, jälkimmäinen koneoppimiseen.

Symboliset järjestelmät edustavat huippuunsa viritettyä nykytekniikkaa. Käytännössä kaikki teollisuuden ja kuluttajien käytössä olevat käännösjärjestelmät - mukaan lukien Kielikoneen TranSmart ja Sundan käännösohjelmisto - ovat symbolisia.

Tilastolliset konekääntäjät ovat kehitteillä mutta edistyvät ripeästi. Toistaiseksi ainoa kuluttajakäytössä oleva tilastollinen käännin on Googlen arabian ja englannin välillä kääntävä järjestelmä.
Tulevaisuus tuottanee hybridijärjestelmiä, joissa symboliset ja tilastolliset menetelmät yhdistyvät.



Unelmana universaalikieli

Tohtori Harri Arnola Sunda Systems Oy:stä vertaa konekäännösjärjestelmää siltaan, jota pitkin lähdetekstin analysoidut osat siirretään toiselle kielelle ja muutetaan siellä kohdekielen sääntöjen mukaisiksi.

Eri kielille tämä siltatyömaa on pystytettävä aina erikseen. Jokainen kielipari tarvitsee oman säännöstön ja sanaston, jotka on laadittava käsityönä. Uuden kielen lisääminen käännösjärjestelmään on aina työläs ja kallis urakka.

Konekääntäjillä onkin kunnianhimoinen unelma: tavoitteena on kehittää universaali kieli, interlingua, jonka avulla voi ilmaista minkä tahansa kielen lauseiden merkityksen yksiselitteisesti. Tällöin kielten välistä siltaa ei tarvita, vaan käännettävä teksti "keitetään kokoon" perimmäiseen merkitykseensä, josta sen voi palauttaa toiselle kielelle.

Kun interlingua-järjestelmään lisätään uusi kieli, vaaditaan ainoastaan säännöt, joiden mukaan kieli käännetään interlingualle ja takaisin. Tämän jälkeen sen voi interlinguan kautta kääntää mille tahansa muulle järjestelmän kielelle.

Yhteinen välikieli on kuitenkin konekääntämisen viisastenkivi, jota ei toistaiseksi ole pystytty kehittämään.
Välikielenä on yritetty käyttää esimerkiksi esperantoa, intensionaalista logiikkaa ja luonnollisia kieliä, kuten englantia. Mitkään vaihtoehdoista eivät ole toimineet, sillä ne eivät koodaa lauseen sisintä merkitystä tarpeeksi yksiselitteisesti. Välikielen lisääminen on aiheuttanut ainoastaan käännösvirheiden monistumisen. Tuloksena on ollut kallis "rikkinäinen puhelin".


Ihminen karsii kömpelyydet

Vaikka nykyisissä konekääntäjissä on puutteita, ne sopivat mainiosti raakakäännösten tekemiseen esimerkiksi silloin, kun samankaltaista tekstiä pitää kääntää paljon. Jos suuryrityksen on julkaistava kuukausittain standardimuotoisia raportteja useilla eri kielillä, raa'an käännöstyön voi hyvin automatisoida.

Erityisen otollista käännettäväksi on ohjekirjojen, teknisten dokumenttien ja käyttöohjeiden koreilematon asiateksti. Ihmiskääntäjän tulee kuitenkin tarkistaa käännös ja korjata käännösohjelman tekemät virheet ja kömpelyydet. Jos teksti on erittäin standardimuotoista ja käännösjärjestelmä on mukautettu siihen hyvin, käännöksen voi tehdä täysin automaattisesti.

Harri Arnola painottaa konekäännöksen sosiaalista ja yhteiskunnallista merkitystä. Suomessa on edelleen paljon nettisurffaajia, joiden englannin kielen taito ei ole erityisen hyvä. Sitä mukaa kuin netin käyttäjien määrä kasvaa, verkosta tulee yhä monikielisempi. Vaikka käännösohjelma ei tuottaisi kieliopillisesti täysin korrektia jälkeä, käännös yleensä riittää tekstin sisällön ymmärtämiseen ja avaa nettimaailman kielitaidottomallekin.

Netti ei ole ainoa konekäännöksen arkinen sovellusala. Kukapa ei olisi joskus joutunut pähkäilemään vieraskielisen ruokalistan tai laitteen käyttöohjeen parissa. Kielenopettaja saattaa kurtistaa kulmiaan koneen tekemälle käännökselle, mutta ulkomaisessa ravintolassa ruokaileva on varmasti tyytyväinen saadessaan tietää, onko tilaamassa sisäfileepihviä vai kokonaisena keitettyä lampaanpäätä.


Janos Honkonen on vapaa tiede- ja tekniikkatoimittaja.

Hyvä harrastus – ja helppo. Lukemista löytyy aina. Kuva: Shutterstock

Kieli rikastuu, ajattelu syvenee ja sosiaalinen taju kehittyy.

Tietokirjan järki on selvä: saa tietoa, jolla jäsentää maailmaa ja vaientaa mutuilijat. Riittävästi tietoa hankkimalla tulee asiantuntijaksi, ja sillä on selvä hyötyarvo.

Entä missä on fiktion lukijan tulosvastuu? Mitä itua on kuluttaa aikaansa tuntitolkulla hatusta vedettyjen ihmisten hatusta vedettyihin edesottamuksiin? Paljonkin: romaani tai novelli opettaa toimimaan muiden ihmisten kanssa.

Fiktio simuloi sosiaalista maailmaa, esittää asiaa tutkinut Toronton yliopiston psykologian professori Keith Oatley. Niin kuin lentosimulaattori opettaa lentotaitoja, sosiaalisten tilanteiden simulaattori – romaani – opettaa sosiaalisia taitoja.

Kokeet vahvistavat, että fiktiota lukeneet tajuavat paremmin so­siaalisia kuvioita kuin tietotekstiä lukeneet. 

Suvaitsevaisuus kasvaa

Kuvitteellisesta tarinasta on sekin ilo, että pääsee väliaikaisesti jonkun toisen nahkoihin. Samastuminen tarinan henkilöön voi muuttaa lukijan käyttäytymistä ja pistää asenteet uusiksi, ovat kokeillaan osoittaneet Ohion yliopiston tutkijat.

Samastumisella on vaaransa. Romaanin aiheuttama itsemurha-aalto koettiin 1700-luvun lopulla, kun nuoret onnettomat miehet matkivat Johan Wolfgang von Goethen päähenkilön tekoa Nuoren Wertherin kärsimyksissä.

Ohiolaistutkimuksessa vaikutus oli rakentavampi: kun nuoret aikuiset olivat lukeneet tarinan miehestä, joka meni äänestämään, he menivät hanakammin vaaliuurnille vielä viikon kuluttua lukemisesta. He olivat saaneet kansalaishyvetartunnan.

Valkoihoisten suvaitsevaisuutta taas kasvattivat tarinat, joissa päähenkilö osoittautui homoseksuaaliksi tai afroamerikkalaiseksi. Lukijoilta karisi myös stereotypioita. Tämä kuitenkin edellytti, että päähenkilön ”erilaisuus” paljastui vasta tarinan myöhemmässä vaiheessa ja lukijat olivat ehtineet asettua hänen nahkoihinsa.

Stressi väistyy

Kun uppoutuu lukemaan, maailman meteli jää kauas ja paineet hellittävät. Tuttu tunne, josta on myös tieteelliset näytöt: lukeminen poistaa stressiä.

Terveystieteen opiskelijat saivat Yhdysvalloissa tehdyssä tutkimuksessa lukeakseen netistä ja aikakauslehdestä poimittuja artikkeleita, jotka käsittelivät historiallisia tapauksia ja tulevaisuuden innovaatioita. Aihepiirit olivat siis kaukana tenttikirjojen pakkolukemistosta.

Puolentunnin lukutuokio riitti laskemaan verenpainetta, sykettä ja stressin tuntua. Huojennus on yhtä suuri kuin samanpituisella joogahetkellä tai televisiohuumorin katselulla. Mikä parasta, apu löytyy helposti, lukemista kun on aina saatavilla.

Sanasto karttuu

Kirjoitettu kieli on ylivoimaisesti suurempi uusien sanojen lähde kuin puhuttu. Erot lasten sanavaraston runsaudessa voi johtaa suoraan siihen, miten paljon he altistuvat erilaisille teksteille, vakuuttavat lukemisen tutkijat Anne Cunningham ja Keith Stanovich.

Tiuhimmin uutta sanastoa kohtaa tieteellisten julkaisujen tiivistelmissä: tuhatta sanaa kohti harvinaisia on peräti 128. Sanoma- ja aikakauslehdissä harvinaisten sanojen tiheys nousee yli 65:n ja aikuisten kirjoissa yli 50:n.

Lastenkirjakin voittaa sanaston monipuolisuudessa televisio-ohjelman mennen tullen. Lapsilukija kohtaa kirjassa yli 30 harvinaista sanaa tuhatta kohti, kun aikuisten telkkariviihdettä katsoessa niitä tulee vastaan 23 ja lastenohjelmissa 20.

Juttelukaan ei pahemmin kartuta sanavarastoa. Aikuispuhe sisältää vain 17 epätavallista sanaa tuhatta kohti.

Syntyy omia ajatuksia

Ihmisen aivoja ei ole ohjelmoitu lukemaan. Kun taito kehittyi 5 500 vuotta sitten, näkemiseen, kuulemiseen, puhumiseen ja ajatteluun rakentuneet alueet alkoivat tehdä uudenlaista yhteistyötä.

Nyt olemme jälleen uudenlaisen lukukulttuurin alussa. Verkkolukeminen on tullut jäädäkseen, ja jotkut pelkäävät, että tyhmistymme, kun totutamme aivomme ärsyketulvaan ja pikaselailuun netissä. Tiedonvälitys on lisääntynyt räjähdysmäisesti mutta niin myös häly.

Syventyvän lukemisen kohtalosta kantaa huolta professori Maryanne Wolf Tufts-yliopistosta. Tapaa näet kannattaisi vaalia. Aivokuvaukset paljastavat, että paneutuva lukija käyttää laajasti molempia aivopuoliskojaan. Hän ei vain vastaanota kirjoittajan sanomaa vaan vertaa sitä aiemmin hankkimaansa tietoon, erittelee sitä ja rakentaa omaa ajatteluaan. Pintalukijalla ei tähän ole aikaa.

Mikko Puttonen on Tiede-lehden toimittaja.

Julkaistu Tiede-lehdessä 12/2012 

Täysin raittiiden suomalaisnuorten osuus on moninkertaistunut vuosituhannen alusta.

Nuoruus raitistuu, kertoo Helsingin Sanomat jutussaan.

Nuorten alkoholin käyttö kasvoi vuoteen 1999, joka oli myös kaikkein kostein vuosi. Silloin vain joka kymmenes yhdeksäsluokkalainen ilmoitti, ettei ollut koskaan käyttänyt alkoholia.

Sittemmin täysin raittiiden osuus on moninkertaistunut, ilmenee vuoteen 2015 ulottuneesta eurooppalaisesta, nuorten päihteidenkäyttöä käsittelevästä Espad-tutkimuksesta.

Jopa muut eurooppalaiset jäävät jälkeen. Suomessa täysin raittiita 15–16-vuotiaista nuorista on joka neljäs, kun Euroopassa heitä on keskimäärin joka viides.

Terveyden ja hyvinvoinnin laitoksen THL:n erikoistutkija Kirsimarja Raitasalo kollegoineen on ­koettanut tunnistaa niitä nuoruuden muutoksia, jotka voisivat selittää humalan hiipumista.

Ratkaisevaa näyttää olleen ainakin se, että alaikäisten on yhä vaikeampi saada alkoholia. Nykynuoret kokevat sen selvästi hankalammaksi kuin aiemmat ikäpolvet.

Kauppojen omavalvonta on osaltaan tehonnut. Kassoilla kysytään kaikilta alle 30-vuotiaan näköisiltä papereita.

Vanhemmat ja muutkin aikuiset ovat tiukentaneet asenteitaan nuorten juomiseen.

”Tietoisuus alkoholin haitoista on ehkä lisääntynyt. On tullut paljon tutkimustietoa esimerkiksi siitä, miten alkoholi vaikuttaa nuorten aivojen kehitykseen”, Raitasalo pohtii.

Nuorten omakin maailma on muuttunut toisenlaiseksi. Älylaitteet, pelit ja sosiaalinen media kyllästävät arkea. Pussikaljoittelu joutuu kilpailemaan monen muun kiinnostavan ajanvietteen kanssa ja on ehkä osittain hävinnyt niille.

Juovuksissa olemisesta on ehkä tullut myös tyylirikko. Nuoret eivät enää näytä arvostavan kännissä örveltämistä.

Kysely

Mikä mielestäsi raitistaa nuoria?

Neutroni
Seuraa 
Viestejä25798
Liittynyt16.3.2005

Viikon gallup: Mikä mielestäsi raitistaa nuoria?

Käyttäjä4809 kirjoitti: Eiköhän syy ole -90 luvulla alkaneen laman menetetyt työpaikat ja samalla supistettu koulutus, minkä seurauksena vuodestä -99 alkaen vanhemmilla ei enää ole ollut niin paljon rahaa annettavaksi nuorisolle. Sekä myös nuorisolle soveltuvien työpaikkojen vähentyminen ja samaan aikaan tapahtunut kohtuuton vuokrien nousu, vasinkin pääkaupunkiseudulla. En tiedä, mutta en usko rahaan. Esimerkiksi kilju, 10 % juoma joka maksaa joitain senttejä litralta, tuntuu olevan...
Lue kommentti
molaine
Seuraa 
Viestejä1189
Liittynyt3.8.2011

Viikon gallup: Mikä mielestäsi raitistaa nuoria?

En kyllä usko, että rahalla on iso merkitys ja veikkaan, että käytettävissä olevat rahat on vain kasvaneet, jos verrataan vaikka omaan nuoruuteen. Ei viina suomessa ole niin kallista, etteikö köyhälläkin olisi varaa dokailla. Oma junnu ei läträä lainkaan viinan kanssa. Iso osa kavereistakaan ei, vaikka osa ilmeisesti jonkin verran lipittelee. Kyllä nuorten asenteet on mielestäni muuttuneet ihan selkeästi. Ehkä alkoholipolitiikka on toiminut? Kotoa ei meillä kyllä tällaista ole opittu...
Lue kommentti

Panterarosa: On selvää, että "Partitava kisaa kurupati-kuvaa" ei oikein aukene kehitysmaalaisille N1c- kalmukinperseille.