Kun ihmiskielten tietokoneistettua kääntämistä ryhdyttiin tutkimaan 50-luvulla, toimivaa järjestelmää luultiin muutaman vuoden työksi. Luonnollista kieltä on kuitenkin vaikea selättää. Täyden kympin käännöskone on unelma, mutta yhdeksikölläkin pärjää.


toimivaa järjestelmää luultiin muutaman vuoden työksi. Luonnollista kieltä on
kuitenkin vaikea selättää. Täyden kympin käännöskone on unelma,
mutta yhdeksikölläkin pärjää.




Kuvittele, että joutuisit kääntämään tekstiä vepsän kielestä tagalogiksi mutta et osaisi sanaakaan kumpaakaan kieltä. Apuvälineiksi saisit vepsä-tagalog-vepsä-sanakirjan ja kummankin kielen kieliopin.

Kääntäessäsi yrittäisit tunnistaa vepsän sanan ja sen taivutuksen: katsoisit sanakirjasta, onko se esimerkiksi substantiivi vai verbi. Sitten etsisit sille tagalogin vastineen.

Etenisit sana sanalta, etkä koko aikana ymmärtäisi mitään tekstistä, jota käännät. Lyhyitä lauseita onnistuisit ehkä kääntämään, varsinkin jos olisit hyvin ripeä selaamaan sanastoja ja kielioppeja. Mutta jos vastaan tulisi sananmuunnos, ammattitermi, monitulkintainen sana tai vaikkapa vain kirjoitus- tai kielioppivirhe, todennäköisesti menisi sormi suuhun.

Tietokone on likipitäen tällaisessa tilanteessa kääntäessään kieltä.


Kylmä sota herätti innostuksen

Konekääntämisen tutkimus käynnistyi 40- ja 50-luvun taitteessa kylmän sodan alkumainingeissa, jolloin venäjänkielisen tekstin kääntäminen englanniksi oli tiedustelusyistä tärkeää. Kieltä pidettiin samankaltaisena järjestelmänä kuin salakirjoituskoodeja, joita oli onnistuneesti murrettu sodan aikana. Tutkimusta rahoitettiin runsaskätisesti, ja tutkijat lupasivat, että muutaman vuoden kehitystyön jälkeen olisi käytössä ihmiskääntäjän korvaavia konekäännösjärjestelmiä.

Toisin kävi. Kymmenen vuoden jälkeen alkuinnostus hiipui, sillä toimiva konekäännösohjelma oli edelleen pelkkä haave.

Silti alan tutkimus jatkui, ja pikkuhiljaa tulokset paranivat. Nykytekniikalla syntyy ohjelmisto, joka kääntää optimitilanteessa 90-prosenttisesti oikein - mutta sen jälkeen jokainen prosentti on työn ja tuskan takana.

Konekäännösjärjestelmiä hyödyntävät tällä haavaa sekä virastot että yritykset. Maailman ykköskäyttäjä on EU, jossa dokumentit pitää kääntää kaikille jäsenmaiden kielille. Suomessa käännösohjelmapalveluita tarjoavat esimerkiksi Kielikone Oy ja Sunda Systems Oy.

Kone kompastuu merkitykseen

90-prosenttisesti oikein kääntävä järjestelmä kuulostaa melko pätevältä, kunnes miettii, mitä tämä käytännössä tarkoittaa: joka kymmenes sana tai ilmaus on käännetty virheellisesti. Tällaisella tuloksella ihmiskääntäjä ei pysyisi kovin pitkään alalla.

Mistä homma kiikastaa?

Nykynäkemyksen mukaan kieli koostuu neljästä tasosta. Fonologisella tasolla käsitellään äänteitä ja niiden liittymistä toisiinsa, eikä se ole kovin tärkeää, kun ei käännetä puhetta vaan tekstiä.

Seuraava taso on morfologia, jossa tarkastellaan sanojen muotoja ja taivutuksia. Ne ovat tärkeitä etenkin suomen kaltaisissa sanoja runsaasti taivuttavissa kielissä. Käännösjärjestelmän tulee ymmärtää, että esimerkiksi löytää, löydän ja löysi ovat saman verbin eri taivutuksia. Sen pitää myös määrittää taivutusmuotojen kielellinen tehtävä ja luoda kohdekielelle oikeat vastineet.

Kolmas taso, syntaksi, käsittelee lauseen rakennetta, muun muassa sanajärjestystä. Esimerkiksi englannissa sanajärjestyksellä ilmaistaan monia asioita, joihin suomessa käytetään taivutuksia. Siksi sanajärjestyskin pitää konekäännöksissä hallita.

Neljäs taso on semantiikka, lauseiden merkitykset. Se on tällä hetkellä konekäännöksen kompastuskivi, sillä tietokone ei aidosti ymmärrä käsittelemäänsä tekstiä. Se näkee pelkkiä kirjainjonoja, jotka on koottu tiettyjen sääntöjen mukaisesti. Siinä missä ihmiskääntäjä ymmärtää tekstin merkityksen, nykyiset käännösjärjestelmät joutuvat turvautumaan mekaanisiin päättelysääntöihin.


Lyhyt muisti ja putkinäkö

Kehitysjohtaja Kaarina Hyvönen Kielikone Oy:stä luonnehtii ihmistä varsin huolimattomaksi ja luovaksi kielen käyttäjäksi. Ihmiskieli ei ole yksiselitteistä eikä aina loogistakaan, mikä tekee mekaanisten sääntöjen soveltamisesta  vaikeaa.

Nykyiset käännösjärjestelmät pystyvät käsittelemään suhteellisen hyvin yleiskielistä tekstiä, joka on kirjoitettu kieliopillisesti hyvin ja jossa lauserakenteet ovat kohtalaisen yksinkertaisia. Parhaiten koneen käännettäviksi soveltuvat esimerkiksi ohjekirjat ja standardimuotoiset dokumentit.

Käännösohjelma käsittelee yleensä virkkeen kerrallaan, eikä se pysty muistamaan, mistä aikaisemmin oli puhe. Virkkeiden väliset viittaukset ovat siksi hankalia. Koneella on yksinkertaisesti lyhyt muisti ja putkinäkö.

Vertauskuvat, sanonnat ja etenkin sanaleikit ovat tietokoneelle mahdottomia kääntää, eivätkä ne ole aina helppoja ihmiskääntäjällekään. Sama pätee puhekieleen ja murteisiin.

Kielen monimerkityksisyys on iso ongelma. Esimerkiksi suomen kielen sana kuusi voi tarkoittaa numeroa, puuta tai sinun kuutasi. Tämä on vielä helppoa, mutta esimerkiksi englannin set-sanan eri tulkinnat täyttävät sivun sanakirjasta.

Joskus koneen on vaikea ymmärtää yhdyssanoja. Onko aasialainen kansallisuus vai tyhmä työntekijä? Entä onko kuutamoilta yhdyssana? Millainen höyhenpeitteinen vahtimestari on virtuaalikanavaksi? Kuinka jaetaan riveille kaivosaukko?

Oma lukunsa ovat ammattitermit. Levykaupan levy on eri asia kuin hitsaajan levy, eivätkä divarin ja ruokakaupan hevi-osastot tarjoa samaa tavaraa.

Hyvösen mukaan käännösjärjestelmän voi kuitenkin mukauttaa tiettyyn ammattisanastoon, mikä parantaa huomattavasti sen suorituskykyä. Järjestelmälle opetetaan yleiskieleen kuulumaton alan erikoissanasto ja sitä kehotetaan tarvittaessa poimimaan esimerkiksi levy-sanalle oikea vastine sanastosta.


Kone oppii kieliopin

Nykyisin käytettävät niin sanotut symboliset käännösjärjestelmät perustuvat suureen kokoelmaan kielioppisääntöjä. Käännös alkaa tekstin analysoinnista. Analyysi muistuttaa peruskoulun äidinkielen tunneilta tuttua lauseenjäsennystä, jossa virkkeestä etsitään pää- ja sivulauseet, subjekti, predikaatti jne. Kun lauseen rakenne on selvillä, käännetään sen sanat kohdekielelle ja muutetaan lauseen rakenne kohdekielen kielioppiin sopivaksi.

Esimerkiksi virkkeessä jänis nukahti syötyään porkkanan määritellään pääsanaksi verbi nukahtaa ja subjektiksi jänis. Virkkeen loppu on lauseenvastike, joka kuvaa nukahtamista edeltänyttä toimintaa.

Ensin sanat käännetään englanniksi ja taivutetaan asianmukaisesti. Samalla suomen sana syötyIään halkaistaan ilmaukseksi after it had finished eating. Lopuksi järjestellään sanat kohdekielen lauserakenteen mukaisiksi: after it had finished eating the carrot, the rabbit fell asleep.

Esimerkki osoittaa, että käännösohjelman tulee ymmärtää hieman myös sanojen merkityksiä. Koska lauseessa puhutaan eläimestä, siihen tulee viitata sanalla it. Jos porkkanan syöjä olisi ihminen, sanaksi pitäisi valita he tai she sukupuolen mukaan.




Kaksi tapaa kääntää


Konekäännökseen on kaksi lähestymistapaa: symbolinen ja tilastollinen. Edellinen perustuu logiikkaan ja kielioppisääntöihin, jälkimmäinen koneoppimiseen.

Symboliset järjestelmät edustavat huippuunsa viritettyä nykytekniikkaa. Käytännössä kaikki teollisuuden ja kuluttajien käytössä olevat käännösjärjestelmät - mukaan lukien Kielikoneen TranSmart ja Sundan käännösohjelmisto - ovat symbolisia.

Tilastolliset konekääntäjät ovat kehitteillä mutta edistyvät ripeästi. Toistaiseksi ainoa kuluttajakäytössä oleva tilastollinen käännin on Googlen arabian ja englannin välillä kääntävä järjestelmä.
Tulevaisuus tuottanee hybridijärjestelmiä, joissa symboliset ja tilastolliset menetelmät yhdistyvät.



Unelmana universaalikieli

Tohtori Harri Arnola Sunda Systems Oy:stä vertaa konekäännösjärjestelmää siltaan, jota pitkin lähdetekstin analysoidut osat siirretään toiselle kielelle ja muutetaan siellä kohdekielen sääntöjen mukaisiksi.

Eri kielille tämä siltatyömaa on pystytettävä aina erikseen. Jokainen kielipari tarvitsee oman säännöstön ja sanaston, jotka on laadittava käsityönä. Uuden kielen lisääminen käännösjärjestelmään on aina työläs ja kallis urakka.

Konekääntäjillä onkin kunnianhimoinen unelma: tavoitteena on kehittää universaali kieli, interlingua, jonka avulla voi ilmaista minkä tahansa kielen lauseiden merkityksen yksiselitteisesti. Tällöin kielten välistä siltaa ei tarvita, vaan käännettävä teksti "keitetään kokoon" perimmäiseen merkitykseensä, josta sen voi palauttaa toiselle kielelle.

Kun interlingua-järjestelmään lisätään uusi kieli, vaaditaan ainoastaan säännöt, joiden mukaan kieli käännetään interlingualle ja takaisin. Tämän jälkeen sen voi interlinguan kautta kääntää mille tahansa muulle järjestelmän kielelle.

Yhteinen välikieli on kuitenkin konekääntämisen viisastenkivi, jota ei toistaiseksi ole pystytty kehittämään.
Välikielenä on yritetty käyttää esimerkiksi esperantoa, intensionaalista logiikkaa ja luonnollisia kieliä, kuten englantia. Mitkään vaihtoehdoista eivät ole toimineet, sillä ne eivät koodaa lauseen sisintä merkitystä tarpeeksi yksiselitteisesti. Välikielen lisääminen on aiheuttanut ainoastaan käännösvirheiden monistumisen. Tuloksena on ollut kallis "rikkinäinen puhelin".


Ihminen karsii kömpelyydet

Vaikka nykyisissä konekääntäjissä on puutteita, ne sopivat mainiosti raakakäännösten tekemiseen esimerkiksi silloin, kun samankaltaista tekstiä pitää kääntää paljon. Jos suuryrityksen on julkaistava kuukausittain standardimuotoisia raportteja useilla eri kielillä, raa'an käännöstyön voi hyvin automatisoida.

Erityisen otollista käännettäväksi on ohjekirjojen, teknisten dokumenttien ja käyttöohjeiden koreilematon asiateksti. Ihmiskääntäjän tulee kuitenkin tarkistaa käännös ja korjata käännösohjelman tekemät virheet ja kömpelyydet. Jos teksti on erittäin standardimuotoista ja käännösjärjestelmä on mukautettu siihen hyvin, käännöksen voi tehdä täysin automaattisesti.

Harri Arnola painottaa konekäännöksen sosiaalista ja yhteiskunnallista merkitystä. Suomessa on edelleen paljon nettisurffaajia, joiden englannin kielen taito ei ole erityisen hyvä. Sitä mukaa kuin netin käyttäjien määrä kasvaa, verkosta tulee yhä monikielisempi. Vaikka käännösohjelma ei tuottaisi kieliopillisesti täysin korrektia jälkeä, käännös yleensä riittää tekstin sisällön ymmärtämiseen ja avaa nettimaailman kielitaidottomallekin.

Netti ei ole ainoa konekäännöksen arkinen sovellusala. Kukapa ei olisi joskus joutunut pähkäilemään vieraskielisen ruokalistan tai laitteen käyttöohjeen parissa. Kielenopettaja saattaa kurtistaa kulmiaan koneen tekemälle käännökselle, mutta ulkomaisessa ravintolassa ruokaileva on varmasti tyytyväinen saadessaan tietää, onko tilaamassa sisäfileepihviä vai kokonaisena keitettyä lampaanpäätä.


Janos Honkonen on vapaa tiede- ja tekniikkatoimittaja.