Nykyiset tehokkaat tietokoneet mahdollistavat uudenlaisen käännöstavan, tilastollisen kääntämisen. Ideana on perehdyttää kone valtaisaan tekstiaineistoon ja opettaa se itse valitsemaan paras käännösvaihtoehto.


tilastollisen kääntämisen. Ideana on perehdyttää kone valtaisaan tekstiaineistoon
ja opettaa se itse valitsemaan paras käännösvaihtoehto.

Sisältö jatkuu mainoksen alla

Sisältö jatkuu mainoksen alla


Uusi tapa lähestyä konekääntämistä ovat tilastolliset menetelmät, jotka perustuvat todennäköisyyksiin ja matemaattisiin algoritmeihin. Ohjelmat opetetaan kääntämään tarjoamalla niille lähde- ja kohdekielistä materiaalia. Sitä tutkimalla käännösohjelma oppii päättelemään, mikä on todennäköisin käännös annetulle tekstille.

Tilastollinen kääntäminen vaatii tietokoneilta runsaasti laskutehoa. Siksi tutkimus käynnistyi kunnolla vasta 80-luvun lopulla tietokoneiden kehityttyä riittävän tehokkaiksi. Oppivat käännösohjelmat tarvitsevat myös valtavan määrän opetusaineistoa, ja vasta internet on tuottanut sitä tarpeeksi. Tämän takia tilastolliset menetelmät ovat kehittyneet viime vuosina ripeästi.

Kaikki kaupalliset käännösjärjestelmät perustuvat toistaiseksi symbolisiin menetelmiin, mutta tilastollinen kääntäminen elää nyt vahvaa nousukautta. Vuosikausien tutkimus on alkanut tuottaa tulosta, jota voidaan soveltaa aidoissa käyttötilanteissa.

Viime vuonna otettiin ratkaiseva askel tutkimusmalleista käytännön käännöskoneiksi, kun Googlen tilastollinen arabia-englanti-käännin voitti merkittävän NIST 2006 -käännöskonekilpailun.


Afasiat vaivaavat vielä

Kaupallisia tahoja tilastollisessa kääntämisessä kiehtovat edullisuus ja automaattisuus. Tilastollinen käännöskone ei vaadi kalliilla ihmistyövoimalla kirjoitettuja sääntöjä, vaan se oppii automaattisesti. Käännösalgoritmien virittelystä selvitään kohtuullisella työllä.

Työsarkaa riittää silti. Käännösjärjestelmät ovat vielä hätää kärsimässä pitkien lauseiden kanssa, sillä niiden muisti on usein lyhyt.

Kiinnostava havainto on, että tilastollisten käännösohjelmien tekemät virheet muistuttavat Wernicken afasiana tunnettua neurologista puhehäiriötä. Se aiheuttaa tilan, jossa puhe kulkee sujuvasti mutta etenkin pitkissä lauseissa ajatus katoaa ja tulos on sekavaa sanasoppaa.

Symboliset menetelmät puolestaan kärsivät Brocan afasiasta, jonka oireita ovat katkeileva puhe ja kyvyttömyys pukea ajatus sanoiksi.


Ymmärrystäkin kaivataan

Entä konekääntämisen tulevaisuus - milloin tietokone voi korvata ihmiskääntäjän?

Sekä kieli- ja käännöstieteen professori Lauri Carlson Helsingin yliopistosta että Teknillisessä korkeakoulussa johtavana tutkijana työskentelevä tohtori Timo Honkela ovat sitä mieltä, että tämä ei toteudu, ennen kuin tietokone oppii aidosti ymmärtämään maailmaa.

Carlsonin mukaan pitkien tekstien kääntäminen paranee jo lähitulevaisuudessa, mutta lyhyiden ei. Koska tietokoneen ainoa tieto ympäröivästä maailmasta tulee käännettävästä materiaalista, lyhyt tekstinpätkä ei ole tarpeeksi valaiseva.

Honkela haluaa opettaa tietokoneelle maailmatietoa myös kuvien, äänen ja muun ei-tekstuaalisen aineiston muodossa. TKK:ssa tutkitaan, miten kieltä ja kuvamateriaalia voi suhteuttaa toisiinsa eli millaiset kielelliset ilmaukset vastaavat minkinlaisia kuvia tai niiden osia.

Honkelan ryhmässä tutkitaan myös, miten tietokone saadaan kääntämään tekstiä saman kielen sisällä, siis selittämään esimerkiksi erikoisalojen terminologiaa yleiskielellä. Tämä vaatii kielen merkityksen käsittelyä ja on siten yhtä haastavaa kuin kielestä toiseen kääntäminen. Tutkimukselle on tarvetta, sillä kuka ei ajoittain toivoisi lääkäri-suomi- tai tietokoneslangi-suomi-sanakirjaa.


Janos Honkonen on vapaa tiede- ja tekniikkatoimittaja.

Sisältö jatkuu mainoksen alla