Tieteiselokuvissa tietokoneet rupattelevat käyttäjien kanssa rauhoittavalla naisäänellä, mutta kotikoneesta aidon kuuloista ihmispuhetta ei irtoa kuin nauhoitteina. Miksi luontevan ihmispuheen jäljittely on niin vaikeaa?Sisältö jatkuu mainoksen jälkeen

rauhoittavalla naisäänellä, mutta kotikoneesta aidon kuuloista
ihmispuhetta ei irtoa kuin nauhoitteina. Miksi luontevan
ihmispuheen jäljittely on niin vaikeaa?

Julkaistu Tiede-lehdessä 8/2005

Puhuminen on ihmisille suoraviivaisin ja intuitiivisin viestinnän muoto. Puhe koetaan niin itsestään selväksi, ettei kielitieteeseen perehtymätön helposti huomaa, miten monisyisestä ilmiöstä on lopulta kyse. Fonetiikan tohtorin Martti Vainion mukaan ihmisten käsitykset puheesta ovat tieteelliseltä kannalta keskiaikaisia; niitä voi verrata uskomuksiin Maan litteydestä. Opetet-taessa tietokonetta puhumaan nämä uskomukset lentävät ensimmäisinä rojukoppaan.

Tätä nykyä suurin puhesynteesistä hyötyvä ryhmä ovat näkövammaiset, joille syntetisaattorit tarjoavat kätevän tavan käyttää tietokoneita sekä lukea sanomalehtiä tai kirjallisuutta. Puhesynteesiä voidaan käyttää myös yksinkertaisissa puhelinpalveluissa, kuten aikataulutiedotuksessa tai numeropalvelussa, mikä vapauttaa ihmisiä mielekkäämpiin työtehtäviin.

Sisältö jatkuu mainoksen allaPuhesynteesiä tutkitaan tavalla tai toisella useimmissa yliopistoissa ja teknisissä oppilaitoksissa. Monien akateemisten tutkimusten tulokset ovat kaikkien netin käyttäjien tavoitettavissa. Tutustumisen arvoisia järjestelmiä ovat esimerkiksi
- monikielinen Festival-syntetisaattori, www.cstr.ed.ac.uk/projects/festival/
- sitä hyödyntävä kotimainen Suopuhe-syntetisaattori, www.ling.helsinki.fi/suopuhe/
- Japanissa kehitetty HTS-järjestelmä, http://hts.ics.nitech.ac.jp/

Puhesynteesiin ja kieliteknologiaan keskittyviä ohjelmia ja projekteja löytyy myös Carnegie Mellon Universityn sivuilta, www.speech.cs.cmu.edu/

Puhesynteesin tutkimus on yhtä aikaa sekä kansainvälistä että erittäin kansallista. Monia menetelmiä ja ohjelmia voidaan käyttää useiden kielten syntetisoimiseen, sillä esimerkiksi signaalin synnyttämiseen ja käsittelyyn tarvittavat mentelmät eivät riipu kielestä. Vasta, kun siirrytään teknisestä laskennasta käytäntöön, tutkimus muuttuu kielikohtaiseksi. Kielet ovat yksilöllisiä muun muassa äännevalikoimaltaan, painotuksiltaan ja melodialtaan.

Nykyisin puhesynteesin tutkimus on siirtymässä tunteiden mallintamiseen sekä luontevan tunneilmaisun hyödyntämiseen ihmisen ja tietokoneen vuorovaikutuksessa. Tämän alan merkittäviin tutkijoihin kuuluu esimerkiksi brittiläinen Nick Campbell, http://feast.his.atr.jp/nick/

Luontevaan tunneilmaisuun liittyvät myös käsitteestä puheeksi -järjestelmät, joissa tietokone luo itse syntetisoitavan puheen taustalla olevan viestin. Tällöin tietokoneen ei tarvitse yrittää tulkita ulkopuolelta annetun tekstin tunnesävyä. Tällaista käsitteestä puheeksi -järjestelmää kehitetään esimerkiksi Helsingin yliopiston yleisen kielitieteen laitoksessa. Hankkeessa hyödynnetään edellä mainittua japanilaista HTS-järjestelmää.
Puheessa äänteet vaikuttavat toisiinsa

Puhesynteesin luulisi olevan varsin helppoa hommaa: nauhoitetaan ihmisten puhetta, leikataan siitä kutakin kirjainta vastaava äänne ja liitetään niitä peräkkäin. Tässä on kyseessä suurin puheeseen liittyvä väärinkäsitys, sillä puhutulla kielellä on hyvin vähän tekemistä kirjoitetun kielen kanssa.

Suomen kielen puhuja kuulee esimerkiksi sanojen hippi ja happi alussa olevan h-äänteen täysin samanlaisena ja sanan tarkka a-äänteet yhtä pitkinä. Maistelemalla hippiä ja happea huomaa pian, että ensiksi mainitussa h-äänne lausutaan aivan suun etuosassa, jälkimmäisessä suun takaosassa. Jokainen äänne vaikuttaa sen ympärillä oleviin muihin äänteisiin ja ottaa niiltä vaikutteita. Ennen suun etuosassa lausuttavaa i-vokaalia myös h-äänne muuttuu etiseksi. Vastaavasti suun takaosassa lausuttava a-äänne vetää mukanaan myös h:n.

Vaikeampaa on havaita, että tarkka-sanan ensimmäinen a on tuplasti niin pitkä kuin jälkimmäinen.

Kaikki ovat varmasti kuulleet yksittäisistä sanoista koottuja nauhoituksia esimerkiksi bussiasemilla tai Neiti aika -palvelussa. Kun seuraavan kerran törmäät kuulutukseen, jossa "BUSSI helsingistäturkuun lähtee... kolmetoistaKOLMEKYMMENTÄ... kaksi", voit kuvitella, mikä olisi lopputulos, jos sanat koottaisiin yhtä huonosti yhteen sopivista äänteistä.

Useimmissa kirjoitetuissa kielissä sanojen välissä on tauko, mutta puheeseen tämä ei päde. Lauseen kaltaisten ilmausten välistä taukoja löytyy, mutta sujuvassa puheessa sanat liittyvät äänteellisesti saumattomasti yhteen. Sanojen sisällä on kuitenkin taukoja, jotka johtuvat konsonanteista, kuten p, k tai t. Tällaisia konsonantteja ei äännetasolla ole oikeastaan olemassakaan; puheessa kun on niiden kohdalla lähes täysin hiljaista. Suurin osa konsonanttien identiteetistä syntyy siitä, miten ne vaikuttavat edeltävään ja seuraavaan vokaaliin. (Tämän kyllä tiesivät konsonantti-termin keksijät: se tulee latinan sanasta consonans, ’yhdessä soiva’.)


Useimmin yhdistetään nauhoitteita

Ihmispuheen nauhoittaminen, leikkeleminen ja uudelleen liittäminen ei kuitenkaan ole kelvoton tapa ymmärrettävän puheen tuottamiseen. Useimmat aktiivikäytössä olevista puhesyntetisaattoreista, kuten MTV3:n chatin Puhuva Pää, Windowsin Narrator tai Timehousen Mikropuhe, perustuvat äänteiden leikkelyyn ja uudelleen yhdistelyyn, konkatenaatioon.

Yksittäisten äänteiden leikkaaminen ja liimaaminen ei tuota luonnollista puhetta. Nokkela ratkaisu ongelmaan on käyttää difoneja, jotka koostuvat yhden äänteen jälkipuoliskosta ja toisen alusta. Leikattuna yksikkönä ei ole äänne vaan tietyn äänteen siirros toiseen äänteeseen, esimerkiksi siirros h:sta a:han. Käytännössä difonisynteesi vaatii valtavan määrän puhuttua aineistoa, sillä jokainen tietyssä kielessä peräkkäin esiintyvä äänneyhdistelmä pitää saada nauhoitetuksi.

Valmiiksi nauhoitettujen elementtien käsittely ei oikeastaan tiukan määritelmän mukaan ole puhesynteesiä. Difonisynteesissä kuitenkin syntetisoidaan puheen melodia ja äänteiden kesto, joten pelkästä palikoiden kasailusta ei ole kyse.

Difonisynteesi on helppo toteuttaa, ja sen tuottama puhe on kohtuullisen luontevaa, mutta parempaan lopputulokseen päästään niin kutsutulla unit selection -synteesillä. Siinä puhe kasataan parhaimmalla tavalla yhteen sopivista tietokantaan tallennetuista äänteistä, tavuista, sanoista tai kokonaisista lauseista. Tuloksena on lähes luonnollisen kuuloista ihmispuhetta, ja unit selection -synteesi tuottaakin nykymenetelmistä parhaan lopputuloksen.

Menetelmän haittapuolena on muita synteesimenetelmiä suurempi tilantarve. Unit selection -syntetisaattorin tietokanta voi olla kooltaan gigatavuja ja sisältää useita tunteja puhuttua aineistoa.


Puheäänen tuottavat lähde ja suodatin

Konkatenaatioon perustuva suuren äännetietokannan vaativa synteesimenetelmä ei sovellu laitteisiin, joiden tallennuskapasiteetti on pieni. Hyviä esimerkkejä tästä ovat kännykät, joissa puhesynteesille olisi runsaasti käyttöä. Tarvitaan siis menetelmiä, jotka pystyvät tuottamaan ihmispuhetta ilman laajaa taustamateriaalia.

Syntetisoidun puheen luomiseen tarvitaan kahta komponenttia: äänen lähdettä ja ääntä muokkaavaa suodatinta.

Ihmisellä äänen lähteinä voivat toimia soinnillisissa äänteissä äänihuulet, soinnittomissa esimerkiksi h:n tapauksessa supistettu nielu ja s:n tapauksessa kieli ja kitalaki. Suodatin koostuu puolestaan äänilähteeseen vaikuttavista tekijöistä, kuten suun ja kielen asennosta.

Äänilähde tuottaa äänteen raakamateriaalin, jota suodatin muokkaa. Äänihuulet tuottavat pelkkää eritaajuista pörinää, joka muuttuu eri vokaaleiksi sen mukaan, missä muodossa suodattimen osat eli ihmisen kieli ja suu ovat. Tämä auttaa ymmärtämään, miten on mahdollista, että esimerkiksi saman äänteen voi lausua eri korkeuksilla sen muuntumatta: tällöin suodatin pysyy samana mutta äänilähde tuottaa eri taajuudella olevaa raakamateriaalia.


Suodattimella pörinäsignaalista sanoja

Ensimmäinen aito synteesimenetelmä on formanttisynteesi, jossa ei pyritä simuloimaan ihmisen äänentuottotapaa vaan yritetään luoda sama lopputulos yhdistelemällä eri aaltomuotoja. Formanttisynteesin avulla on ainakin teoriassa mahdollista luoda täydellistä ihmisääntä.

Menetelmää voi verrata keinotekoisten makuaineiden tuotantoon. Kemiallisesti voidaan valmistaa esimerkiksi omenalta maistuvia molekyylejä, joilla ei ole mitään tekemistä oikean omenan aromiaineiden kanssa.

Formanttisynteesi perustuu signaalia tuottaviin oskillaattoreihin ja niihin reagoiviin resonaattoreihin. Synteesiin ei tarvita tietokonetta, vaan puuhaan riittävät elektromekaaniset komponentit, vaikkapa vastukset ja kondensaattorit. Jokin komponenteista tuottaa äänen lähteenä olevan värähtelyn, ja muut komponentit toimivat suodattimina, jotka muokkaavat sitä. Lopputuloksena on signaali, joka kuulostaa ihmispuheelta, vaikka komponenteilla ei itsessään ole mitään tekemistä ihmisen puheentuottotavan kanssa.

Eräänlaista "formanttisynteesiä" edustavat kännykät, joiden tuottama ääni on itse asiassa syntetisoitua puhetta. Lankapuhelin välittää itse puhesignaalin, eli kun puhe värisyttää kuulokkeen mikrofonin kalvoa, toisessa päässä kaiutin väräjää samalla tavalla tuottaen ääntä. Kännykkä puolestaan välittää tiedon siitä, kuinka puhe syntetisoidaan. Kännykkä analysoi puhetta ja muuntaa sen syntetisaattorin vaatimaksi malliksi, jonka muuttujat vastaavat suodattimen asentoja. Jokaisessa luurissa on neutraali äänilähde, joka tuottaa rakennusaineena toimivaa pörinää. Kännykkä siis ottaa vastaan tiedon siitä, millä tavoin suodattimen pitää muuntaa pörinä, jotta tuloksena on ihmisääni. (Lisätietoa GSM-puhekoodauksesta: www.commsdesign.com/design_corner/OEG20030711S0010


Ihmisen ääntöväylää vaikea matkia

Artikulatorisessa synteesissä pyritään luomaan matemaattisia malleja, jotka kuvaavat ihmisen ääntöväylää äänihuulista suuontelon kautta huuliin. Lähestymistapa nojautuu fysiikkaan, sillä siinä pyritään kuvaamaan, kuinka ääniaallot syntyvät ja heijastuvat ihmisen elimistössä.

Tämän tavan vaikeuden tajuaa nopeasti, jos tarkastelee ihmisen ääntöväylää. Nielusta huuliin ulottuva väylä on kovista ja pehmeistä kudoksista koostuva mutkikas järjestelmä, joka muuttaa jatkuvasti muotoaan. Nämä muodonmuutokset luovat erilaisia kammioyhdistelmiä, jotka suodattavat ääntä kukin omalla tavallaan. Suurin osa tätä koskevasta tiedosta on saatu kaksiulotteisista röntgenkuvista, mutta ääntöväylä on luonnollisesti kolmiulotteinen.

Jo pelkät puhujan kielen liikkeet ovat niin monisyisiä, että niiden simuloiminen on nykyteknikalla vaikeaa. Puheenaikaisista ääntöväylän liikkeistä ei vielä edes tiedetä niin paljon, että voitaisiin päästä muiden synteesimenetelmien tasolle.

Siinä vaiheessa, kun täydellinen kuvaus ihmisen ääntöväylän toiminnasta sadaan aikaan, luontevasti ääntävän puhesyntetisaattorin ongelma on pitkälti ratkaistu.


Miten tietokone hoksaisi painotukset

Aidon kuuloisen ihmispuheen luominen on synteesissa vasta ensimmäinen askel. Yksi suurista puheeseen liittyvistä väärinkäsityksistä on se, että lauseen neutraali sanasisältö olisi käytännössä sama asia kuin välitetty viesti.

Tosiasiassa painotus, äänensävy, lauseen asiayhteys ja monet muut seikat sisältävät valtavan määrän informaatiota, jonka tulkinta on ihmiselle itsestään selvää. Sujuvaa ääntämistä suurempi ongelma on saada syntetisaattori tuottamaan oikein nämä suoraan tekstistä riippumattomat puheen ilmiöt.

Ihminen painottaa lauseissaan uutta, tärkeää tai muuten mielenkiintoista asiaa. Puhuja voi sanoa "menemme Jyväskylään laivalla" (emme autolla, kuten olettaisi) tai "menemme Jyväskylään laivalla" (emme Lahteen). Oikean painotuksen saavuttamiseksi tietokoneen pitäisi ymmärtää lauseen merkitys ainakin jollain tasolla.


Myös lyhenteet ja numerot hankalia

Ihminen tulkitsee lukemaansa tekstiä paljon enemmän kuin tietoisesti tajuaa. Jos tekstiä lukee orjallisesti ja tulkitsematta, tulos on huvittava tai varsin usein mahdoton tajuta. Tästä syystä kirjoitettua tekstiä ei voi syöttää sokeasti puhesyntetisaattorille. Tekstin lukemiseen tarvitaan tekstistä puheeksi -järjestelmä, joka tulkitsee kirjoitetun kielen siihen asuun, miten ihminen sen lukisi ääneen.

Haasteita ovat esimerkiksi tekstissä olevat lyhenteet. Milloin "min" tarkoittaa minuuttia ja milloin minimiä? Entä onko "mm" muun muassa, millimetri vai maailmanmestaruus? Luetaanko Nato sanana vai kirjaimittain, än aa tee oo?

Suomen kaltaisessa kielessä merkittävä ongelma on sanojen taivutus, erityisesti numeroilmausten yhteydessä. Jos tekstissä on sanat "50 Suomen markkaa", kaikille on selvää, että ne luetaan "viisikymmentä Suomen markkaa", ei "viidenkymmenen Suomen markkaa".


Helpompaa, jos teksti on koneen omaa

Valmis teksti on tietokoneelle hankalaa tulkittavaa, mutta ongelman voi kiertää sellaisessa järjestelmässä, jossa tietokone itse tuottaa myös syntetisoitavan tekstin. Tässä on kyseessä niin kutsuttu käsitteestä puheeksi -järjestelmä.

Käsite saattaa olla esimerkiksi juna- ja bussiaikataulu, jolta käyttäjä kysyy, miten hän pääsee Tampereelta Jyväskylään. Koska järjestelmä luo itse syntetisoitavan tekstin, se ymmärtää viestin sisällön ja osaa painottaa uudet asiat luontevalla tavalla: "Tampereelta lähtee viisi junaa ja kolme bussia." Seuraavassa lauseessa kulkuvälineet ovat jo vanhaa tietoa, joten niitä ei enää painoteta. "Ensimmäinen juna lähtee..." Kun kulkuväline nostetaan lauseen pääosaan, fokukseksi, järjestelmä osaa jälleen painottaa sen oikein. "Jos menet junalla" (etkä bussilla).


Tunnetta puhesynteesiin

Nykymenetelmin tuotettu puhe on täysin ymmärrettävää ja lähes luonnollisen kuuloista mutta latteaa. Tunneilmaisultaan luonteva puhe onkin nykyisin yksi alan keskeisistä tavoitteista.

Konkatenaatioon perustuvat järjestelmät eivät toimi tunneilmaisussa, sillä jokaiselle tunnetilalle pitäisi olla oma nauhoitettu tietokantansa. Tuhat äkäistä, pelokasta tai iloista lausetta puhesyntetisaattorin äännettä kohti ei ole realistista eikä käytännöllistä.

Tunteita ilmaisevasta puhesyntetisaattorista olisi ilmeistä hyötyä viihdeteollisuudelle. Tätä nykyä esimerkiksi pelihahmojen puhe koostuu pelkistä näyttelijöiden nauhoittamista repliikeistä, mutta kunnon syntetisaattorin avulla vuorosanoja voitaisiin muokata tilanteen mukaisesti. Sama pätee äänikirjojen tuottamiseen.

Puhesynteesiä hyödyntävissä laitteissa ja palveluissa tunneilmaisusta voi olla arvaamattomia etuja. Virheen sattuessa tietokone voi ottaa sovittelevan tai anteeksipyytävän sävyn, kun taas vaaratilanteessa ärähtävä syntetisaattori auttaa vaikkapa lentäjää valpastumaan.

Janos Honkonen on kieliteknologian kandidaatti ja vapaa toimittaja.
 

Sisältö jatkuu mainoksen alla