Kirjoitukset avainsanalla mallinnus

Kuva: Wikimedia Commons

Ota kasa matemaattisia malleja. Tee havaintoja. Vertaa malleja havaintoihin. Valitse malli, joka sopii parhaiten havaintoaineistoon. Laske mallista ennusteita. Vertaa ennusteita uusiin havaintoihin. Jos ennusteet eivät täsmää, älä luota malliin. Jos täsmäävät, kasvata luottamustasi malliin. Anna luotettavimman mallin kohdentaa seuraavia havaintojasi ja aloita piirissä uusi kierros.

Tätä havaintojen ja teorian päättymätöntä piiritanssia kutsutaan tieteeksi. Tiede on järjestelmällistä järjen käyttöä. Tiede opettaa, kuinka maailma toimii.

Tieteen toimintaa kuvaava piiri tarjoaa selvän reseptin todellisuuden tavoittamiseen kierros kierrokselta tarkemmin. Piirin jokaisessa vaiheessa on kuitenkin vaikeutensa. Kuten siinä, miten valita äärettömästä joukosta malli, joka sopii parhaiten havaintoihin.

Ihanteellinen malli minimoi yhtäältä harhan ja toisaalta hajonnan. Harha tarkoittaa mallin sovitteiden poikkeamaa havainnoista. Hajonta tarkoittaa mallin sovitteiden poikkeamaa toisistaan. Mallinnuksen harha ja hajonta saattavat joissain tilanteissa merkitä lähes päinvastaista kuin arkikielessä, mutta ajoittaista hämmennystä lukuun ottamatta termistöllä ei ole tässä suurta väliä sillä kummastakin halutaan eroon niin paljon kuin mahdollista.

Ongelma on siinä, että harhan vähentäminen kasvattaa hajontaa ja hajonnan vähentäminen kasvattaa harhaa. Kyseessä on optimointiongelma. On etsittävä harhan ja hajonnan tasapaino, ylisovituksen ja alisovituksen välinen raja.

Harhan nollaaminen tarkoittaa ylisovittamista eli liian monimutkaista mallia. Harhaton ylisovitus ennustaa uusia havaintoja huonommin kuin yksinkertaisempi malli, koska harhaton malli myötäilee ainutkertaista kohinaa. Eli mallintaa virhevaihtelua, joka ei toistu samana enää uusissa havainnoissa.

Hajonnan nollaaminen puolestaan tarkoittaa alisovittamista eli liian yksinkertaista mallia. Inhimillisten taipumustemme vuoksi ylisovittaminen on käytännössä yleisempi ongelma kuin alisovittaminen.

Havainnollistetaan sovittamisen ongelmaa numeerisella esimerkillä.

Ajattele jotain tutkimuskohdetta, kuten ilmanpaineen ja sateisuuden, pituuden ja painon tai äidin ja lapsen älykkyyden välistä yhteyttä. Tehdään ilmiöstä 30 riippumatonta havaintoa, jotka piirretään hajontakuvioon

Pysty- ja vaaka-akseleiden yksiköt mittaavat standardipisteitä eli montako keskihajontaa kukin harmaana pallurana kuvattu havainto poikkeaa otoksen keskiarvosta. Pystyakselilla on vaikkapa sateisuus, paino tai lapsen älykkyys, vaaka-akselilla ilmanpaine, pituus tai äidin älykkyys.

Sovitetaan havaintoaineistoomme 30 riippumatonta parametriä eli 30 liikkuvaa osaa sisältävä malli. Sovitus tarkoittaa jokaisen havaintopalluran täsmälleen halkovaa siksakkia

Sovitetaan samaan aineistoon yksinkertaisena verrokkimallina suora, jolla on kaksi riippumatonta parametriä eli kaksi liikkuvaa osaa: suoran korkeus ja kaltevuus. Sovitus tarkoittaa, että etsitään korkeudeltaan ja kaltevuudeltaan sellainen suora, jonka palluroista mitattujen pystysuuntaisten neliöpoikkeamien summa on pienin mahdollinen. Eli suora, joka kulkee mahdollisimman hyvin palluroiden kautta

Punaisen ja sinisen mallin sopivuutta aineistoon kuvaavat niiden ns. selitysosuudet R². Selitysosuus mittaa mallin sovitteiden ja havaintojen yhteisvaihtelua, eli kuinka suuren osan sovitteiden vaihtelu selittää havaintojen vaihtelusta; esim. paljonko ilmanpaineen vaihtelun avulla selittyy sademäärän vaihtelusta, paljonko pituuden vaihtelun avulla selittyy painon vaihtelusta tai paljonko äitien välisen älykkyyden vaihtelun avulla selittyy lasten välisen älykkyyden vaihtelusta. 

Punaisen siksak-mallin selitysosuus R² = 100% eli siksakki selittää havaintojen vaihtelun täydellisesti juuri kerätyssä 30 havainnon aineistossa. 

Sinisen suoran selitysosuus R² = 50% eli suora selittää tässä havaitusta vaihtelusta vain puolet.

Selitysosuuksia vertaamalla punainen malli näyttää siniseen nähden täysin ylivertaiselta.

Punaisen mallin kannalta valitettavasti täydellinen sopivuus aineistoon on yhtä vakuuttavaa kuin lottonumeroiden tietäminen, edellisen viikon arvonnasta! Vasta uusien havaintojen täsmäävä ennustaminen mittaa mallin todellisen selitysvoiman. Todellinen ennustajakin tietäisi tulevan viikon lottonumerot.

Tekoälyn, neuroverkkojen ja koneoppimisen tutkijat kutsuvat alkuperäistä havaintoaineistoa opetusdataksi, jolla malli vasta opetetaan, ja uusia havaintoja testidataksi, jolla mallin todelliset kyvyt testataan. Aito oppiminen on kykyä yleistää ja soveltaa opittua tulevaan, ei menneen toistelua.

Selvitetäänpä sinisen ja punaisen mallin paremmuus laittamalla ne ennustetestiin: tehdään samasta ilmiöstä vielä uudet 30 riippumatonta havaintoa, jotka lisätään hajontakuvioon mustina palluroina

Ennustetestissä punaisen siksak-mallin selitysosuus romahtaa arvoon R² = 25% eli siksakki selittää havaitusta vaihtelusta enää neljäsosan tässä kerätyssä 30 uuden havainnon aineistossa. Harmaiden palluroiden perässä kiemurtelu eksytti siksakin kauas mustista palluroista, joiden tavoittamisesta todellinen palkinto vasta jaettiin!

Sinisen suoran selitysosuus sen sijaan säilyy suunnilleen ennallaan, arvossa R² = 55%, eli suora selittää myös havaitusta uudesta vaihtelusta puolet. Suora on yhtä kaukana mustista palluroista kuin harmaista palluroista. Suora ei langennut mutkittelemaan pikavoittojen perässä, ja ryhdikkyys palkittiin kiistattomalla ennusteherruudella.

Kun satunnaisotoksia kerätään samasta ilmiöstä yhä uudestaan, sininen suora ennustaa uusia havaintoja toistuvasti paremmin kuin ylisovitettu punainen siksakki. Selitysosuuksien tarkat numeeriset arvot toki vaihtelevat sattumasta johtuvan otantavirheen puitteissa, mutta suoran ennusteherruus säilyy. Signaali pysyy, vaikka kohinan muoto vaihtelee.

Punainen siksakki lankeaa ylisovituksen houkutukseen, joka näyttää menneisyyden valossa hyvältä mutta juuri pinnallisen vetovoimansa vuoksi malli oppii huonosti. Ylisovitus on menneisyyden vanki, joka ei opi menneisyydestä ja toimii siksi tulevaisuudessa ratkaisevasti huonommin.

Siksakki on kuin sattumanvaraisia elämäntapahtumia syy-seraussuhteiksi sepittävä ihmispolo.

Älä ole siksakki. Pysy suorana. Ohita johdatuksen tunteet englantilaisen hovimestarin viileydellä. Kohina on kohinaa, vaikka vapahtajalta näyttäisi.

Kun kirja putoaa hyllystä, se ei sisällä salattua viestiä. Putoava kirja ei ole merkki kuin korkeintaan huolimattomuudesta. Taivaalta ei viestittele edesmennyt sukulainen, vaikka pilvellä on täsmälleen samannäköinen nenä. Ajatuksesi eivät aiheuttaneet vuosien takaisen ystäväsi yhteydenottoa, vaikka satuitkin ajattelemaan samanaikaisesti juuri häntä. Kun lampun valo vaihtaa väriään aivan kuten ajattelit, se ei kerro mielen salatusta voimasta vaan mielen tunnetusta heikkoudesta nähdä hahmoja ja merkitystä satunnaisessa kohinassa. Ympäristömme on kohinaa täynnä, joten epätodennäköisillekin sattumille riittää mahdollisuuksia vuosikymmeniä kestävän elämämme varrelle yllin kyllin.

Järjissään pysyminen ei tietenkään ole helppoa, kun sattumat koskettavat henkilökohtaisesti ja halu elämää suurempiin kokemuksiin on kova. Mutta järjissään pysyminen kannattaa, sillä mustien palluroiden eli tulevaisuuden tavoittaminen palkitsee enemmän kuin harmaiden palluroiden eli menneisyyden oikkujen perässä kiemurtelu.

Hahmojen ja merkityksen näkeminen sattumassa eli kohinaan ylisovittaminen on ihmisen perisynti, joka evoluutiossa geeneihimme koodautui: selviytymisen kannalta on yleensä parempi virsta (yli kilometri) väärään kuin vaaksa (alle metri) vaaraan eli luulla varjoa pedoksi kuin petoa varjoksi. Aivomme luulevat ennemmin puuta parittelukumppaniksi kuin parittelukumppania puuksi, koska erehdys ylisovituksen suuntaan on ollut keskimäärin hedelmällisempää kuin erehdys alisovituksen suuntaan.

Kun tutkittavaa ilmiötä oppii tuntemaan tarkemmin, havaintoihin on mahdollista sovittaa moniulotteisempi malli, joka lisää selitysosuutta ilman ylisovitusta eli erottaa havainnoista enemmän signaalia kohinan seasta. Sateisuuden selittäjäksi voi lisätä ilmanpaineen lisäksi lämpötilan, tuulen ja ilmankosteuden. Painon selittäjäksi voi lisätä pituuden lisäksi ravinnon ja liikunnan. Lapsen älykkyyden selittäjäksi voi lisätä äidin älykkyyden lisäksi isän älykkyyden.

Ilmiöiden moniulotteisuuden tavoittaa kiertämällä tieteen havaitse-sovita-testaa-päivitä-piiriä kierros kierrokselta yhä uudestaan ja uudestaan. Mikä parasta, matkasta voi nauttia hyvällä mielellä sillä tieteestä oppiminen on aitoa.

Kommentit (0)

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Wikimedia Commons

Aineistolähtöisessä tutkimuksessa havainnoista etsitään ilmiöiden välisiä yhteyksiä vailla etukäteen laadittuja ennusteita. Tämän vastakohtana on teorialähtöinen tutkimus, jossa havaintoaineiston avulla testataan kilpailevien teorioiden tai mallien ennusteita.

Ihmistä ja yhteiskuntaa tutkittaessa aineistolähtöisyys on ollut perinteisesti suositumpaa kuin teorialähtöisemmissä fysikaalisissa tieteissä. Tämä johtuu yksinkertaisesti siitä, että ihmisen monimutkaisesta toiminnasta on vaikeampaa luoda toimivia teorioita kuin yksinkertaisemmista fysikaalisista systeemeistä. Säännöllistä planeettaliikettä on helpompi ennustaa kuin mellakoivia ihmisjoukkoja tai wc-paperin kysyntää.

Big data eli jättiaineistot ovat kasvattaneet aineistolähtöisen tutkimuksen kysyntää kaikilla aloilla. Miten muuttaa räjähdysmäisesti kasvavat tietokannat rahaksi, tuskaillaan monissa yrityksissä. Jotain tarttis tehrä, nimittäin jo pelkkä älytekniikan lihottaman datavirran säilyttäminen tulee kalliiksi: kuka klikkasi mitä, montako sekuntia kulki missäkin ja mihin suuntaan ruutuaan pyyhki, on tietoa, joka syö melkoisesti tallennustilaa kun seurattavia käyttäjiä on miljoonia ja jokaiselta kerätään miljoonia muuttujien arvoja.

Aineistolähtöinen tutkimus tuottaa malleja, joiden arvo mitataan siinä miten osuvasti ne ennustavat tulevaisuutta. Tulevaisuuteen kuuluu niin asiakkaiden ostopäätökset, muodin leviäminen, markkinoiden käyttäytyminen kuin mikä hyvänsä ennustamisen (eli rahan) arvoinen tapahtuma.

Eräs aineistolähtöisen mallinnuksen suurimpia syntejä on ylisovittaminen. Ylisovittaminen tarkoittaa, että mallinnetaan satunnaista kohinaa kiinnostavan ilmiön eli signaalin lisäksi. Tai pahimmillaan kokonaan sen sijasta, kuten margariininkulutuksen ja avioerojen tai hukkumisten ja avioliittojen väliset sattumanvaraiset yhteydet osoittavat. Kaikki havainnot sisältävät enemmän tai vähemmän kohinaa, minkä ehdoilla mallinnus on aina tehtävä.

Ylisovittaminen on merkki siitä, että on luotu liian monimutkainen malli.

Jos aineistossa on sata riippumatonta havaintoa, niin sadasta vapaasta parametrista koostuva malli saadaan aina sovitettua aineistoon täydellisesti. Aivan kuten sadasta pisteestä koostuva lasten askartelutehtäväkin ratkeaa yhdistämällä pisteet sadalla viivalla.

"Neljällä parametrilla sovitan aineistoon norsun, ja viidennellä saan sen heiluttamaan kärsäänsä" kiteytti matemaatikko John von Neumann ylisovittamisen idean lennokkaasti.

Menneisyyteen täydellisesti sovitettu monimutkainen malli ennustaa tulevaisuutta huonommin kuin yksinkertaisempi malli, koska mallinnettu satunnaisvaihtelu on ainutkertaista eikä siten toistu tulevaisuudessa enää samanlaisena. 

Signaali pysyy, mutta kohina vaihtelee, joten parhaat ennusteet saadaan mallista joka tavoittaa signaalin muttei myötäile kohinaa.

Ylisovittamisen vastakohtana vaanii alisovittaminen, eli liian yksinkertainen malli joka ei hyödynnä aineiston koko signaalia. 

Missä sitten kulkee ylisovittamisen ja alisovittamisen raja?

Sovituksen optimia eli täsmäävimpiä ennusteita antavaa mallia voi hakea yksinkertaisella kikalla: jakamalla aineisto satunnaisesti kahteen osaan, joista yhtä käytetään mallin sovittamiseen ja toista ennusteiden testaamiseen. Toistamalla satunnaisjakoa jokaiselle kilpailevalle mallille voi löytää sen, joka mallintaa yhtäältä mahdollisimman paljon signaalia ja toisaalta mahdollisimman vähän kohinaa. Eli mallin, joka antaa täsmäävimmät ennusteet.

"Kaikesta pitäisi tehdä mahdollisimman yksinkertaista, mutta ei yksinkertaisempaa", kuten Einsteinin nimiin pistetty sanonta kuuluu.

Kommentit (0)

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat