Kuva: Wikimedia Commons

Ota kasa matemaattisia malleja. Tee havaintoja. Vertaa malleja havaintoihin. Valitse malli, joka sopii parhaiten havaintoaineistoon. Laske mallista ennusteita. Vertaa ennusteita uusiin havaintoihin. Jos ennusteet eivät täsmää, älä luota malliin. Jos täsmäävät, kasvata luottamustasi malliin. Anna luotettavimman mallin kohdentaa seuraavia havaintojasi ja aloita piirissä uusi kierros.

Tätä havaintojen ja teorian päättymätöntä piiritanssia kutsutaan tieteeksi. Tiede on järjestelmällistä järjen käyttöä. Tiede opettaa, kuinka maailma toimii.

Tieteen toimintaa kuvaava piiri tarjoaa selvän reseptin todellisuuden tavoittamiseen kierros kierrokselta tarkemmin. Piirin jokaisessa vaiheessa on kuitenkin vaikeutensa. Kuten siinä, miten valita äärettömästä joukosta malli, joka sopii parhaiten havaintoihin.

Ihanteellinen malli minimoi yhtäältä harhan ja toisaalta hajonnan. Harha tarkoittaa mallin sovitteiden poikkeamaa havainnoista. Hajonta tarkoittaa mallin sovitteiden poikkeamaa toisistaan. Mallinnuksen harha ja hajonta saattavat joissain tilanteissa merkitä lähes päinvastaista kuin arkikielessä, mutta ajoittaista hämmennystä lukuun ottamatta termistöllä ei ole tässä suurta väliä sillä kummastakin halutaan eroon niin paljon kuin mahdollista.

Ongelma on siinä, että harhan vähentäminen kasvattaa hajontaa ja hajonnan vähentäminen kasvattaa harhaa. Kyseessä on optimointiongelma. On etsittävä harhan ja hajonnan tasapaino, ylisovituksen ja alisovituksen välinen raja.

Harhan nollaaminen tarkoittaa ylisovittamista eli liian monimutkaista mallia. Harhaton ylisovitus ennustaa uusia havaintoja huonommin kuin yksinkertaisempi malli, koska harhaton malli myötäilee ainutkertaista kohinaa. Eli mallintaa virhevaihtelua, joka ei toistu samana enää uusissa havainnoissa.

Hajonnan nollaaminen puolestaan tarkoittaa alisovittamista eli liian yksinkertaista mallia. Inhimillisten taipumustemme vuoksi ylisovittaminen on käytännössä yleisempi ongelma kuin alisovittaminen.

Havainnollistetaan sovittamisen ongelmaa numeerisella esimerkillä.

Ajattele jotain tutkimuskohdetta, kuten ilmanpaineen ja sateisuuden, pituuden ja painon tai äidin ja lapsen älykkyyden välistä yhteyttä. Tehdään ilmiöstä 30 riippumatonta havaintoa, jotka piirretään hajontakuvioon

Pysty- ja vaaka-akseleiden yksiköt mittaavat standardipisteitä eli montako keskihajontaa kukin harmaana pallurana kuvattu havainto poikkeaa otoksen keskiarvosta. Pystyakselilla on vaikkapa sateisuus, paino tai lapsen älykkyys, vaaka-akselilla ilmanpaine, pituus tai äidin älykkyys.

Sovitetaan havaintoaineistoomme 30 riippumatonta parametriä eli 30 liikkuvaa osaa sisältävä malli. Sovitus tarkoittaa jokaisen havaintopalluran täsmälleen halkovaa siksakkia

Sovitetaan samaan aineistoon yksinkertaisena verrokkimallina suora, jolla on kaksi riippumatonta parametriä eli kaksi liikkuvaa osaa: suoran korkeus ja kaltevuus. Sovitus tarkoittaa, että etsitään korkeudeltaan ja kaltevuudeltaan sellainen suora, jonka palluroista mitattujen pystysuuntaisten neliöpoikkeamien summa on pienin mahdollinen. Eli suora, joka kulkee mahdollisimman hyvin palluroiden kautta

Punaisen ja sinisen mallin sopivuutta aineistoon kuvaavat niiden ns. selitysosuudet R². Selitysosuus mittaa mallin sovitteiden ja havaintojen yhteisvaihtelua, eli kuinka suuren osan sovitteiden vaihtelu selittää havaintojen vaihtelusta; esim. paljonko ilmanpaineen vaihtelun avulla selittyy sademäärän vaihtelusta, paljonko pituuden vaihtelun avulla selittyy painon vaihtelusta tai paljonko äitien välisen älykkyyden vaihtelun avulla selittyy lasten välisen älykkyyden vaihtelusta. 

Punaisen siksak-mallin selitysosuus R² = 100% eli siksakki selittää havaintojen vaihtelun täydellisesti juuri kerätyssä 30 havainnon aineistossa. 

Sinisen suoran selitysosuus R² = 50% eli suora selittää tässä havaitusta vaihtelusta vain puolet.

Selitysosuuksia vertaamalla punainen malli näyttää siniseen nähden täysin ylivertaiselta.

Punaisen mallin kannalta valitettavasti täydellinen sopivuus aineistoon on yhtä vakuuttavaa kuin lottonumeroiden tietäminen, edellisen viikon arvonnasta! Vasta uusien havaintojen täsmäävä ennustaminen mittaa mallin todellisen selitysvoiman. Todellinen ennustajakin tietäisi tulevan viikon lottonumerot.

Tekoälyn, neuroverkkojen ja koneoppimisen tutkijat kutsuvat alkuperäistä havaintoaineistoa opetusdataksi, jolla malli vasta opetetaan, ja uusia havaintoja testidataksi, jolla mallin todelliset kyvyt testataan. Aito oppiminen on kykyä yleistää ja soveltaa opittua tulevaan, ei menneen toistelua.

Selvitetäänpä sinisen ja punaisen mallin paremmuus laittamalla ne ennustetestiin: tehdään samasta ilmiöstä vielä uudet 30 riippumatonta havaintoa, jotka lisätään hajontakuvioon mustina palluroina

Ennustetestissä punaisen siksak-mallin selitysosuus romahtaa arvoon R² = 25% eli siksakki selittää havaitusta vaihtelusta enää neljäsosan tässä kerätyssä 30 uuden havainnon aineistossa. Harmaiden palluroiden perässä kiemurtelu eksytti siksakin kauas mustista palluroista, joiden tavoittamisesta todellinen palkinto vasta jaettiin!

Sinisen suoran selitysosuus sen sijaan säilyy suunnilleen ennallaan, arvossa R² = 55%, eli suora selittää myös havaitusta uudesta vaihtelusta puolet. Suora on yhtä kaukana mustista palluroista kuin harmaista palluroista. Suora ei langennut mutkittelemaan pikavoittojen perässä, ja ryhdikkyys palkittiin kiistattomalla ennusteherruudella.

Kun satunnaisotoksia kerätään samasta ilmiöstä yhä uudestaan, sininen suora ennustaa uusia havaintoja toistuvasti paremmin kuin ylisovitettu punainen siksakki. Selitysosuuksien tarkat numeeriset arvot toki vaihtelevat sattumasta johtuvan otantavirheen puitteissa, mutta suoran ennusteherruus säilyy. Signaali pysyy, vaikka kohinan muoto vaihtelee.

Punainen siksakki lankeaa ylisovituksen houkutukseen, joka näyttää menneisyyden valossa hyvältä mutta juuri pinnallisen vetovoimansa vuoksi malli oppii huonosti. Ylisovitus on menneisyyden vanki, joka ei opi menneisyydestä ja toimii siksi tulevaisuudessa ratkaisevasti huonommin.

Siksakki on kuin sattumanvaraisia elämäntapahtumia syy-seraussuhteiksi sepittävä ihmispolo.

Älä ole siksakki. Pysy suorana. Ohita johdatuksen tunteet englantilaisen hovimestarin viileydellä. Kohina on kohinaa, vaikka vapahtajalta näyttäisi.

Kun kirja putoaa hyllystä, se ei sisällä salattua viestiä. Putoava kirja ei ole merkki kuin korkeintaan huolimattomuudesta. Taivaalta ei viestittele edesmennyt sukulainen, vaikka pilvellä on täsmälleen samannäköinen nenä. Ajatuksesi eivät aiheuttaneet vuosien takaisen ystäväsi yhteydenottoa, vaikka satuitkin ajattelemaan samanaikaisesti juuri häntä. Kun lampun valo vaihtaa väriään aivan kuten ajattelit, se ei kerro mielen salatusta voimasta vaan mielen tunnetusta heikkoudesta nähdä hahmoja ja merkitystä satunnaisessa kohinassa. Ympäristömme on kohinaa täynnä, joten epätodennäköisillekin sattumille riittää mahdollisuuksia vuosikymmeniä kestävän elämämme varrelle yllin kyllin.

Järjissään pysyminen ei tietenkään ole helppoa, kun sattumat koskettavat henkilökohtaisesti ja halu elämää suurempiin kokemuksiin on kova. Mutta järjissään pysyminen kannattaa, sillä mustien palluroiden eli tulevaisuuden tavoittaminen palkitsee enemmän kuin harmaiden palluroiden eli menneisyyden oikkujen perässä kiemurtelu.

Hahmojen ja merkityksen näkeminen sattumassa eli kohinaan ylisovittaminen on ihmisen perisynti, joka evoluutiossa geeneihimme koodautui: selviytymisen kannalta on yleensä parempi virsta (yli kilometri) väärään kuin vaaksa (alle metri) vaaraan eli luulla varjoa pedoksi kuin petoa varjoksi. Aivomme luulevat ennemmin puuta parittelukumppaniksi kuin parittelukumppania puuksi, koska erehdys ylisovituksen suuntaan on ollut keskimäärin hedelmällisempää kuin erehdys alisovituksen suuntaan.

Kun tutkittavaa ilmiötä oppii tuntemaan tarkemmin, havaintoihin on mahdollista sovittaa moniulotteisempi malli, joka lisää selitysosuutta ilman ylisovitusta eli erottaa havainnoista enemmän signaalia kohinan seasta. Sateisuuden selittäjäksi voi lisätä ilmanpaineen lisäksi lämpötilan, tuulen ja ilmankosteuden. Painon selittäjäksi voi lisätä pituuden lisäksi ravinnon ja liikunnan. Lapsen älykkyyden selittäjäksi voi lisätä äidin älykkyyden lisäksi isän älykkyyden.

Ilmiöiden moniulotteisuuden tavoittaa kiertämällä tieteen havaitse-sovita-testaa-päivitä-piiriä kierros kierrokselta yhä uudestaan ja uudestaan. Mikä parasta, matkasta voi nauttia hyvällä mielellä sillä tieteestä oppiminen on aitoa.

Kommentit (0)

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat

Sisältö jatkuu mainoksen alla