Kirjoitukset avainsanalla sovittaminen

Kuva: Wellcome Collection gallery

Tieteellinen teoria on matemaattinen malli, josta voi laskea ennusteita. Havaintoihin hyvin sopivat ennusteet lisäävät teorian uskottavuutta. Paitsi silloin, kun ennusteet näyttävät sopivan havaintoihin liian hyvin. Liian hyvin ollakseen totta.

Jotta voi ymmärtää miten malli voi olla liian sopiva, on ensin ymmärrettävä mitä mallin sopivuus tarkoittaa.

Sopivuus mittaa ennusteiden poikkeamaa havainnoista, matemaattisen täsmällisesti määriteltynä. Mitta on käänteinen eli mitä pienempi poikkeama, sitä sopivampi malli.

Eräs sopivuuden mitta on suhteellinen neliöpoikkeama. Tämän yleisesti käytetyn mitan ymmärtämiseksi täytyy tietää, mitä tarkoittavat suhteellinen, neliö ja poikkeama.

Poikkeama tarkoittaa erotusta eli vähennyslaskua. Kun havainto on 73 ja teoria ennustaa 68, poikkeama on 73 - 68 = 5. Havainnon H ja ennusteen E täydellinen yhteensopivuus H = E vastaa nollan suuruista poikkeamaa H - E = 0.

Neliö tarkoittaa toista potenssia eli luvun kertomista itsellään. Kakkosen neliö on neljä 2² = 2×2 = 4, kolmosen neliö yhdeksän 3² = 3×3 = 9, nelosen neliö kuusitoista 4² = 4×4 = 16 jne. Kun havainto on 73 ja teoria ennustaa 68, neliöpoikkeama on (73 - 68)² = 5² = 5×5 = 25. Neliö saa nimensä geometriasta: luvun toinen potenssi on pinta-ala neliön muotoisessa alueessa, jonka sivut ovat kyseisen luvun pituisia. 

Negatiivinen luku kumoaa positiivisen luvun, -5 + 5 = 0, mutta mallin sopivuuden kannalta negatiivinen poikkeama ei kumoa positiivista poikkeamaa vaan molemmat lisäävät mallin epäsopivuutta yhtä lailla. Poikkeamien neliöinti korjaa tämän ongelman, koska negatiivinen luku kerrottuna itsellään on aina positiivinen (-5)×(-5) = 25. Niinpä näiden kahden ennusteen epäsopivuus on yhteensä (73 - 68)² + (63 - 68)² = 25 + 25 = 50 eikä nolla, kuten laskettaessa erisuuntaiset poikkeamat suoraan yhteen ilman neliöintiä (73 - 68) + (63 - 68) = 5 - 5 = 0.

Neliöinti hoitaa negatiivisten poikkeamien lisäksi myös oikean skaalauksen. Nimittäin poikkeamat noudattavat monessa tilanteessa normaalijakaumaa, missä riippuvuus poikkeamasta on neliöllinen eli esim. poikkeaman kymmenkertaistuminen satakertaistaa ennusteen epäsopivuuden 10² = 10×10 = 100. Jos poikkeamien jakauma ei ole likimainkaan normaali, käytetään neliöpoikkeaman sijasta toiselle jakaumalle ominaista skaalausta. Muutoin mallin sopivuus lasketaan jakaumasta riippumatta samalla periaatteella.

Sopivuuden määritelmän viimeinen osa eli suhteellisuus tarkoittaa poikkeamien havaintokohtaista painotusta. Painotusta tarvitaan, koska odotetun satunnaisvirheen eli hajonnan suuruus riippuu havainnosta. Mitä pienempi hajonta havaintoon liittyy, sitä suurempi painoarvo poikkeamalle pitää antaa. Painokerroin on hajonnan käänteisluku: esim. poikkeama, johon liittyy hajonta 2, on viisi kertaa epäsopivampi kuin samansuuruinen poikkeama, johon liittyy hajonta 10. Kun useasta havainnosta koostuvan aineiston poikkeamat lasketaan yhteen, kukin poikkeama saa näin suhteellista merkitystään vastaavan painon. Sopivuuden mittana toimiva suhteellinen neliöpoikkeama on siis painotettu neliösumma.

Kilpailevista malleista sopii havaintoihin parhaiten se, jonka ennusteista laskettujen poikkeamien painotettu neliösumma on pienin.

Mallista laskettu neliösumma voidaan kääntää myös todennäköisyydeksi. Tämä ei kuitenkaan kerro suoraan mallin todennäköisyyttä, vaan uuden havaintoaineiston uskottavuutta on puntaroitava yhdessä aiemman tutkimusnäytön kanssa. Mallin todennäköisyys on uuden näytön uskottavuuden ja ennakkotiedon tulo.

Siisti tarina, eikös? Moni tutkija omaksuu tyytyväisenä tämän reseptin, koska sen avulla mallien vertailu on suoraviivaista. Autuaan tietämättömänä, että jutun juonessa vaanii vielä käänne.

Nimittäin edes täydellisesti todellisuutta kuvaavan mallin neliöpoikkeamien ei pitäisi olla keskimäärin nollia vaan satunnaisvirheen suuruisia.

Heitetään noppaa 6000 kertaa. Tuloksena saadaan tasan tuhat ykköstä, tuhat kakkosta, tuhat kolmosta, tuhat nelosta, tuhat viitosta ja tuhat kuutosta. Onko noppa rehellinen? Silmälukujen määrien neliöpoikkeamathan ovat rehellisen nopan ennusteista 6000×1/6 = 1000 täsmälleen nollia. Mutta todennäköisyys saada näin tasainen jakauma ilman filunkipeliä on vähemmän kuin yksi miljardista! Rehellisen nopan 6000 heitossa silmälukujen määrät poikkeavat tasajakaumasta keskimäärin muutamasta heitosta muutamaan kymmeneen heittoon.

Johdonmukaisesti satunnaisvirhettä pienemmät poikkeamat tarkoittavat, että malli sopii havaintoihin paremmin kuin mihin edes todellinen luonto pystyy!

Asian voi toki ilmaista myös niin, että jos ennustetut arvot vastaavat havaintoarvoja liian hyvin, ennustettu hajonta ei vastaakaan havaittua hajontaa. Eli pinnallisesti täysin sopiva malli sopiikin tarkemmin katsottuna todellisuuteen erityisen huonosti.

Liian sopivalta näyttävä malli ei kuitenkaan aina ole laskelmoitua petosta, vaan saattaa syntyä myös tietämättömän tutkijan tai apulaisen hyväntahtoisista pyrkimyksistä. Gregor Mendelin herneet lienevät tästä klassinen esimerkki. Liian hyvin perinnöllisyyslain ennusteita vastaava Mendelin alkuperäinen aineisto ei toki kyseenalaista myöhemmin moneen kertaan vahvistettuja tuloksia, mutta herättää kysymyksen oliko hänen aineistonsa täysin rehellisesti kerättyä ja mistä liian sopiva tulos aiheutui.

Erityisesti ihmisen, talouden ja yhteiskunnan tutkimuksessa yleinen ongelma on, että havaintoaineistoon sovitetaan liian monimutkaista mallia. Tällaisessa ylisovitetussa mallissa voi olla niin paljon liikkuvia osia, että mallin saa myötäilemään minkälaisen sattuman oikkuja hyvänsä. Menneisyyteen täydellisesti sopivan mallin surkeus paljastuu, kun sillä yrittää ennustaa tulevaisuutta. Edellisviikon lottonumerot eivät ennusta tulevan viikon arvonnasta mitään (paitsi sen, että edellisiä numeroita ei kannata pelata koska jotkut hupsut pelaavat niitä kuitenkin jolloin vanhoille numeroille sattuva päävoitto pirstoutuisi lohduttoman pieniin osiin).

Kosmologit ja muut teoreetikot puhuvat toisinaan havaintojen sovittamisesta malliin. Lipsahdus kuulostaa ehkä viattomalta, mutta paljastaa paljon. Tieteessä mallia tulee tietenkin sovittaa havaintoihin eikä päinvastoin, mutta etenkin kosmologiassa tähän nurinkurisuuteen törmää. Yleensä mittalaitteet keräävät ns. raakadataa, josta täytyy siivota jos jonkinlaista häiriötekijää kotigalaksista lähtien ennen kuin helpommin analysoitava havaintoaineisto julkaistaan koko tutkijayhteisön saataville. Tämä on ymmärrettävää, mutta ongelma on että tässä suurta tiimityötä vaativassa (ja siten vaikeasti toistettavassa) prosessissa usein jo oletetaan pimeä energia ja tasaisen laajenevan avaruuden malli. Niinpä ei ole yllättävää, että yhtäältä kilpailevia malleja on vaikea sovittaa julkaistuun aineistoon ja toisaalta pimeän energian mallit ovat toisinaan sopineet aineistoon liiankin hyvin. Lisäksi oletuksista riippumatonta raakadataa ei suinkaan aina julkaista. Tutki siinä sitten avaruuden epätasaista laajenemista.

Liian sopivan mallin ongelman ratkaisu on periaatteessa yksinkertainen. Pitää vain testata mallin keskiarvoisen sopivuuden lisäksi hajonnan sopivuus. Tosin ennustettu hajontakin voi sopia havaintoihin liian hyvin samoin kuin hajonnan hajonta ja niin edelleen, mutta se on taas jo kokonaan toinen tarina.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Wikimedia Commons

Aineistolähtöisessä tutkimuksessa havainnoista etsitään ilmiöiden välisiä yhteyksiä vailla etukäteen laadittuja ennusteita. Tämän vastakohtana on teorialähtöinen tutkimus, jossa havaintoaineiston avulla testataan kilpailevien teorioiden tai mallien ennusteita.

Ihmistä ja yhteiskuntaa tutkittaessa aineistolähtöisyys on ollut perinteisesti suositumpaa kuin teorialähtöisemmissä fysikaalisissa tieteissä. Tämä johtuu yksinkertaisesti siitä, että ihmisen monimutkaisesta toiminnasta on vaikeampaa luoda toimivia teorioita kuin yksinkertaisemmista fysikaalisista systeemeistä. Säännöllistä planeettaliikettä on helpompi ennustaa kuin mellakoivia ihmisjoukkoja tai wc-paperin kysyntää.

Big data eli jättiaineistot ovat kasvattaneet aineistolähtöisen tutkimuksen kysyntää kaikilla aloilla. Miten muuttaa räjähdysmäisesti kasvavat tietokannat rahaksi, tuskaillaan monissa yrityksissä. Jotain tarttis tehrä, nimittäin jo pelkkä älytekniikan lihottaman datavirran säilyttäminen tulee kalliiksi: kuka klikkasi mitä, montako sekuntia kulki missäkin ja mihin suuntaan ruutuaan pyyhki, on tietoa, joka syö melkoisesti tallennustilaa kun seurattavia käyttäjiä on miljoonia ja jokaiselta kerätään miljoonia muuttujien arvoja.

Aineistolähtöinen tutkimus tuottaa malleja, joiden arvo mitataan siinä miten osuvasti ne ennustavat tulevaisuutta. Tulevaisuuteen kuuluu niin asiakkaiden ostopäätökset, muodin leviäminen, markkinoiden käyttäytyminen kuin mikä hyvänsä ennustamisen (eli rahan) arvoinen tapahtuma.

Eräs aineistolähtöisen mallinnuksen suurimpia syntejä on ylisovittaminen. Ylisovittaminen tarkoittaa, että mallinnetaan satunnaista kohinaa kiinnostavan ilmiön eli signaalin lisäksi. Tai pahimmillaan kokonaan sen sijasta, kuten margariininkulutuksen ja avioerojen tai hukkumisten ja avioliittojen väliset sattumanvaraiset yhteydet osoittavat. Kaikki havainnot sisältävät enemmän tai vähemmän kohinaa, minkä ehdoilla mallinnus on aina tehtävä.

Ylisovittaminen on merkki siitä, että on luotu liian monimutkainen malli.

Jos aineistossa on sata riippumatonta havaintoa, niin sadasta vapaasta parametrista koostuva malli saadaan aina sovitettua aineistoon täydellisesti. Aivan kuten sadasta pisteestä koostuva lasten askartelutehtäväkin ratkeaa yhdistämällä pisteet sadalla viivalla.

"Neljällä parametrilla sovitan aineistoon norsun, ja viidennellä saan sen heiluttamaan kärsäänsä" kiteytti matemaatikko John von Neumann ylisovittamisen idean lennokkaasti.

Menneisyyteen täydellisesti sovitettu monimutkainen malli ennustaa tulevaisuutta huonommin kuin yksinkertaisempi malli, koska mallinnettu satunnaisvaihtelu on ainutkertaista eikä siten toistu tulevaisuudessa enää samanlaisena. 

Signaali pysyy, mutta kohina vaihtelee, joten parhaat ennusteet saadaan mallista joka tavoittaa signaalin muttei myötäile kohinaa.

Ylisovittamisen vastakohtana vaanii alisovittaminen, eli liian yksinkertainen malli joka ei hyödynnä aineiston koko signaalia. 

Missä sitten kulkee ylisovittamisen ja alisovittamisen raja?

Sovituksen optimia eli täsmäävimpiä ennusteita antavaa mallia voi hakea yksinkertaisella kikalla: jakamalla aineisto satunnaisesti kahteen osaan, joista yhtä käytetään mallin sovittamiseen ja toista ennusteiden testaamiseen. Toistamalla satunnaisjakoa jokaiselle kilpailevalle mallille voi löytää sen, joka mallintaa yhtäältä mahdollisimman paljon signaalia ja toisaalta mahdollisimman vähän kohinaa. Eli mallin, joka antaa täsmäävimmät ennusteet.

"Kaikesta pitäisi tehdä mahdollisimman yksinkertaista, mutta ei yksinkertaisempaa", kuten Einsteinin nimiin pistetty sanonta kuuluu.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat