Kuva: Wellcome Collection gallery

Tieteellinen teoria on matemaattinen malli, josta voi laskea ennusteita. Havaintoihin hyvin sopivat ennusteet lisäävät teorian uskottavuutta. Paitsi silloin, kun ennusteet näyttävät sopivan havaintoihin liian hyvin. Liian hyvin ollakseen totta.

Jotta voi ymmärtää miten malli voi olla liian sopiva, on ensin ymmärrettävä mitä mallin sopivuus tarkoittaa.

Sopivuus mittaa ennusteiden poikkeamaa havainnoista, matemaattisen täsmällisesti määriteltynä. Mitta on käänteinen eli mitä pienempi poikkeama, sitä sopivampi malli.

Eräs sopivuuden mitta on suhteellinen neliöpoikkeama. Tämän yleisesti käytetyn mitan ymmärtämiseksi täytyy tietää, mitä tarkoittavat suhteellinen, neliö ja poikkeama.

Poikkeama tarkoittaa erotusta eli vähennyslaskua. Kun havainto on 73 ja teoria ennustaa 68, poikkeama on 73 - 68 = 5. Havainnon H ja ennusteen E täydellinen yhteensopivuus H = E vastaa nollan suuruista poikkeamaa H - E = 0.

Neliö tarkoittaa toista potenssia eli luvun kertomista itsellään. Kakkosen neliö on neljä 2² = 2×2 = 4, kolmosen neliö yhdeksän 3² = 3×3 = 9, nelosen neliö kuusitoista 4² = 4×4 = 16 jne. Kun havainto on 73 ja teoria ennustaa 68, neliöpoikkeama on (73 - 68)² = 5² = 5×5 = 25. Neliö saa nimensä geometriasta: luvun toinen potenssi on pinta-ala neliön muotoisessa alueessa, jonka sivut ovat kyseisen luvun pituisia. 

Negatiivinen luku kumoaa positiivisen luvun, -5 + 5 = 0, mutta mallin sopivuuden kannalta negatiivinen poikkeama ei kumoa positiivista poikkeamaa vaan molemmat lisäävät mallin epäsopivuutta yhtä lailla. Poikkeamien neliöinti korjaa tämän ongelman, koska negatiivinen luku kerrottuna itsellään on aina positiivinen (-5)×(-5) = 25. Niinpä näiden kahden ennusteen epäsopivuus on yhteensä (73 - 68)² + (63 - 68)² = 25 + 25 = 50 eikä nolla, kuten laskettaessa erisuuntaiset poikkeamat suoraan yhteen ilman neliöintiä (73 - 68) + (63 - 68) = 5 - 5 = 0.

Neliöinti hoitaa negatiivisten poikkeamien lisäksi myös oikean skaalauksen. Nimittäin poikkeamat noudattavat monessa tilanteessa normaalijakaumaa, missä riippuvuus poikkeamasta on neliöllinen eli esim. poikkeaman kymmenkertaistuminen satakertaistaa ennusteen epäsopivuuden 10² = 10×10 = 100. Jos poikkeamien jakauma ei ole likimainkaan normaali, käytetään neliöpoikkeaman sijasta toiselle jakaumalle ominaista skaalausta. Muutoin mallin sopivuus lasketaan jakaumasta riippumatta samalla periaatteella.

Sopivuuden määritelmän viimeinen osa eli suhteellisuus tarkoittaa poikkeamien havaintokohtaista painotusta. Painotusta tarvitaan, koska odotetun satunnaisvirheen eli hajonnan suuruus riippuu havainnosta. Mitä pienempi hajonta havaintoon liittyy, sitä suurempi painoarvo poikkeamalle pitää antaa. Painokerroin on hajonnan käänteisluku: esim. poikkeama, johon liittyy hajonta 2, on viisi kertaa epäsopivampi kuin samansuuruinen poikkeama, johon liittyy hajonta 10. Kun useasta havainnosta koostuvan aineiston poikkeamat lasketaan yhteen, kukin poikkeama saa näin suhteellista merkitystään vastaavan painon. Sopivuuden mittana toimiva suhteellinen neliöpoikkeama on siis painotettu neliösumma.

Kilpailevista malleista sopii havaintoihin parhaiten se, jonka ennusteista laskettujen poikkeamien painotettu neliösumma on pienin.

Mallista laskettu neliösumma voidaan kääntää myös todennäköisyydeksi. Tämä ei kuitenkaan kerro suoraan mallin todennäköisyyttä, vaan uuden havaintoaineiston uskottavuutta on puntaroitava yhdessä aiemman tutkimusnäytön kanssa. Mallin todennäköisyys on uuden näytön uskottavuuden ja ennakkotiedon tulo.

Siisti tarina, eikös? Moni tutkija omaksuu tyytyväisenä tämän reseptin, koska sen avulla mallien vertailu on suoraviivaista. Autuaan tietämättömänä, että jutun juonessa vaanii vielä käänne.

Nimittäin edes täydellisesti todellisuutta kuvaavan mallin neliöpoikkeamien ei pitäisi olla keskimäärin nollia vaan satunnaisvirheen suuruisia.

Heitetään noppaa 6000 kertaa. Tuloksena saadaan tasan tuhat ykköstä, tuhat kakkosta, tuhat kolmosta, tuhat nelosta, tuhat viitosta ja tuhat kuutosta. Onko noppa rehellinen? Silmälukujen määrien neliöpoikkeamathan ovat rehellisen nopan ennusteista 6000×1/6 = 1000 täsmälleen nollia. Mutta todennäköisyys saada näin tasainen jakauma ilman filunkipeliä on vähemmän kuin yksi miljardista! Rehellisen nopan 6000 heitossa silmälukujen määrät poikkeavat tasajakaumasta keskimäärin muutamasta heitosta muutamaan kymmeneen heittoon.

Johdonmukaisesti satunnaisvirhettä pienemmät poikkeamat tarkoittavat, että malli sopii havaintoihin paremmin kuin mihin edes todellinen luonto pystyy!

Asian voi toki ilmaista myös niin, että jos ennustetut arvot vastaavat havaintoarvoja liian hyvin, ennustettu hajonta ei vastaakaan havaittua hajontaa. Eli pinnallisesti täysin sopiva malli sopiikin tarkemmin katsottuna todellisuuteen erityisen huonosti.

Liian sopivalta näyttävä malli ei kuitenkaan aina ole laskelmoitua petosta, vaan saattaa syntyä myös tietämättömän tutkijan tai apulaisen hyväntahtoisista pyrkimyksistä. Gregor Mendelin herneet lienevät tästä klassinen esimerkki. Liian hyvin perinnöllisyyslain ennusteita vastaava Mendelin alkuperäinen aineisto ei toki kyseenalaista myöhemmin moneen kertaan vahvistettuja tuloksia, mutta herättää kysymyksen oliko hänen aineistonsa täysin rehellisesti kerättyä ja mistä liian sopiva tulos aiheutui.

Erityisesti ihmisen, talouden ja yhteiskunnan tutkimuksessa yleinen ongelma on, että havaintoaineistoon sovitetaan liian monimutkaista mallia. Tällaisessa ylisovitetussa mallissa voi olla niin paljon liikkuvia osia, että mallin saa myötäilemään minkälaisen sattuman oikkuja hyvänsä. Menneisyyteen täydellisesti sopivan mallin surkeus paljastuu, kun sillä yrittää ennustaa tulevaisuutta. Edellisviikon lottonumerot eivät ennusta tulevan viikon arvonnasta mitään (paitsi sen, että edellisiä numeroita ei kannata pelata koska jotkut hupsut pelaavat niitä kuitenkin jolloin vanhoille numeroille sattuva päävoitto pirstoutuisi lohduttoman pieniin osiin).

Kosmologit ja muut teoreetikot puhuvat toisinaan havaintojen sovittamisesta malliin. Lipsahdus kuulostaa ehkä viattomalta, mutta paljastaa paljon. Tieteessä mallia tulee tietenkin sovittaa havaintoihin eikä päinvastoin, mutta etenkin kosmologiassa tähän nurinkurisuuteen törmää. Yleensä mittalaitteet keräävät ns. raakadataa, josta täytyy siivota jos jonkinlaista häiriötekijää kotigalaksista lähtien ennen kuin helpommin analysoitava havaintoaineisto julkaistaan koko tutkijayhteisön saataville. Tämä on ymmärrettävää, mutta ongelma on että tässä suurta tiimityötä vaativassa (ja siten vaikeasti toistettavassa) prosessissa usein jo oletetaan pimeä energia ja tasaisen laajenevan avaruuden malli. Niinpä ei ole yllättävää, että yhtäältä kilpailevia malleja on vaikea sovittaa julkaistuun aineistoon ja toisaalta pimeän energian mallit ovat toisinaan sopineet aineistoon liiankin hyvin. Lisäksi oletuksista riippumatonta raakadataa ei suinkaan aina julkaista. Tutki siinä sitten avaruuden epätasaista laajenemista.

Liian sopivan mallin ongelman ratkaisu on periaatteessa yksinkertainen. Pitää vain testata mallin keskiarvoisen sopivuuden lisäksi hajonnan sopivuus. Tosin ennustettu hajontakin voi sopia havaintoihin liian hyvin samoin kuin hajonnan hajonta ja niin edelleen, mutta se on taas jo kokonaan toinen tarina.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat

Sisältö jatkuu mainoksen alla