Kuva: Wikimedia Commons

Aineistolähtöisessä tutkimuksessa havainnoista etsitään ilmiöiden välisiä yhteyksiä vailla etukäteen laadittuja ennusteita. Tämän vastakohtana on teorialähtöinen tutkimus, jossa havaintoaineiston avulla testataan kilpailevien teorioiden tai mallien ennusteita.

Ihmistä ja yhteiskuntaa tutkittaessa aineistolähtöisyys on ollut perinteisesti suositumpaa kuin teorialähtöisemmissä fysikaalisissa tieteissä. Tämä johtuu yksinkertaisesti siitä, että ihmisen monimutkaisesta toiminnasta on vaikeampaa luoda toimivia teorioita kuin yksinkertaisemmista fysikaalisista systeemeistä. Säännöllistä planeettaliikettä on helpompi ennustaa kuin mellakoivia ihmisjoukkoja tai wc-paperin kysyntää.

Big data eli jättiaineistot ovat kasvattaneet aineistolähtöisen tutkimuksen kysyntää kaikilla aloilla. Miten muuttaa räjähdysmäisesti kasvavat tietokannat rahaksi, tuskaillaan monissa yrityksissä. Jotain tarttis tehrä, nimittäin jo pelkkä älytekniikan lihottaman datavirran säilyttäminen tulee kalliiksi: kuka klikkasi mitä, montako sekuntia kulki missäkin ja mihin suuntaan ruutuaan pyyhki, on tietoa, joka syö melkoisesti tallennustilaa kun seurattavia käyttäjiä on miljoonia ja jokaiselta kerätään miljoonia muuttujien arvoja.

Aineistolähtöinen tutkimus tuottaa malleja, joiden arvo mitataan siinä miten osuvasti ne ennustavat tulevaisuutta. Tulevaisuuteen kuuluu niin asiakkaiden ostopäätökset, muodin leviäminen, markkinoiden käyttäytyminen kuin mikä hyvänsä ennustamisen (eli rahan) arvoinen tapahtuma.

Eräs aineistolähtöisen mallinnuksen suurimpia syntejä on ylisovittaminen. Ylisovittaminen tarkoittaa, että mallinnetaan satunnaista kohinaa kiinnostavan ilmiön eli signaalin lisäksi. Tai pahimmillaan kokonaan sen sijasta, kuten margariininkulutuksen ja avioerojen tai hukkumisten ja avioliittojen väliset sattumanvaraiset yhteydet osoittavat. Kaikki havainnot sisältävät enemmän tai vähemmän kohinaa, minkä ehdoilla mallinnus on aina tehtävä.

Ylisovittaminen on merkki siitä, että on luotu liian monimutkainen malli.

Jos aineistossa on sata riippumatonta havaintoa, niin sadasta vapaasta parametrista koostuva malli saadaan aina sovitettua aineistoon täydellisesti. Aivan kuten sadasta pisteestä koostuva lasten askartelutehtäväkin ratkeaa yhdistämällä pisteet sadalla viivalla.

"Neljällä parametrilla sovitan aineistoon norsun, ja viidennellä saan sen heiluttamaan kärsäänsä" kiteytti matemaatikko John von Neumann ylisovittamisen idean lennokkaasti.

Menneisyyteen täydellisesti sovitettu monimutkainen malli ennustaa tulevaisuutta huonommin kuin yksinkertaisempi malli, koska mallinnettu satunnaisvaihtelu on ainutkertaista eikä siten toistu tulevaisuudessa enää samanlaisena. 

Signaali pysyy, mutta kohina vaihtelee, joten parhaat ennusteet saadaan mallista joka tavoittaa signaalin muttei myötäile kohinaa.

Ylisovittamisen vastakohtana vaanii alisovittaminen, eli liian yksinkertainen malli joka ei hyödynnä aineiston koko signaalia. 

Missä sitten kulkee ylisovittamisen ja alisovittamisen raja?

Sovituksen optimia eli täsmäävimpiä ennusteita antavaa mallia voi hakea yksinkertaisella kikalla: jakamalla aineisto satunnaisesti kahteen osaan, joista yhtä käytetään mallin sovittamiseen ja toista ennusteiden testaamiseen. Toistamalla satunnaisjakoa jokaiselle kilpailevalle mallille voi löytää sen, joka mallintaa yhtäältä mahdollisimman paljon signaalia ja toisaalta mahdollisimman vähän kohinaa. Eli mallin, joka antaa täsmäävimmät ennusteet.

"Kaikesta pitäisi tehdä mahdollisimman yksinkertaista, mutta ei yksinkertaisempaa", kuten Einsteinin nimiin pistetty sanonta kuuluu.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat