Kirjoitukset avainsanalla big data

Kuva: Wikimedia Commons

Aineistolähtöisessä tutkimuksessa havainnoista etsitään ilmiöiden välisiä yhteyksiä vailla etukäteen laadittuja ennusteita. Tämän vastakohtana on teorialähtöinen tutkimus, jossa havaintoaineiston avulla testataan kilpailevien teorioiden tai mallien ennusteita.

Ihmistä ja yhteiskuntaa tutkittaessa aineistolähtöisyys on ollut perinteisesti suositumpaa kuin teorialähtöisemmissä fysikaalisissa tieteissä. Tämä johtuu yksinkertaisesti siitä, että ihmisen monimutkaisesta toiminnasta on vaikeampaa luoda toimivia teorioita kuin yksinkertaisemmista fysikaalisista systeemeistä. Säännöllistä planeettaliikettä on helpompi ennustaa kuin mellakoivia ihmisjoukkoja tai wc-paperin kysyntää.

Big data eli jättiaineistot ovat kasvattaneet aineistolähtöisen tutkimuksen kysyntää kaikilla aloilla. Miten muuttaa räjähdysmäisesti kasvavat tietokannat rahaksi, tuskaillaan monissa yrityksissä. Jotain tarttis tehrä, nimittäin jo pelkkä älytekniikan lihottaman datavirran säilyttäminen tulee kalliiksi: kuka klikkasi mitä, montako sekuntia kulki missäkin ja mihin suuntaan ruutuaan pyyhki, on tietoa, joka syö melkoisesti tallennustilaa kun seurattavia käyttäjiä on miljoonia ja jokaiselta kerätään miljoonia muuttujien arvoja.

Aineistolähtöinen tutkimus tuottaa malleja, joiden arvo mitataan siinä miten osuvasti ne ennustavat tulevaisuutta. Tulevaisuuteen kuuluu niin asiakkaiden ostopäätökset, muodin leviäminen, markkinoiden käyttäytyminen kuin mikä hyvänsä ennustamisen (eli rahan) arvoinen tapahtuma.

Eräs aineistolähtöisen mallinnuksen suurimpia syntejä on ylisovittaminen. Ylisovittaminen tarkoittaa, että mallinnetaan satunnaista kohinaa kiinnostavan ilmiön eli signaalin lisäksi. Tai pahimmillaan kokonaan sen sijasta, kuten margariininkulutuksen ja avioerojen tai hukkumisten ja avioliittojen väliset sattumanvaraiset yhteydet osoittavat. Kaikki havainnot sisältävät enemmän tai vähemmän kohinaa, minkä ehdoilla mallinnus on aina tehtävä.

Ylisovittaminen on merkki siitä, että on luotu liian monimutkainen malli.

Jos aineistossa on sata riippumatonta havaintoa, niin sadasta vapaasta parametrista koostuva malli saadaan aina sovitettua aineistoon täydellisesti. Aivan kuten sadasta pisteestä koostuva lasten askartelutehtäväkin ratkeaa yhdistämällä pisteet sadalla viivalla.

"Neljällä parametrilla sovitan aineistoon norsun, ja viidennellä saan sen heiluttamaan kärsäänsä" kiteytti matemaatikko John von Neumann ylisovittamisen idean lennokkaasti.

Menneisyyteen täydellisesti sovitettu monimutkainen malli ennustaa tulevaisuutta huonommin kuin yksinkertaisempi malli, koska mallinnettu satunnaisvaihtelu on ainutkertaista eikä siten toistu tulevaisuudessa enää samanlaisena. 

Signaali pysyy, mutta kohina vaihtelee, joten parhaat ennusteet saadaan mallista joka tavoittaa signaalin muttei myötäile kohinaa.

Ylisovittamisen vastakohtana vaanii alisovittaminen, eli liian yksinkertainen malli joka ei hyödynnä aineiston koko signaalia. 

Missä sitten kulkee ylisovittamisen ja alisovittamisen raja?

Sovituksen optimia eli täsmäävimpiä ennusteita antavaa mallia voi hakea yksinkertaisella kikalla: jakamalla aineisto satunnaisesti kahteen osaan, joista yhtä käytetään mallin sovittamiseen ja toista ennusteiden testaamiseen. Toistamalla satunnaisjakoa jokaiselle kilpailevalle mallille voi löytää sen, joka mallintaa yhtäältä mahdollisimman paljon signaalia ja toisaalta mahdollisimman vähän kohinaa. Eli mallin, joka antaa täsmäävimmät ennusteet.

"Kaikesta pitäisi tehdä mahdollisimman yksinkertaista, mutta ei yksinkertaisempaa", kuten Einsteinin nimiin pistetty sanonta kuuluu.

Kommentit (0)

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Peng / Wikimedia Commons

Olen taitava heittämään nopalla kuutosia. Katsokaa vaikka. Oho, tuli kakkonen. Mutta odottakaapas kun heitän sataa noppaa. Tuli 25 kuutosta! Todistaa väitteeni, vai kuinka? Ai et usko. No heitänpä sinun mieliksi vielä tuhat noppaa. Nyt tuli 165 kuutosta! Näin monta kuutosta ei voi epäilevimmänkään mielestä olla enää tuuria.

Lapsikin ymmärtää, miten huijasin. Silti samalla tempulla "todistetaan" milloin mitäkin. Ja temppua kehdataan vielä väittää tieteeksi. Tietenkin kehdataan, koska se menee läpi. Etenkin silloin, kun tempulla todistetaan "tieteellisesti" jotain, jonka ihmiset haluavat kuulla.

Mutta miten ihmeessä nopanheittotemppuni muka vastaa näennäistieteellistä todistamista?

Ensinnäkin kaikkien ilmiöiden luonteeseen kuuluu kohina eli satunnainen vaihtelu. Siksi yksittäinen tutkimus on kuin nopanheitto. Kuutonen tukekoon tutkimusväitettä, ja muut silmäluvut olkoon ristiriidassa sen kanssa. Toisinaan satunnaisvaihtelua on enemmän ja toisinaan vähemmän, mitä kuvaa nopan sivujen vaihteleva määrä.

Toisekseen samasta aiheesta löytyy yleensä paljon aineistoa ja tutkimuksia. Noppaa ei siis heitetä vain kerran, vaan sata tai tuhat kertaa. Aivan kuten tempussanikin.

Sanotaan sitten, että joku haluaa todistaa väitteensä kuten minä todistin taitoni heittää kuutosia. Olkoon väite, että maskit eivät suojaa kulkutaudilta. Poimitaan sadasta aiheeseen liittyvästä tuloksesta 25, jotka puoltavat väitettä, ja viitataan niihin. Ripotellaan mutkistavat yksityiskohdat satasivuiseen raporttiin ja yksinkertaistetaan viesti mediaan sopivaksi: maskit ei suojaa. Yleisö ottaa toivotun totuuden huojentuneena vastaan: "Onneks ei tarvi niitä noloja naamareita pitää. Nythän se on oikein tieteellisestikin todistettu, että suomalaisia ne ei suojaa!" Eikä 25 kuutosta voi olla sattumaa, eihän?

Mitä enemmän tutkimuksia, sitä enemmän vaihtelua. Ja mitä enemmän vaihtelua, sitä varmemmin tuloksista löytyy jokaisen ennakkoluuloille vahvistus.

Tutkimuksiin perehtyminen vahvistaa uskomuksia ja poliittisia erimielisyyksiä, kun ihmiset valikoivat tuloksista vain ne, jotka puoltavat omaa kantaa.

Vaikka jokainen tutkimus itsessään olisi yhtä tieteellinen ja reilu kuin jokainen heittämäni noppa, tulosten valikointi ei ole tiedettä sen enempää kuin kuutosten valikointi todistaa heittotaitoni.

Big dataan eli räjähdysmäisesti kasvaviin jättiaineistoihin suhtaudutaan hyvin toiveikkaasti. Onpa tätä digikehityksen hedelmää esitetty jopa perinteisen tieteellisen tutkimuksen syrjäyttäjäksi. Mutta kohina kasvaa nopeammin kuin signaali: noppavertauksessa big data vastaa ziljardeja heittoja, jolloin myös kuutosten lukumäärä kasvaa kohinalla. Jättiaineistoissa silkka sattuma tuottaa väärien tulosten tulvan, jonka pinnalta jokainen voi poimia mieluisat tulokset. Ja esittää ne omien väitteidensä todisteeksi. 

Big datalle voi esittää loputtomasti kysymyksiä, ja sattuma huolehtii että lopulta löytää myös toivomansa vastauksen.

Ongelman ydin on kivikautiset vaistomme: ne eivät ymmärrä satunnaistamisen ratkaisevaa roolia totuuden etsinnässä. Jos tutkimuskohde sisältää enemmän tietoa kuin pystymme käsittelemään, siitä on poimittava satunnaisotos, johon jokaisella tiedonmurulla on yhtä suuri todennäköisyys päätyä. Rusinoiden poimiminen pullasta ei ole satunnaisotos.

Lannoitteiden vaikutusta viljasatoihin tutkittiin tuloksetta miltei koko 1800-luku, kunnes Ronald Fisher ratkaisi ongelman 1900-luvulla, satunnaistamalla. Satunnaistamisen ratkaiseva merkitys opittiin sen jälkeen kaikilla tieteenaloilla. Mutta savanniapinan aivomme lankeavat yhä uudestaan samaan ei-satunnaisen valikoinnin perisyntiin.

Ratkaisu jättiaineistojen tuottamien väärien tulosten ongelmaankin on siis vanha tuttu. Pitää satunnaistaa. Satunnaistaa. Ja satunnaistaa.

Ainakin jos totuus on tärkeämpää kuin tuntea olevansa oikeassa.

Kommentit (1)

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat