Kirjoitukset avainsanalla tilastotiede

Kuva: Wikimedia Commons

Epäilty on syytön, kunnes toisin todistetaan. Rokote on tehoton, kunnes toisin todistetaan. Kolikko on reilu, kunnes toisin todistetaan. Joulupukkia ei ole, kunnes toisin todistetaan. Usko on väärä, kunnes toisin todistetaan.

Syyttömyysolettama kiteyttää myös tieteen lähtöoletuksen: mitään uutta ei tapahdu missään. Tuomarina toimii todistusaineisto, joka kumoaa tai säilyttää tämän lähtöoletuksen eli nollahypoteesin, kuten tilastomatemaatikot sitä nimittävät.

Tieteellisen päättelyn vastakohta on somepäättely. Somepäättelyssä omat uskomukset ovat tosia ja toisten uskomukset vääriä, vaikka toisin todistetaan. 

Aineiston todistusvoiman määrää se, kuinka epätodennäköiseltä aineisto näyttää syyttömyysolettaman valossa. Haluaisimme tietenkin tietää syyllisen, mutta on helpompi määrittää aineiston epätodennäköisyys kuin syyllisyyden todennäköisyys. Haluaisimme tietää totuuden, mutta todisteiden epätodennäköisyys on helpompi laskea. Se mikä päättelyn mutkikkuudessa hävitään, laskennan helppoudessa voitetaan.

DNA-todisteet, videotallenne, motiivi, savuava ase ja seikkaperäinen tunnustus ovat syyttömyysolettaman valossa hyvin epätodennäköisiä. Ne riittävät kumoamaan syyttömyysolettaman, eli todistavat syyllisyyden, vaikka eivät suoraan kerrokaan sitä mitä eniten haluamme eli syyllisyyden todennäköisyyttä.

Rokkotautien kukistaminen tekee rokotteiden tehottomuusoletuksen epäuskottavaksi. Siispä päättelemme, että rokotteet tehoavat.

Sata peräkkäistä klaavaa tekee kolikon reiluusoletuksen epäuskottavaksi. Siispä päättelemme, että kolikko ei ole reilu.

Tieteessä aineiston todistusvoimaa mittaa p-arvo: mitä pienempi p-arvo, sitä epäuskottavammalta syyttömyysolettama eli nollahypoteesi vaikuttaa. Jos p-arvo = 1/1000, täytyy ostaa keskimäärin tuhat arpaa saadakseen yhtä poikkeuksellisen tuloksen tai yhtä raskauttavat todisteet sattumalta. Vaikka p-arvo on nimenomaan aineiston todennäköisyys (syyttömyysolettamalla), se kertoo siis epäsuorasti myös syyllisyydestä tai syyttömyydestä. Ykköstä lähellä olevat, yli 1/10 p-arvot, eivät horjuta syyttömyysolettamaa tai nollahypoteesia, koska sen suuruisia arvoja syntyy tuon tuostakin silkasta sattumasta kuin yksi oikein -lottorivejä. Tarkkaan ottaen p-arvo on vähintään käsillä olevan aineiston vahvuisten todisteiden todennäköisyys syntyä sattumalta eli sillä oletuksella, että syytetty on syytön, rokote tehoton tai kolikko reilu. Eli vähintään havaitun vahvuisen signaalin todennäköisyys kohinassa: p-arvo = P(signaali|kohina), joka ei kuitenkaan ole kohinan, sattuman tai syyttömyyden todennäköisyys koska ehdollinen todennäköisyys ei ole vaihdannainen.

Määrite vähintään on ratkaisevan tärkeä p-arvon määritelmässä. Selvitetään sen merkitystä tarkastelemalla lähtöoletusta, että tyttöjä ja poikia esiintyy yhtä paljon jossain tutkimuksen kohteena olevassa populaatiossa.

Olkoon aineistonamme populaatiosta kymmenen satunnaisesti arvottua lasta, joista kahdeksan on poikia ja kaksi tyttöjä. Mikä todennäköisyys kuvastaa tämän näytön vahvuutta syyttömyysolettamaa eli sukupuolten tasajakaumaoletusta vastaan?

Kahdeksan pojan todennäköisyys P(8 poikaa kymmenestä lapsesta) on noin 4%, jos molempia sukupuolia esiintyisi yhtä paljon. Tällainen sattuma esiintyy harvemmin kuin kerran kahdestakymmenestä. Havaitun kahdeksan pojan pieni todennäköisyys ei kuitenkaan vielä riitä kumoamaan sukupuolten tasajakaumaoletusta, sillä epätodennäköisyyslaskennassa täytyy laskea mukaan myös kaikkien muiden vähintään yhtä äärimmäisten tai raskauttavien todisteiden todennäköisyydet. Toisin sanoen mukaan on laskettava myös todisteita, joita ei ole edes olemassa!

Vaikka todistusaineistossamme on vain kahdeksan poikaa, todistusaineiston epätodennäköisyyttä mittaavaan p-arvoon lasketaan siis myös yhdeksän ja kymmenen pojan todennäköisyydet. Lisäksi on laskettava kahdeksan, yhdeksän ja kymmenen tytön eli kahden, yhden ja nollan pojan todennäköisyydet, koska nekin ovat sukupuolen tasajakaumaoletuksen näkökulmasta vähintään yhtä äärimmäisiä tuloksia kuin havaittu kahdeksan pojan aineisto.

Oikea p-arvo saadaan siis laskemalla yhteen p-arvo = P(8 poikaa) + P(9 poikaa) + P(10 poikaa) + P(2 poikaa) + P(1 poika) + P(0 poikaa) = 11%, eli huomattavasti enemmän kuin pelkkä kahdeksan pojan todennäköisyys 4%.

Kahdeksan poikaa ei siis olekaan kovin epätodennäköinen aineisto, sillä kerran yhdeksästä saadaan vähintään yhtä äärimmäinen poikkeama tasajakaumasta puhtaasti sattumalta. Ei edes kolme oikein -lottorivin veroinen tulos.

Kuviteltujen todisteiden huomioinen kasvattaa syyttömyysoletuksen todennäköisyyttä, eli raskauttavammat lisätodisteet toimivatkin syytetyn eduksi!

Vakuuttavatko kuvitellut todisteet lakimiehet ja tuomarit? Tuntuuko niiden huomioiminen sinusta suorastaan väärältä? Et ole ainoa, mutta asian hahmottamista helpottaa vielä toisen aineiston tarkastelu.

Olkoon toisena aineistonamme tuhat satunnaisesti arvottua lasta, joista tasan 500 on poikia ja loput 500 tyttöjä. Mikä todennäköisyys nyt kuvastaa tämän näytön vahvuutta syyttömyysolettamaa eli sukupuolten tasajakaumaoletusta vastaan?

Jos ensimmäisen aineiston tapauksessa oikea vastaus olisi ollut havaitun kahdeksan pojan todennäköisyys, niin samalla logiikalla oikean vastauksen tulisi tässä olla havaitun 500 pojan todennäköisyys P(500 poikaa tuhannesta lapsesta) joka on vain 2.5%. Tällainen sattuma esiintyy vain kerran neljästäkymmenestä, jonka perusteella tasajakaumaoletus näyttää hyvin epäuskottavalta. Mutta aineistossahan on täsmälleen yhtä monta poikaa ja tyttöä, joten mitään näyttöä tasajakaumaoletusta vastaan ei edes ole!

Ristiriita poistuu, kun huomioidaan p-arvon määritelmä vähintään yhtä äärimmäinen aineisto: 500 pojan aineistossa ei ole äärimmäisyyttä alkuunkaan, koska tulos ei poikkea tasajakaumasta lainkaan. Niinpä vähintään yhtä äärimmäisiä kuin 500 poikaa ovat kaikki mahdolliset tulokset nollasta tuhanteen poikaan, joiden yhteistodennäköisyys on tietenkin tasan 100% eli p-arvo on täsmälleen 1! Tämä esimerkki vakuuttaa toivottavasti maallikkotuomaritkin siitä, että myös kuvitteelliset todisteet on huomioitava oikeudessa ja tieteessä.

Tieteellinen päättely on epätodennäköisyyslaskentaa. Se tuntuu epäintuitiiviselta, koska päättelyssä on ylimääräinen mutka joka saa aivotkin helposti solmuun. Kun solmun avaa huolellisesti jokaisen tulkinnan kohdalla, epäintuitiivisesta tulee järkeenkäypää.

Kommentit (4)

Lauri Raittio
1/4 | 

Todennäköisyysteorian mahdollistama tilastollinen päättely toimii tosi hienosti niin kauan kuin pysytään noppien, kolikkojen ja pöytäkorttien laskemisessa.

Suurimmassa osassa empiiristä tutkimusta on valtavasti erilaisia systemaattisia harhoja jotka vinouttavat aineistoa siten, ettei nollahypoteesi pidä (juuri) koskaan paikkaansa jos aineisto on riittävän suuri, Systemaattisten harhojen vuoksi havaittu tulos eroaa nollahypoteesista vaikka se olisikin totta.

Nollahypoteesin testaaminen vastaa kysymykseen: kuinka todennäköistä on havaita aineisto jos nollahypoteesi on totta. Mielenkiintoisempi kysymys on puolestaan kuinka todennäköisesti vaihtoehtoinen hypoteesi on totta. Siihen tarvitsisi vaihtoehtoisen hypoteesin ennakkotodennäköisyyden. 

Teppo Mattsson
Liittynyt13.1.2014
Viestejä144
2/4 | 

Tärkeä huomio. Efektikoon luottamusvälin tarkastelu on oleellinen osa tilastollista päättelyä, mistä voisi vaikka julkaista oman kirjoituksen.

Käyttäjä6458
Liittynyt27.2.2018
Viestejä1712
4/4 | 

Ehdottomasti tarvitsevat, kopska he tarvitsevat sieltä joukon käsitteitä, jotka eivä ole (ainakaan pelkkää) fysiikkaa - eivätkä matematiikkaa, kuten syys ja seuraus, määrä ja laatu, sattuma ja välttämättömyys, subjektiivinen ja objektiivinen, mahdollisuus ja todellisuus (aktuaalisuus), sisältö ja muoto, materia ja liike, totuus, todennäköisyys jne.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Peter Rufi / Wikimedia Commons

Tarkoittaako enemmän todistusaineistoa vahvempaa näyttöä? Siltähän se tuntuu. Ja myös on, jos uudet todisteet ovat edellisistä riippumattomia.

Enempi ei kuitenkaan aina ole parempi. Todistusaineisto voi nimittäin kasvaa esimerkiksi tuplakirjauksella: sama havainto tilastoidaan kahteen kertaan, enemmän tai vähemmän tahattomasti. Pelkkä aineiston kopiointihan ei voi oikeasti kasvattaa todistusvoimaa. Mutta kaikissa tilanteissa ei ole yhtä selvää, mikä on aidosti riippumaton uusi havainto ja mikä vain vanhan kopio.

Pseudoreplikaatio on nimi, jota tilastotieteessä käytetään näennäisesti riippumattomista havainnoista. Se ei rajoitu pelkkään tuplakirjaukseen, vaan pseudoreplikaation voi aiheuttaa myös saman yksikön mittaaminen useaan kertaan. Joko useasta eri paikasta, useaan eri aikaan tai usealla eri mittarilla.

Ajatellaan esimerkkinä tutkimusta, jossa vertaillaan kahden eri dieetin (A ja B) vaikutusta verensokeriin. Kokeeseen osallistuu 10 henkilöä, joista 5 laitetaan dieetille A ja 5 dieetille B. Montako riippumatonta havaintoa kunkin dieetin vaikutuksesta saadaan? No tietenkin viisi. 

Entä jos jokaisen koehenkilön verensokeri mitataankin sekä vasemman että oikean käden näytteestä? Havaintoja kertyy kustakin dieetistä 2 x 5 = 10. Tai jos kaksi toisistaan riippumatonta tutkijaa ottaa ja analysoi verinäytteet koehenkilöiden molemmista käsistä? Tällöin havaintoja kertyy kustakin dieetistä jo 2 x 2 x 5 = 20. Jos molemmat tutkijat analysoivat näytteet molemmista käsistä vielä erikseen kahdella eri mittarilla, havaintoja kertyy peräti 2 x 2 x 2 x 5 = 40 per dieetti.

Kasvaako todistusvoima näin käsiä, tutkijoita ja mittareita tuplaamalla 8-kertaiseksi? Ei, sillä riippumattomia havaintoja on dieettiä kohden edelleen samat 5. Havaintojen tarkkuus eli todisteiden laatu toki paranee 8 toistomittauksen ansiosta, mutta varsinaista riippumatonta evidenssiä se ei lisää.

Katsausten perusteella jopa puolet laatulehdissä julkaistuista tieteellisistä tutkimuksista saattaa sisältää pseudoreplikaatiota. Suuruusluokka vastaa omia havaintojani ainakin bio- ja ihmistieteiden tutkimuskentillä.

Pseudoreplikaation ongelmana ovat ns. väärät positiiviset: tutkijat raportoivat saaneensa tuloksia tai löytäneensä ilmiöitä, jotka eivät ole todellisia vaan näennäisen toiston aiheuttamaa harhaa. Väärä positiivinen saa dieetin A näyttämään verensokerin kannalta paremmalta kuin dieetti B, vaikka ei olisikaan. Väärä positiivinen huutaa sutta, jota ei ole. Ilmoittaa raskaudesta, jota ei ole. Hälyttää varkaasta, jota ei ole. Kertoo valoa nopeammista hiukkasista, jotka osoittautuvat pelkäksi kohinaksi. Väärä hälytys, kuten arkisesti sanotaan.

Vääriltä positiivisilta ei voi kokonaan välttyä, mutta niitä voi ehkäistä analysoimalla aineistonsa huolella, ilman pseudoreplikaatiota. Jokaisen koehenkilön kahdeksasta verensokerimittauksesta voi laskea keskiarvon, jolloin kunkin koehenkilön verensokerin keskiarvo on riippumaton havainto.

Joku kertoo nähneensä suden juoksemassa lampolasta karitsa hampaissaan. Tästä riippumattomasti joku toinenkin ilmoittaa nähneensä suden juoksemassa lampolasta karitsa hampaissaan. Onko riippumattomia susihavaintoja tällöin kaksi?

Kaksi havaintoa ei selvästikään todista, että susia olisi ollut kaksi. Ne voivat kuitenkin olla yhtä havaintoa vahvempi todiste, että karitsan todella vei susi. Eivät kuitenkaan välttämättä, sillä toistothan eivät suojaa systemaattiselta virheeltä: Karitsan saattoi napata koira, joka näyttää ihmisten mielestä sudelta. Etenkin jos sellaisesta on paikallisuutisissa varoiteltu, jolloin havaintojen tulkinnat eivät olekaan aidosti riippumattomia.

Riippumattomien havaintojen laskeminen on monimutkaista ja monitulkintaista puuhaa.

Otetaan tehtäväksi selvittää kummassa on keskimäärin lämpimämpää, Helsingissä vai Tampereella. Jos 31.8.2020 klo 19:00 Helsingin Kumpulan mittari näyttää 13.2°C ja Tampereen Härmälän mittari 16.7°C, ero voi hyvinkin olla sattumaa, koska riippumattomia havaintopareja on vain yksi eli johtopäätöksen tekemiseen aivan liian vähän. Mutta jo 12 riippumatonta havaintoparia voisi riittää Helsingin ja Tampereen todellisen lämpötilaeron havaitsemiseen satunnaisvaihtelun seasta. Mitataan siis lämpötilat 10 minuutin välein ajalla 19:00 - 20:50, jolloin Kumpulan lämpötilasarja on 13.2, 13.0, 13.1, 13.0, 13.0, 12.9, 13.0, 13.0, 13.0, 13.0, 13.0, 13.0 ja Härmälän vastaavasti 16.7, 16.6, 16.5, 16.3, 16.2, 15.9, 15.8, 15.4, 14.8, 14.6, 14.7, 14.8 celsiusastetta. Näin suuri ero lämpötiloissa syntyy sattumalta harvemmin kuin kerran miljoonasta, joten voidaan luotettavasti päätellä että Härmälässä on lämpimämpää kuin Kumpulassa.

Mutta havainnot todistavat luotettavasti vain, että "Härmälässä on lämpimämpää kuin Kumpulassa" ainoastaan 31.8.2020 klo 19:00 - 20:50 välisenä aikana. Koko vuoden keskiarvojen eroa 12 peräkkäistä lämpötilamittausta 10 minuutin välein ei kerro, koska sarjassa ei ole 12 riippumatonta mittausta koko vuoden lämpötilasta. Siihen tarkoitukseen sarjassa on vain yksi riippumaton mittaus, josta 12 toistoa tekevät toki tarkemman kuin yksi mittaus mutta riippumattomia havaintoja ne eivät lisää sen enempää kuin verensokerin kahdeksan toistomittausta edellä.

Jos Kumpulan ja Härmälän lämpötilat mitattaisiin vuoden 2020 ajan vaikkapa jokaisen kuukauden viimeisenä päivänä, saataisiin 12 aidosti riippumatonta havaintoparia. Tästä voitaisiin päätellä varsin luotettavasti, kummassa paikassa oli vuonna 2020 keskimäärin lämpimämpää. Mutta Kumpulan ja Härmälän pidemmän aikavälin ilmastovertailussa riippumattomia havaintoja olisi yhä vain yksi. Jos mitattaisiin vuoden keskilämpötilat molemmista paikoista 12 eri vuotena, voitaisiin vastaavasti päätellä varsin luotettavasti jo jotain niiden ilmastojen eroavuudesta.

Riippumattomien havaintojen laskeminen on monimutkaista ja monitulkintaista puuhaa.

Montako riippumatonta havaintoa samasta paikasta 10 minuutin välein vuoden ajan mitatussa lämpötilan aikasarjassa sitten on? Siinä pulma, jonka ratkaisun saat esittää kommenttina alle.

Kommentit (1)

Topi__
1/1 | 

"Montako riippumatonta havaintoa samasta paikasta 10 minuutin välein vuoden ajan mitatussa lämpötilan aikasarjassa sitten on? Siinä pulma, jonka ratkaisun saat esittää kommenttina alle."

Nyquistin näytteistysteoreeman

https://fi.wikipedia.org/wiki/Nyquistin_teoreema

perusteella 10 min välein otetuissa näytteissä on peräkkäisten näytteiden osalta riippumatonta informaatiota lämpötilan siltä osalta jonka kaistanleveys on enemmän kuin noin 833 mikrohertsiä.

Kysymyksenasettelu on siltä osin puutteellinen, että se ei kerro millä tarkkuudella mittaukset saadaan tehtyä. Jos jostain syystä nopeahko lämpötilanvaihtelu ylittää amplitudiltaan mittaustarkkuuden, niin jokainen mittaus on tämän taajuuskomponentin tai -kaistan osalta riippumaton.

Kysymyksenasettelu oli myöskin kvalitatiivinen. Kvantitatiivinen tarkistelu antaa enemmän irti:

"Kuinka paljon riippumatonta informaatiota peräkkäisten näytteiden välillä on, kun toimintaympäristö on ..."

Lisäksi riippumattoman informaation määrä pitäisi määritellä....

Kirsikkanan kakussa, jos mittauksessa on mitattavasta lämpötilasta riippumatonta kohinaa, esim shot-noisena elektronisissa piireissä (tällaisen kohinan kaistanleveys on tyypillisesti kilohertsejä tai enemmän), niin jokainen mittaus sisältää informaatiota myöskin tästä kohinasta ja on siltä osin riippumatonta.

Riippumattomuus näkyy siis mittauskaistanleveydessä ja sen tehotiheydessä.

Tehotiheyden yhteys riippumattomuuteen selviää Wiener-Khinchinin teoreeman kautta

https://mathworld.wolfram.com/Wiener-KhinchinTheorem.html

jonka perusteella autokorrelaatiofunktio, joka siis kertoo peräkkäisten näytteiden riippuvuutta/riippumattomuutta, on tehotiheyden (käänteinen) Fourier-muunnos.

Fourier-pareista

http://www.thefouriertransform.com/pairs/fourier.php

voi päätellä että mitä leveämpi tehotiheysspektri, sitä kapeampi on siitä saatu (käänteinen) fourier-muunnos, eli autokorrelaatiofunktio. Eli leveä tehotiheysspektri johtaa väistämättä suurempaan osaan riippumatonta informaatiota peräkkäisten näytteiden välillä.

-Topi

Kuva: Wikimedia Commons

Aineistolähtöisessä tutkimuksessa havainnoista etsitään ilmiöiden välisiä yhteyksiä vailla etukäteen laadittuja ennusteita. Tämän vastakohtana on teorialähtöinen tutkimus, jossa havaintoaineiston avulla testataan kilpailevien teorioiden tai mallien ennusteita.

Ihmistä ja yhteiskuntaa tutkittaessa aineistolähtöisyys on ollut perinteisesti suositumpaa kuin teorialähtöisemmissä fysikaalisissa tieteissä. Tämä johtuu yksinkertaisesti siitä, että ihmisen monimutkaisesta toiminnasta on vaikeampaa luoda toimivia teorioita kuin yksinkertaisemmista fysikaalisista systeemeistä. Säännöllistä planeettaliikettä on helpompi ennustaa kuin mellakoivia ihmisjoukkoja tai wc-paperin kysyntää.

Big data eli jättiaineistot ovat kasvattaneet aineistolähtöisen tutkimuksen kysyntää kaikilla aloilla. Miten muuttaa räjähdysmäisesti kasvavat tietokannat rahaksi, tuskaillaan monissa yrityksissä. Jotain tarttis tehrä, nimittäin jo pelkkä älytekniikan lihottaman datavirran säilyttäminen tulee kalliiksi: kuka klikkasi mitä, montako sekuntia kulki missäkin ja mihin suuntaan ruutuaan pyyhki, on tietoa, joka syö melkoisesti tallennustilaa kun seurattavia käyttäjiä on miljoonia ja jokaiselta kerätään miljoonia muuttujien arvoja.

Aineistolähtöinen tutkimus tuottaa malleja, joiden arvo mitataan siinä miten osuvasti ne ennustavat tulevaisuutta. Tulevaisuuteen kuuluu niin asiakkaiden ostopäätökset, muodin leviäminen, markkinoiden käyttäytyminen kuin mikä hyvänsä ennustamisen (eli rahan) arvoinen tapahtuma.

Eräs aineistolähtöisen mallinnuksen suurimpia syntejä on ylisovittaminen. Ylisovittaminen tarkoittaa, että mallinnetaan satunnaista kohinaa kiinnostavan ilmiön eli signaalin lisäksi. Tai pahimmillaan kokonaan sen sijasta, kuten margariininkulutuksen ja avioerojen tai hukkumisten ja avioliittojen väliset sattumanvaraiset yhteydet osoittavat. Kaikki havainnot sisältävät enemmän tai vähemmän kohinaa, minkä ehdoilla mallinnus on aina tehtävä.

Ylisovittaminen on merkki siitä, että on luotu liian monimutkainen malli.

Jos aineistossa on sata riippumatonta havaintoa, niin sadasta vapaasta parametrista koostuva malli saadaan aina sovitettua aineistoon täydellisesti. Aivan kuten sadasta pisteestä koostuva lasten askartelutehtäväkin ratkeaa yhdistämällä pisteet sadalla viivalla.

"Neljällä parametrilla sovitan aineistoon norsun, ja viidennellä saan sen heiluttamaan kärsäänsä" kiteytti matemaatikko John von Neumann ylisovittamisen idean lennokkaasti.

Menneisyyteen täydellisesti sovitettu monimutkainen malli ennustaa tulevaisuutta huonommin kuin yksinkertaisempi malli, koska mallinnettu satunnaisvaihtelu on ainutkertaista eikä siten toistu tulevaisuudessa enää samanlaisena. 

Signaali pysyy, mutta kohina vaihtelee, joten parhaat ennusteet saadaan mallista joka tavoittaa signaalin muttei myötäile kohinaa.

Ylisovittamisen vastakohtana vaanii alisovittaminen, eli liian yksinkertainen malli joka ei hyödynnä aineiston koko signaalia. 

Missä sitten kulkee ylisovittamisen ja alisovittamisen raja?

Sovituksen optimia eli täsmäävimpiä ennusteita antavaa mallia voi hakea yksinkertaisella kikalla: jakamalla aineisto satunnaisesti kahteen osaan, joista yhtä käytetään mallin sovittamiseen ja toista ennusteiden testaamiseen. Toistamalla satunnaisjakoa jokaiselle kilpailevalle mallille voi löytää sen, joka mallintaa yhtäältä mahdollisimman paljon signaalia ja toisaalta mahdollisimman vähän kohinaa. Eli mallin, joka antaa täsmäävimmät ennusteet.

"Kaikesta pitäisi tehdä mahdollisimman yksinkertaista, mutta ei yksinkertaisempaa", kuten Einsteinin nimiin pistetty sanonta kuuluu.

Kommentit (0)

Kuva: Peng / Wikimedia Commons

Olen taitava heittämään nopalla kuutosia. Katsokaa vaikka. Oho, tuli kakkonen. Mutta odottakaapas kun heitän sataa noppaa. Tuli 25 kuutosta! Todistaa väitteeni, vai kuinka? Ai et usko. No heitänpä sinun mieliksi vielä tuhat noppaa. Nyt tuli 165 kuutosta! Näin monta kuutosta ei voi epäilevimmänkään mielestä olla enää tuuria.

Lapsikin ymmärtää, miten huijasin. Silti samalla tempulla "todistetaan" milloin mitäkin. Ja temppua kehdataan vielä väittää tieteeksi. Tietenkin kehdataan, koska se menee läpi. Etenkin silloin, kun tempulla todistetaan "tieteellisesti" jotain, jonka ihmiset haluavat kuulla.

Mutta miten ihmeessä nopanheittotemppuni muka vastaa näennäistieteellistä todistamista?

Ensinnäkin kaikkien ilmiöiden luonteeseen kuuluu kohina eli satunnainen vaihtelu. Siksi yksittäinen tutkimus on kuin nopanheitto. Kuutonen tukekoon tutkimusväitettä, ja muut silmäluvut olkoon ristiriidassa sen kanssa. Toisinaan satunnaisvaihtelua on enemmän ja toisinaan vähemmän, mitä kuvaa nopan sivujen vaihteleva määrä.

Toisekseen samasta aiheesta löytyy yleensä paljon aineistoa ja tutkimuksia. Noppaa ei siis heitetä vain kerran, vaan sata tai tuhat kertaa. Aivan kuten tempussanikin.

Sanotaan sitten, että joku haluaa todistaa väitteensä kuten minä todistin taitoni heittää kuutosia. Olkoon väite, että maskit eivät suojaa kulkutaudilta. Poimitaan sadasta aiheeseen liittyvästä tuloksesta 25, jotka puoltavat väitettä, ja viitataan niihin. Ripotellaan mutkistavat yksityiskohdat satasivuiseen raporttiin ja yksinkertaistetaan viesti mediaan sopivaksi: maskit ei suojaa. Yleisö ottaa toivotun totuuden huojentuneena vastaan: "Onneks ei tarvi niitä noloja naamareita pitää. Nythän se on oikein tieteellisestikin todistettu, että suomalaisia ne ei suojaa!" Eikä 25 kuutosta voi olla sattumaa, eihän?

Mitä enemmän tutkimuksia, sitä enemmän vaihtelua. Ja mitä enemmän vaihtelua, sitä varmemmin tuloksista löytyy jokaisen ennakkoluuloille vahvistus.

Tutkimuksiin perehtyminen vahvistaa uskomuksia ja poliittisia erimielisyyksiä, kun ihmiset valikoivat tuloksista vain ne, jotka puoltavat omaa kantaa.

Vaikka jokainen tutkimus itsessään olisi yhtä tieteellinen ja reilu kuin jokainen heittämäni noppa, tulosten valikointi ei ole tiedettä sen enempää kuin kuutosten valikointi todistaa heittotaitoni.

Big dataan eli räjähdysmäisesti kasvaviin jättiaineistoihin suhtaudutaan hyvin toiveikkaasti. Onpa tätä digikehityksen hedelmää esitetty jopa perinteisen tieteellisen tutkimuksen syrjäyttäjäksi. Mutta kohina kasvaa nopeammin kuin signaali: noppavertauksessa big data vastaa ziljardeja heittoja, jolloin myös kuutosten lukumäärä kasvaa kohinalla. Jättiaineistoissa silkka sattuma tuottaa väärien tulosten tulvan, jonka pinnalta jokainen voi poimia mieluisat tulokset. Ja esittää ne omien väitteidensä todisteeksi. 

Big datalle voi esittää loputtomasti kysymyksiä, ja sattuma huolehtii että lopulta löytää myös toivomansa vastauksen.

Ongelman ydin on kivikautiset vaistomme: ne eivät ymmärrä satunnaistamisen ratkaisevaa roolia totuuden etsinnässä. Jos tutkimuskohde sisältää enemmän tietoa kuin pystymme käsittelemään, siitä on poimittava satunnaisotos, johon jokaisella tiedonmurulla on yhtä suuri todennäköisyys päätyä. Rusinoiden poimiminen pullasta ei ole satunnaisotos.

Lannoitteiden vaikutusta viljasatoihin tutkittiin tuloksetta miltei koko 1800-luku, kunnes Ronald Fisher ratkaisi ongelman 1900-luvulla, satunnaistamalla. Satunnaistamisen ratkaiseva merkitys opittiin sen jälkeen kaikilla tieteenaloilla. Mutta savanniapinan aivomme lankeavat yhä uudestaan samaan ei-satunnaisen valikoinnin perisyntiin.

Ratkaisu jättiaineistojen tuottamien väärien tulosten ongelmaankin on siis vanha tuttu. Pitää satunnaistaa. Satunnaistaa. Ja satunnaistaa.

Ainakin jos totuus on tärkeämpää kuin tuntea olevansa oikeassa.

Kommentit (1)

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat