Kuva: Peter Rufi / Wikimedia Commons

Tarkoittaako enemmän todistusaineistoa vahvempaa näyttöä? Siltähän se tuntuu. Ja myös on, jos uudet todisteet ovat edellisistä riippumattomia.

Enempi ei kuitenkaan aina ole parempi. Todistusaineisto voi nimittäin kasvaa esimerkiksi tuplakirjauksella: sama havainto tilastoidaan kahteen kertaan, enemmän tai vähemmän tahattomasti. Pelkkä aineiston kopiointihan ei voi oikeasti kasvattaa todistusvoimaa. Mutta kaikissa tilanteissa ei ole yhtä selvää, mikä on aidosti riippumaton uusi havainto ja mikä vain vanhan kopio.

Pseudoreplikaatio on nimi, jota tilastotieteessä käytetään näennäisesti riippumattomista havainnoista. Se ei rajoitu pelkkään tuplakirjaukseen, vaan pseudoreplikaation voi aiheuttaa myös saman yksikön mittaaminen useaan kertaan. Joko useasta eri paikasta, useaan eri aikaan tai usealla eri mittarilla.

Ajatellaan esimerkkinä tutkimusta, jossa vertaillaan kahden eri dieetin (A ja B) vaikutusta verensokeriin. Kokeeseen osallistuu 10 henkilöä, joista 5 laitetaan dieetille A ja 5 dieetille B. Montako riippumatonta havaintoa kunkin dieetin vaikutuksesta saadaan? No tietenkin viisi. 

Entä jos jokaisen koehenkilön verensokeri mitataankin sekä vasemman että oikean käden näytteestä? Havaintoja kertyy kustakin dieetistä 2 x 5 = 10. Tai jos kaksi toisistaan riippumatonta tutkijaa ottaa ja analysoi verinäytteet koehenkilöiden molemmista käsistä? Tällöin havaintoja kertyy kustakin dieetistä jo 2 x 2 x 5 = 20. Jos molemmat tutkijat analysoivat näytteet molemmista käsistä vielä erikseen kahdella eri mittarilla, havaintoja kertyy peräti 2 x 2 x 2 x 5 = 40 per dieetti.

Kasvaako todistusvoima näin käsiä, tutkijoita ja mittareita tuplaamalla 8-kertaiseksi? Ei, sillä riippumattomia havaintoja on dieettiä kohden edelleen samat 5. Havaintojen tarkkuus eli todisteiden laatu toki paranee 8 toistomittauksen ansiosta, mutta varsinaista riippumatonta evidenssiä se ei lisää.

Katsausten perusteella jopa puolet laatulehdissä julkaistuista tieteellisistä tutkimuksista saattaa sisältää pseudoreplikaatiota. Suuruusluokka vastaa omia havaintojani ainakin bio- ja ihmistieteiden tutkimuskentillä.

Pseudoreplikaation ongelmana ovat ns. väärät positiiviset: tutkijat raportoivat saaneensa tuloksia tai löytäneensä ilmiöitä, jotka eivät ole todellisia vaan näennäisen toiston aiheuttamaa harhaa. Väärä positiivinen saa dieetin A näyttämään verensokerin kannalta paremmalta kuin dieetti B, vaikka ei olisikaan. Väärä positiivinen huutaa sutta, jota ei ole. Ilmoittaa raskaudesta, jota ei ole. Hälyttää varkaasta, jota ei ole. Kertoo valoa nopeammista hiukkasista, jotka osoittautuvat pelkäksi kohinaksi. Väärä hälytys, kuten arkisesti sanotaan.

Vääriltä positiivisilta ei voi kokonaan välttyä, mutta niitä voi ehkäistä analysoimalla aineistonsa huolella, ilman pseudoreplikaatiota. Jokaisen koehenkilön kahdeksasta verensokerimittauksesta voi laskea keskiarvon, jolloin kunkin koehenkilön verensokerin keskiarvo on riippumaton havainto.

Joku kertoo nähneensä suden juoksemassa lampolasta karitsa hampaissaan. Tästä riippumattomasti joku toinenkin ilmoittaa nähneensä suden juoksemassa lampolasta karitsa hampaissaan. Onko riippumattomia susihavaintoja tällöin kaksi?

Kaksi havaintoa ei selvästikään todista, että susia olisi ollut kaksi. Ne voivat kuitenkin olla yhtä havaintoa vahvempi todiste, että karitsan todella vei susi. Eivät kuitenkaan välttämättä, sillä toistothan eivät suojaa systemaattiselta virheeltä: Karitsan saattoi napata koira, joka näyttää ihmisten mielestä sudelta. Etenkin jos sellaisesta on paikallisuutisissa varoiteltu, jolloin havaintojen tulkinnat eivät olekaan aidosti riippumattomia.

Riippumattomien havaintojen laskeminen on monimutkaista ja monitulkintaista puuhaa.

Otetaan tehtäväksi selvittää kummassa on keskimäärin lämpimämpää, Helsingissä vai Tampereella. Jos 31.8.2020 klo 19:00 Helsingin Kumpulan mittari näyttää 13.2°C ja Tampereen Härmälän mittari 16.7°C, ero voi hyvinkin olla sattumaa, koska riippumattomia havaintopareja on vain yksi eli johtopäätöksen tekemiseen aivan liian vähän. Mutta jo 12 riippumatonta havaintoparia voisi riittää Helsingin ja Tampereen todellisen lämpötilaeron havaitsemiseen satunnaisvaihtelun seasta. Mitataan siis lämpötilat 10 minuutin välein ajalla 19:00 - 20:50, jolloin Kumpulan lämpötilasarja on 13.2, 13.0, 13.1, 13.0, 13.0, 12.9, 13.0, 13.0, 13.0, 13.0, 13.0, 13.0 ja Härmälän vastaavasti 16.7, 16.6, 16.5, 16.3, 16.2, 15.9, 15.8, 15.4, 14.8, 14.6, 14.7, 14.8 celsiusastetta. Näin suuri ero lämpötiloissa syntyy sattumalta harvemmin kuin kerran miljoonasta, joten voidaan luotettavasti päätellä että Härmälässä on lämpimämpää kuin Kumpulassa.

Mutta havainnot todistavat luotettavasti vain, että "Härmälässä on lämpimämpää kuin Kumpulassa" ainoastaan 31.8.2020 klo 19:00 - 20:50 välisenä aikana. Koko vuoden keskiarvojen eroa 12 peräkkäistä lämpötilamittausta 10 minuutin välein ei kerro, koska sarjassa ei ole 12 riippumatonta mittausta koko vuoden lämpötilasta. Siihen tarkoitukseen sarjassa on vain yksi riippumaton mittaus, josta 12 toistoa tekevät toki tarkemman kuin yksi mittaus mutta riippumattomia havaintoja ne eivät lisää sen enempää kuin verensokerin kahdeksan toistomittausta edellä.

Jos Kumpulan ja Härmälän lämpötilat mitattaisiin vuoden 2020 ajan vaikkapa jokaisen kuukauden viimeisenä päivänä, saataisiin 12 aidosti riippumatonta havaintoparia. Tästä voitaisiin päätellä varsin luotettavasti, kummassa paikassa oli vuonna 2020 keskimäärin lämpimämpää. Mutta Kumpulan ja Härmälän pidemmän aikavälin ilmastovertailussa riippumattomia havaintoja olisi yhä vain yksi. Jos mitattaisiin vuoden keskilämpötilat molemmista paikoista 12 eri vuotena, voitaisiin vastaavasti päätellä varsin luotettavasti jo jotain niiden ilmastojen eroavuudesta.

Riippumattomien havaintojen laskeminen on monimutkaista ja monitulkintaista puuhaa.

Montako riippumatonta havaintoa samasta paikasta 10 minuutin välein vuoden ajan mitatussa lämpötilan aikasarjassa sitten on? Siinä pulma, jonka ratkaisun saat esittää kommenttina alle.

Kommentit (2)

Topi__
3/2 | 

"Montako riippumatonta havaintoa samasta paikasta 10 minuutin välein vuoden ajan mitatussa lämpötilan aikasarjassa sitten on? Siinä pulma, jonka ratkaisun saat esittää kommenttina alle."

Nyquistin näytteistysteoreeman

https://fi.wikipedia.org/wiki/Nyquistin_teoreema

perusteella 10 min välein otetuissa näytteissä on peräkkäisten näytteiden osalta riippumatonta informaatiota lämpötilan siltä osalta jonka kaistanleveys on enemmän kuin noin 833 mikrohertsiä.

Kysymyksenasettelu on siltä osin puutteellinen, että se ei kerro millä tarkkuudella mittaukset saadaan tehtyä. Jos jostain syystä nopeahko lämpötilanvaihtelu ylittää amplitudiltaan mittaustarkkuuden, niin jokainen mittaus on tämän taajuuskomponentin tai -kaistan osalta riippumaton.

Kysymyksenasettelu oli myöskin kvalitatiivinen. Kvantitatiivinen tarkistelu antaa enemmän irti:

"Kuinka paljon riippumatonta informaatiota peräkkäisten näytteiden välillä on, kun toimintaympäristö on ..."

Lisäksi riippumattoman informaation määrä pitäisi määritellä....

Kirsikkanan kakussa, jos mittauksessa on mitattavasta lämpötilasta riippumatonta kohinaa, esim shot-noisena elektronisissa piireissä (tällaisen kohinan kaistanleveys on tyypillisesti kilohertsejä tai enemmän), niin jokainen mittaus sisältää informaatiota myöskin tästä kohinasta ja on siltä osin riippumatonta.

Riippumattomuus näkyy siis mittauskaistanleveydessä ja sen tehotiheydessä.

Tehotiheyden yhteys riippumattomuuteen selviää Wiener-Khinchinin teoreeman kautta

https://mathworld.wolfram.com/Wiener-KhinchinTheorem.html

jonka perusteella autokorrelaatiofunktio, joka siis kertoo peräkkäisten näytteiden riippuvuutta/riippumattomuutta, on tehotiheyden (käänteinen) Fourier-muunnos.

Fourier-pareista

http://www.thefouriertransform.com/pairs/fourier.php

voi päätellä että mitä leveämpi tehotiheysspektri, sitä kapeampi on siitä saatu (käänteinen) fourier-muunnos, eli autokorrelaatiofunktio. Eli leveä tehotiheysspektri johtaa väistämättä suurempaan osaan riippumatonta informaatiota peräkkäisten näytteiden välillä.

-Topi

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat