Kuva: Wikimedia Commons

Kuinka usein sataa, kun taivaalla on pilviä? Ehkä vain joka kolmas päivä, sillä poutapilvet ovet yleisempiä kuin sadepilvet.

Kuinka usein taivaalla on pilviä, kun sataa? Aina, sillä sade vaatii pilven, josta vesi putoaa. Aina sadepilveä ei näe, mutta ei sadetta ilman vettä eli pilveä.

Sateen todennäköisyys pilvisellä säällä P(sade|pilviä) ei siis ole lainkaan sama kuin pilvien todennäköisyys sadesäällä P(pilviä|sade). P(sade|pilviä) ≠ P(pilviä|sade) yhtä varmasti kuin 1/3 ≠ 1.

Olemme tottuneet laskemaan asioita haluamassamme järjestyksessä. Onhan 1 + 2 yhtä kuin 2 + 1 eli A + B = B + A. Joskus laskujärjestyksellä on kuitenkin väliä. Esimerkiksi todennäköisyyslaskennassa. 

Matemaatikko ilmaisee asian sanomalla, että ehdollinen todennäköisyys ei ole vaihdannainen: P(A|B) ≠ P(B|A) eli A:n todennäköisyys ehdolla B ei ole sama kuin B:n todennäköisyys ehdolla A. Sateen todennäköisyys ehdolla pilvet ei ole sama kuin pilvien todennäköisyys ehdolla sade.

Pilvien ja sateen todennäköisyyden eron ymmärtää jokainen. Mutta kun tunteet tulevat peliin, ajattelumme alkaa tehdä pahamaineisia tepposiaan. Herkkä aihe, ja pim, järkeväkin ihminen taantuu alkukantaiseen uskoon, että P(A|B) = P(B|A).

Selittämättömistä vaivoista kärsivä alkaa etsiä syitä vaivoilleen. Google kertoo, että juuri tuossa vakavassa sairaudessa on kaikki samat vaivat. Apua, minulla on kuolemantauti! Ahdistuksen ja pelon vallassa tuntuu, että johtopäätös on varma kuin tauti.

Mikä meni päättelyssä vikaan?

Mikäs muukaan kuin ehdollinen todennäköisyys. Tolkuissaan oleva ystävä rauhoittelee: P(kuolemantauti|vaivat) ≠ P(vaivat|kuolemantauti) eli kuolemantaudin todennäköisyys, kun on vaivat, ei ole lainkaan sama asia kuin vaivojen todennäköisyys kun on kuolemantauti. Google kertoi aivan oikein, että ne joilla on kuolemantauti, kärsivät varmasti vaivoista. Tästä ahdistunut googlaaja teki virhepäätelmän, että ne joilla on vaivat, on varmasti kuolemantauti.

Taudin todennäköisyys P(kuolemantauti|vaivat) eroaa vaivojen todennäköisyydestä P(vaivat|kuolemantauti) paljon, koska kuolemantauti on harvinainen mutta vaivat yleisiä. Eli on paljon ihmisiä, jotka kärsivät samoista vaivoista, mutta joilla ei ole kuolemantautia vaan vaivoihin on jokin vaarattomampi syy.

Harvinaisten tautien väestötason seulontakin säikyttelee terveitä väärillä hälytyksillä samasta syystä.

Otetaan tautiseula, jonka tarkkuus ja herkkyys on 99%. Testataan seulalla tautia, jota esiintyy seulotussa väestössä joka tuhannella. Mikä on todennäköisyys, että positiivisen testituloksen saaneella on tauti?

Vastaukset saadaan suoraan Bayesin kaavasta: Positiivisen testituloksen saaneista vain 9% on seulottava tauti. Eli jokaista seulaan jäänyttä sairasta kohti on yli yhdeksän tervettä, jotka säikähtävät väärää hälytystä (ja pahimmassa tapauksessa joutuvat kärsimään tarpeettoman hoidon haitoista). 

Sovelletaan samaa seulaa vielä erityiseen riskiryhmään, jossa tauti esiintyy joka kymmenennellä. Nyt Bayesin kaava kertoo, että hälyttävän tuloksen saaneista 92% ovat oikeastikin sairaita. Testin positiiviseen tulokseen voi siis luottaa, kunhan se kohdennetaan yleisväestön sijasta oikeille riskiryhmille. 

Mitä harvemmin esiintyvästä asiasta kyse, sitä useammin ehdollisen todennäköisyyden sekoittaminen johtaa vääriin hälytyksiin. Ja mullistavat löydökset, jos mitkä, ovat harvinaisia niin tieteessä kuin missä hyvänsä tutkimuksessa.

Poikkeuksellinen löydös vaatii tuekseen poikkeuksellista näyttöä, jotta ei synny vääriä hälytyksiä ja kohua kohinasta.

Havainnot on vielä tärkeää erotella yllätyslöydöksiin, joista ei ole mitään etukäteistietoa, ja vankkojen teorioiden toteutuneisiin ennusteisiin. Esimerkiksi Higgsin hiukkasesta ei tarvita niin vahvaa kokeellista näyttöä kuin jos vastaava havainto olisi tehty ilman teoreettista ennustetta hiukkasen olemassaolosta.

Jättiläismäinen aineisto, josta sokeasti pengotaan ziljoonia asioita ilman mitään teoreettista ennustetta, tuottaa löydöksiä jotka ovat harvinaisempia kuin yksi ziljoonasta. Mutta monet niistäkin ovat vain satunnaista kohinaa vailla taustalla olevaa aitoa ilmiötä. Samalla tavalla kuin joku voittaa aina lotossakin vailla tietoa oikeista numeroista.

Tutkimustuloksille voi laskea ns. p-arvon, jonka käänteisluku kertoo kuinka monta arpaa pitäisi keskimäärin ostaa, että saisi yhtä poikkeuksellisen tuloksen sattumalta. Jos aineistolähtöisessä tutkimuksessa on tehty enemmän testejä kuin niiden pienimmän p-arvon käänteisluku, väärien hälytysten riski on huomattava.

Tutkimusten p-arvotkin ymmärretään erittäin usein jopa ammattitutkijoiden parissa väärin. P-arvo kertoo todennäköisyyden, jolla vähintään havaitun vahvuinen signaali syntyy satunnaisesta kohinasta p = P(signaali|kohina). Tämä ei siis ole todennäköisyys, että havaittu signaali olisi satunnaista kohinaa eli havainto sattumaa, sillä kuten olemme oppineet P(signaali|kohina) ≠ P(kohina|signaali) eli P(havainto|sattuma) ≠ P(sattuma|havainto).

Jokainen todennäköisyys on pohjimmiltaan ehdollinen todennäköisyys, vähimmäisehtona ainakin luonnonlait. Ehdollisen todennäköisyyden sekoittamisessa on siis kyse yleisestä ongelmasta, joka esiintyy kaikkialla missä esiintyy todennäköisyyksiä. Eli kaikkialla.

Koneet voidaan ohjelmoida välttämään tunteisiin sortuvan ihmisen virheitä, mutta omalta osaltamme ehdollisen todennäköisyyden ongelmaan auttaa vain se sama lääke kuin muihinkin inhimillisen päättelyn vinoumiin. Eli vanha tuttu sivistys.

Kommentit (2)

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat