Kirjoitukset avainsanalla p-arvo

Väitteen todennäköisyys riippuu kahdesta tekijästä. Yhtäältä siitä, mitä tiedämme väitteen todenperäisyydestä ennestään. Eli vanhasta näytöstä. Ja toisaalta siitä, miten vahvasti käsillä oleva tutkimusaineisto puoltaa väitettä. Eli uudesta näytöstä.

Huomioi vanha, huomioi uusi. Kuulostaa yksinkertaiselta reseptiltä, mutta kahden tekijän kanssa voi tehdä kahdenlaisia virheitä. Ja molempia tehdään. Ja tärkeissä päätöksissä. Ja paljon. Niin rahassa kuin rakkaudessa.

Voimakas omakohtainen kokemus saa mahdottoman tuntumaan todennäköiseltä eikä kaikkein murskaavinkaan todistusaineisto heilauta tunneperäistä vakaumusta. Kaikki loogiset väitteet voidaan voittaa yksinkertaisesti kieltäytymällä logiikasta, kuten fysiikan nobelisti Steven Weinberg asian veisteli.

Vanhan tiedon laiminlyöntiä kutsutaan sivistyneesti esiintyvyysharhaksi (engl. base rate fallacy), uuden tiedon laiminlyöntiä vahvistusvinoumaksi (engl. confirmation bias). Mutta saa niitä huonomuistisuudeksi ja jääräpäisyydeksikin sanoa.

Suorakulmion pinta-ala on kahden tekijän tulo. Mitataan leveys. Mitataan korkeus. Kerrotaan mittaustulokset keskenään. Ja tadaa! Meillä on pinta-ala. Viisi metriä leveä. Kaksi metriä korkea. Viisi kertaa kaksi on kymmenen. Eli kymmenen neliömetrin pinta-ala.

Kun eri asiat riippuvat samoista tekijöistä, matematiikka sanoo että asiat ovat samoja. Rinkilässä on reikä samalla tavalla kuin kahvikupin korvassa, joten rinkilä on kahvikuppi. Todennäköisyys riippuu kahdesta tekijästä samalla tavalla kuin suorakulmion pinta-ala, joten todennäköisyys on suorakulmion pinta-ala.

Pinta-ala kertoo miten todennäköinen väite on. Pieni pinta-ala tarkoittaa epätodennäköistä ja suuri pinta-ala todennäköistä.

Todistusaineiston uskottavuus on todennäköisyyskulmion korkeus ja ennakkotodennäköisyys kulmion leveys. Väitteen todennäköisyys on uuden näytön uskottavuuden ja ennakkotiedon tulo. Tilastomatematiikassa tulos tunnetaan nimellä Bayesin sääntö.

Ennakkotodennäköisyyteen kiteytyy kaikki se tieto, jota asiasta on ennen uutta tutkimusaineistoa. Aineiston uskottavuus puolestaan mittaa, miten vahvasti väitteen perättömyysolettamaa vastaan uusi näyttö todistaa. Tilastomatematiikassa tätä kutsutaan p-arvoksi.

Huonomuistiset unohtavat kulmion leveyden, jääräpäiset kulmion korkeuden.

Olipa suorakulmio kuinka korkea hyvänsä, pinta-alaa ei tunneta ilman tietoa kulmion leveydestä. Olipa näyttö väitteen eduksi kuinka uskottava hyvänsä, todennäköisyyttä ei tunneta ilman tietoa väitteen ennakkotodennäköisyydestä.

Olipa suorakulmio kuinka leveä hyvänsä, pinta-alaa ei tunneta ilman tietoa kulmion korkeudesta. Olipa väite ennakkoon kuinka uskottava hyvänsä, todennäköisyyttä ei tunneta ilman tietoa käsillä olevan näytön uskottavuudesta.

On olemassa erityisiä suorakulmioita, joiden pinta-ala määräytyy pelkästä leveydestä (tai pelkästä korkeudesta). Näitä erityistapauksia kutsutaan neliöiksi.

Joistain väitteistä ennakkotietoa on niukasti tai se on neutraalia. Tällöin todennäköisyyskulmion voi ajatella likimain neliöksi, jossa pelkkä aineiston uskottavuus määrää arviomme väitteen uskottavuudesta. Ilman vanhaa aineistoa uusi aineisto on kaikki, mitä asiasta tiedämme. Vastaavasti ilman uutta aineistoa vanha aineisto on kaikki, mitä asiasta tiedämme.

Ääritapauksessa väitteen puolesta tai vastaan on hyvin vahvaa ennakkotietoa. Suorakulmio on tällöin erityisen leveä tai erityisen kapea.

Mullistava väite vaatii mullistavaa näyttöä. Tämänkin viisauden voi ymmärtää geometrian avulla: Mullistavan väitteen ennakkotodennäköisyys on hyvin pieni. Todennäköisyyskulmio on silloin hyvin kapea. Ja hyvin kapean suorakulmion pinta-ala voi olla suuri vain, jos se on poikkeuksellisen korkea. Poikkeuksellisen korkea kulmio tarkoittaa poikkeuksellisen vahvaa näyttöä. Eli vain äärimmäisen uskottava uusi aineisto voi vahvistaa äärimmäisen epäuskottavan väitteen.

Miljoonasosan p-arvo riittää todistamaan väitteen, vaikka sen ennakkotodennäköisyys olisi vain tuhannesosa. Mutta liikemäärän säilymislain kaltaisia, lukemattomien havaintojen puoltamia totuuksia ei yksi miljoonasta -tulos hetkauta. Eikä edes yksi miljardista, vaan uuden näytön täytyy painaa vaakakupissa enemmän kuin kaikki vanhat näytöt yhteensä.

Todennäköisyyksien lisäksi on osattava laskea epätodennäköisyyksillä. Kun eteen tulee pelkkiä epätodennäköisiä vaihtoehtoja, on pidettävä pää kylmänä. Silloin vähiten epätodennäköisestä tulee todennäköistä.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Wikimedia Commons

Epäilty on syytön, kunnes toisin todistetaan. Rokote on tehoton, kunnes toisin todistetaan. Kolikko on reilu, kunnes toisin todistetaan. Joulupukkia ei ole, kunnes toisin todistetaan. Usko on väärä, kunnes toisin todistetaan.

Syyttömyysolettama kiteyttää myös tieteen lähtöoletuksen: mitään uutta ei tapahdu missään. Tuomarina toimii todistusaineisto, joka kumoaa tai säilyttää tämän lähtöoletuksen eli nollahypoteesin, kuten tilastomatemaatikot sitä nimittävät.

Tieteellisen päättelyn vastakohta on somepäättely. Somepäättelyssä omat uskomukset ovat tosia ja toisten uskomukset vääriä, vaikka toisin todistetaan. 

Aineiston todistusvoiman määrää se, kuinka epätodennäköiseltä aineisto näyttää syyttömyysolettaman valossa. Haluaisimme tietenkin tietää syyllisen, mutta on helpompi määrittää aineiston epätodennäköisyys kuin syyllisyyden todennäköisyys. Haluaisimme tietää totuuden, mutta todisteiden epätodennäköisyys on helpompi laskea. Se mikä päättelyn mutkikkuudessa hävitään, laskennan helppoudessa voitetaan.

DNA-todisteet, videotallenne, motiivi, savuava ase ja seikkaperäinen tunnustus ovat syyttömyysolettaman valossa hyvin epätodennäköisiä. Ne riittävät kumoamaan syyttömyysolettaman, eli todistavat syyllisyyden, vaikka eivät suoraan kerrokaan sitä mitä eniten haluamme eli syyllisyyden todennäköisyyttä.

Rokkotautien kukistaminen tekee rokotteiden tehottomuusoletuksen epäuskottavaksi. Siispä päättelemme, että rokotteet tehoavat.

Sata peräkkäistä klaavaa tekee kolikon reiluusoletuksen epäuskottavaksi. Siispä päättelemme, että kolikko ei ole reilu.

Tieteessä aineiston todistusvoimaa mittaa p-arvo: mitä pienempi p-arvo, sitä epäuskottavammalta syyttömyysolettama eli nollahypoteesi vaikuttaa. Jos p-arvo = 1/1000, täytyy ostaa keskimäärin tuhat arpaa saadakseen yhtä poikkeuksellisen tuloksen tai yhtä raskauttavat todisteet sattumalta. Vaikka p-arvo on nimenomaan aineiston todennäköisyys (syyttömyysolettamalla), se kertoo siis epäsuorasti myös syyllisyydestä tai syyttömyydestä. Ykköstä lähellä olevat, yli 1/10 p-arvot, eivät horjuta syyttömyysolettamaa tai nollahypoteesia, koska sen suuruisia arvoja syntyy tuon tuostakin silkasta sattumasta kuin yksi oikein -lottorivejä. Tarkkaan ottaen p-arvo on vähintään käsillä olevan aineiston vahvuisten todisteiden todennäköisyys syntyä sattumalta eli sillä oletuksella, että syytetty on syytön, rokote tehoton tai kolikko reilu. Eli vähintään havaitun vahvuisen signaalin todennäköisyys kohinassa: p-arvo = P(signaali|kohina), joka ei kuitenkaan ole kohinan, sattuman tai syyttömyyden todennäköisyys koska ehdollinen todennäköisyys ei ole vaihdannainen.

Määrite vähintään on ratkaisevan tärkeä p-arvon määritelmässä. Selvitetään sen merkitystä tarkastelemalla lähtöoletusta, että tyttöjä ja poikia esiintyy yhtä paljon jossain tutkimuksen kohteena olevassa populaatiossa.

Olkoon aineistonamme populaatiosta kymmenen satunnaisesti arvottua lasta, joista kahdeksan on poikia ja kaksi tyttöjä. Mikä todennäköisyys kuvastaa tämän näytön vahvuutta syyttömyysolettamaa eli sukupuolten tasajakaumaoletusta vastaan?

Kahdeksan pojan todennäköisyys P(8 poikaa kymmenestä lapsesta) on noin 4%, jos molempia sukupuolia esiintyisi yhtä paljon. Tällainen sattuma esiintyy harvemmin kuin kerran kahdestakymmenestä. Havaitun kahdeksan pojan pieni todennäköisyys ei kuitenkaan vielä riitä kumoamaan sukupuolten tasajakaumaoletusta, sillä epätodennäköisyyslaskennassa täytyy laskea mukaan myös kaikkien muiden vähintään yhtä äärimmäisten tai raskauttavien todisteiden todennäköisyydet. Toisin sanoen mukaan on laskettava myös todisteita, joita ei ole edes olemassa!

Vaikka todistusaineistossamme on vain kahdeksan poikaa, todistusaineiston epätodennäköisyyttä mittaavaan p-arvoon lasketaan siis myös yhdeksän ja kymmenen pojan todennäköisyydet. Lisäksi on laskettava kahdeksan, yhdeksän ja kymmenen tytön eli kahden, yhden ja nollan pojan todennäköisyydet, koska nekin ovat sukupuolen tasajakaumaoletuksen näkökulmasta vähintään yhtä äärimmäisiä tuloksia kuin havaittu kahdeksan pojan aineisto.

Oikea p-arvo saadaan siis laskemalla yhteen p-arvo = P(8 poikaa) + P(9 poikaa) + P(10 poikaa) + P(2 poikaa) + P(1 poika) + P(0 poikaa) = 11%, eli huomattavasti enemmän kuin pelkkä kahdeksan pojan todennäköisyys 4%.

Kahdeksan poikaa ei siis olekaan kovin epätodennäköinen aineisto, sillä kerran yhdeksästä saadaan vähintään yhtä äärimmäinen poikkeama tasajakaumasta puhtaasti sattumalta. Ei edes kolme oikein -lottorivin veroinen tulos.

Kuviteltujen todisteiden huomioinen kasvattaa syyttömyysoletuksen todennäköisyyttä, eli raskauttavammat lisätodisteet toimivatkin syytetyn eduksi!

Vakuuttavatko kuvitellut todisteet lakimiehet ja tuomarit? Tuntuuko niiden huomioiminen sinusta suorastaan väärältä? Et ole ainoa, mutta asian hahmottamista helpottaa vielä toisen aineiston tarkastelu.

Olkoon toisena aineistonamme tuhat satunnaisesti arvottua lasta, joista tasan 500 on poikia ja loput 500 tyttöjä. Mikä todennäköisyys nyt kuvastaa tämän näytön vahvuutta syyttömyysolettamaa eli sukupuolten tasajakaumaoletusta vastaan?

Jos ensimmäisen aineiston tapauksessa oikea vastaus olisi ollut havaitun kahdeksan pojan todennäköisyys, niin samalla logiikalla oikean vastauksen tulisi tässä olla havaitun 500 pojan todennäköisyys P(500 poikaa tuhannesta lapsesta) joka on vain 2.5%. Tällainen sattuma esiintyy vain kerran neljästäkymmenestä, jonka perusteella tasajakaumaoletus näyttää hyvin epäuskottavalta. Mutta aineistossahan on täsmälleen yhtä monta poikaa ja tyttöä, joten mitään näyttöä tasajakaumaoletusta vastaan ei edes ole!

Ristiriita poistuu, kun huomioidaan p-arvon määritelmä vähintään yhtä äärimmäinen aineisto: 500 pojan aineistossa ei ole äärimmäisyyttä alkuunkaan, koska tulos ei poikkea tasajakaumasta lainkaan. Niinpä vähintään yhtä äärimmäisiä kuin 500 poikaa ovat kaikki mahdolliset tulokset nollasta tuhanteen poikaan, joiden yhteistodennäköisyys on tietenkin tasan 100% eli p-arvo on täsmälleen 1! Tämä esimerkki vakuuttaa toivottavasti maallikkotuomaritkin siitä, että myös kuvitteelliset todisteet on huomioitava oikeudessa ja tieteessä.

Tieteellinen päättely on epätodennäköisyyslaskentaa. Se tuntuu epäintuitiiviselta, koska päättelyssä on ylimääräinen mutka joka saa aivotkin helposti solmuun. Kun solmun avaa huolellisesti jokaisen tulkinnan kohdalla, epäintuitiivisesta tulee järkeenkäypää.

Kommentit (3)

Lauri Raittio
1/3 | 

Todennäköisyysteorian mahdollistama tilastollinen päättely toimii tosi hienosti niin kauan kuin pysytään noppien, kolikkojen ja pöytäkorttien laskemisessa.

Suurimmassa osassa empiiristä tutkimusta on valtavasti erilaisia systemaattisia harhoja jotka vinouttavat aineistoa siten, ettei nollahypoteesi pidä (juuri) koskaan paikkaansa jos aineisto on riittävän suuri, Systemaattisten harhojen vuoksi havaittu tulos eroaa nollahypoteesista vaikka se olisikin totta.

Nollahypoteesin testaaminen vastaa kysymykseen: kuinka todennäköistä on havaita aineisto jos nollahypoteesi on totta. Mielenkiintoisempi kysymys on puolestaan kuinka todennäköisesti vaihtoehtoinen hypoteesi on totta. Siihen tarvitsisi vaihtoehtoisen hypoteesin ennakkotodennäköisyyden. 

Teppo Mattsson
Liittynyt13.1.2014
Viestejä154
2/3 | 

Tärkeä huomio. Efektikoon luottamusvälin tarkastelu on oleellinen osa tilastollista päättelyä, mistä voisi vaikka julkaista oman kirjoituksen.

Käyttäjä6458
Liittynyt27.2.2018
Viestejä2526
3/3 | 

Ehdottomasti tarvitsevat, kopska he tarvitsevat sieltä joukon käsitteitä, jotka eivä ole (ainakaan pelkkää) fysiikkaa - eivätkä matematiikkaa, kuten syys ja seuraus, määrä ja laatu, sattuma ja välttämättömyys, subjektiivinen ja objektiivinen, mahdollisuus ja todellisuus (aktuaalisuus), sisältö ja muoto, materia ja liike, totuus, todennäköisyys jne.

Kommentit julkaistaan hyväksynnän jälkeen.

Kuva: Steve Jurvetson / Wikimedia Commons

Tutkimuksen julkaisun ratkaisee usein yksi luku. Luku, joka erottelee menestyjät luusereista. Luku, joka kantaa nimeä p-arvo.

Kun p-arvo alittaa maagisen 0.05 rajan, tapahtuu monenlaista kivaa: tuloksesta tulee merkitsevä, tutkimuksesta julkaisu, tutkijasta menestyjä, lääkkeestä tehokas – ja mikä tärkeintä, raha alkaa virrata. Rajan 0.05 yläpuolella tutkimus päätyy pöytälaatikkoon, tutkija kortistoon ja raha onnekkaammille.

P-arvoa vastaavia todennäköisyyksiä on laskettu ainakin 1700-luvulta lähtien. Lontoon syntyvyystilastoja vuosilta 1629-1710 tutkinut John Arbuthnot havaitsi, että kaikkina 82 vuotena poikia oli syntynyt enemmän kuin tyttöjä. Todennäköisyyslaskentaan perustuen hän päätteli, että ero ei voinut olla sattumaa.

P-arvo kertoo todennäköisyyden, jolla satunnaisesta kohinasta syntyy vähintään havaitun vahvuinen signaali. Poikaenemmistön syntyminen 82 peräkkäisenä vuonna puhtaasti sattumalta on yhtä epätodennäköistä kuin heittää 82 klaavaa peräkkäin, eli p = 1/2⁸² < 0.000000000000000000000001. Voidaan siis oikeutetusti päätellä, että ero ei ole sattumaa vaan poikia todella syntyy enemmän kuin tyttöjä.

On järkeenkäypää, että positiivista tulosta arvostetaan enemmän kuin negatiivista. Penisilliinin tehon osoittaminen on tärkeämpää kuin poronsarviuutteen tehottomuuden.

Ongelma syntyy, kun p = 0.05 kaltainen mielivaltainen raja määrää mikä merkitsee ja mikä ei. Ongelma pahenee, kun merkitsevää luullaan merkittäväksi, tilasto-osaaminen on ylipäänsä heikkoa ja kognitiiviset vinoumat ohjaavat tutkimusta. Evoluutio herkisti ihmisen tunnistamaan hahmoja satunnaisuudessa ja erehtymään kohinaa signaaliksi. 

Anna tutkijalle p < 0.05 ja ruokit hänet päiväksi. Opeta tutkijaa kalastamaan p-arvoja ja ruokit hänet loppuelämäksi.

Merkitsevyyden raja p = 0.05 tarkoittaa, että joka 20. arpa voittaa. Big data tarkoittaa, että arpoja riittää. Ja vain voittavat arvat huomataan ja muistetaan.

Eipä ihme, että eräs luotettavimmin toistuvista tutkimustuloksista on, että julkaistuista tuloksista korkeintaan puolet onnistutaan toistamaan.

Tieteelle p-arvojen 0.049 ja 0.051 välinen 0.2 prosenttiyksikön ero on yhtä mitätön kuin tavalliselle tallaajalle 4.9% ja 5.1% välinen ero sateen todennäköisyydessä. Merkitsevän ja ei-merkitsevän ero ei itsessään ole merkitsevä! Silti p = 0.049 kerää kunnian ja p = 0.051 vaipuu unholaan.

Nature julkaisi viime viikolla yli 800 tutkijan allekirjoittaman vetoomuksen, jossa halutaan lopettaa jako merkitseviin ja ei-merkitseviin tuloksiin. "Älä sano tilastollisesti merkitsevä", myötäilee The American Statistician -lehden pääkirjoitus uusimmassa numerossaan, jonka kaikki 43 artikkelia ehdottavat keinoja korvata perinteinen merkitsevyysluokittelu kehittyneemmällä päättelyllä.

Tilastollisen merkitsevyyden vastustamisen on vienyt pisimmälle sosiaalipsykologian lehti Basic and Applied Social Psychology, joka asetti vuonna 2015 ehdottoman kiellon p-arvoille sekä kaikille muillekin merkitsevyyden mitoille. Lehti julkaisee nyt ainoastaan tutkimuksia, joissa ei ole mitään viittauksia tulosten tilastolliseen merkitsevyyteen. Fysiikassa vastaava tarkoittaisi, että esim. Higgsin hiukkasen löydön varmuutta ei saisi julkaista (eli monenko sigman signaali on havaittu). Kiellon jälkeen lehden saamien viittausten määrä on yli kaksinkertaistunut ja päätoimittaja seisoo edelleen päätöksensä takana.

Mielestäni p-arvot eivät ole ongelma. Ongelma on p-arvojen väärinkäyttö ja heikko tilasto-osaaminen. Eikä p-arvon kaltaisten, merkitsevyyttä mittaavien tärkeiden tilastollisten työkalujen kielto korjaa ongelmaa.

Ei ole järkevää kieltää matematiikkaa, koska jotkut käyttävät sitä väärin. Tai lakeja, koska jotkut eivät noudata sääntöjä. Tai nettiä, koska sitä käytetään pahaan.

Parannuksia tietysti tarvitaan: Tutkimuksen julkaiseminen pitäisi olla yhtä helppoa, olipa p-arvo 0.049 tai 0.051. Isoa p-arvoa ei pidä väittää osoitukseksi, että vaikutusta ei ole. Tuloksen merkitsevyyttä ei pidä sekoittaa sen merkittävyyteen. Merkitsevyys tulee ymmärtää jatkumona, eikä p = 0.05 kaltaisen mielivaltaisen rajan pidä kategorisoida tuloksia merkitseviksi ja ei-merkitseviksi. P-arvoa ei pidä sekoittaa siihen käänteiseen todennäköisyyteen, että havaintoaineiston perusteella signaali olisi kohinaa: p = Pr(signaali | kohina) ≠ Pr(kohina | signaali).

Tilastotieteen osaamattomuuteen ei ole helppoa tai nopeaa ratkaisua. On vain vaikea ja hidas ratkaisu. Koulutus. Mutta sillä on eräs verraton etu. Se toimii.

Kommentit (2)

Eusa
Liittynyt16.2.2011
Viestejä21906
1/2 | 

Onkohan yleistä vääristymä, jossa ei käytetä symmetristä kaksisuuntaista koetta, vaikka sille olisi selvä kysyntä?

Esimerkiksi tulkitaan poikien olevan matemaattisesti tyttöjä lahjakkaampia, jos heitä on p-arvolla 4,5% enemmän matemaattisissa onnistujissa tietyn rajan yli, mutta ei huomioida, että vastaavasti heitä voi olla samalla yksisuuntaisella merkitsevyydellä ylisedustus matemaattisissa epäonnistujissa ja kaksisuuntaisen tarkastelun tulos olisikin p-arvolla 9% matemaattisen onnistumisen poikkeavuus tilastollisesti eli ei merkitsevästi. Jos pojilla olisi yliedustus onnistujissa ja epäonnistujissa p-arvolla 2%, osoittautuisi tilastollinen vääristymä todelliseksi p-arvolla 4%,  jos merkitsevyydelle asetetaan tuo 5%. Tuolloin tulkinta olisi se, että poikien matemaattinen lahjakkuus tyttöihin verrattuna on joko huippua tai heikkoa ja voitaisiin jatkotutkia mistä kummasta tuo saattaisi aiheutua.

Vääristyneellä yksisuuntaisella tarkastelulla saatetaan hyvinkin kohdistaa jatkotutkimus varsin epäoleelliseen seikkaan, kun vaihtoehtona olisi osua tavallisen epäoleelliseen seikkaan, joista sentään jokin aina silloin tällöin voi osoittautua hieman oleelliseksikin. Tiedejulkaisemisessa on havaittavissa typerysten kyyhkysparviefektiä - kun yksi säikähtää johonkin suuntaan, muut käännähtävät samaan suuntaan... :D

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

111
Liittynyt11.1.2019
Viestejä3318
2/2 | 

"Tieteelle p-arvojen 0.049 ja 0.051 välinen 0.2 prosenttiyksikön ero on yhtä mitätön kuin tavalliselle tallaajalle 4.9% ja 5.1% välinen ero sateen todennäköisyydessä "

🤔

Ikuista työntävän voiman kierrätystä äärettömässä 3 D avaruudessa joka ei todellakaan laajene tai kaareudu. Laajeneva avaruus on keisari alasti!!!

Kommentit julkaistaan hyväksynnän jälkeen.

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat