Kirjoitukset avainsanalla p-arvo

Kuva: Steve Jurvetson / Wikimedia Commons

Tutkimuksen julkaisun ratkaisee usein yksi luku. Luku, joka erottelee menestyjät luusereista. Luku, joka kantaa nimeä p-arvo.

Kun p-arvo alittaa maagisen 0.05 rajan, tapahtuu monenlaista kivaa: tuloksesta tulee merkitsevä, tutkimuksesta julkaisu, tutkijasta menestyjä, lääkkeestä tehokas – ja mikä tärkeintä, raha alkaa virrata. Rajan 0.05 yläpuolella tutkimus päätyy pöytälaatikkoon, tutkija kortistoon ja raha onnekkaammille.

P-arvoa vastaavia todennäköisyyksiä on laskettu ainakin 1700-luvulta lähtien. Lontoon syntyvyystilastoja vuosilta 1629-1710 tutkinut John Arbuthnot havaitsi, että kaikkina 82 vuotena poikia oli syntynyt enemmän kuin tyttöjä. Todennäköisyyslaskentaan perustuen hän päätteli, että ero ei voinut olla sattumaa.

P-arvo kertoo todennäköisyyden, jolla satunnaisesta kohinasta syntyy vähintään havaitun vahvuinen signaali. Poikaenemmistön syntyminen 82 peräkkäisenä vuonna puhtaasti sattumalta on yhtä epätodennäköistä kuin heittää 82 klaavaa peräkkäin, eli p = 1/2⁸² < 0.000000000000000000000001. Voidaan siis oikeutetusti päätellä, että ero ei ole sattumaa vaan poikia todella syntyy enemmän kuin tyttöjä.

On järkeenkäypää, että positiivista tulosta arvostetaan enemmän kuin negatiivista. Penisilliinin tehon osoittaminen on tärkeämpää kuin poronsarviuutteen tehottomuuden.

Ongelma syntyy, kun p = 0.05 kaltainen mielivaltainen raja määrää mikä merkitsee ja mikä ei. Ongelma pahenee, kun merkitsevää luullaan merkittäväksi, tilasto-osaaminen on ylipäänsä heikkoa ja kognitiiviset vinoumat ohjaavat tutkimusta. Evoluutio herkisti ihmisen tunnistamaan hahmoja satunnaisuudessa ja erehtymään kohinaa signaaliksi. 

Anna tutkijalle p < 0.05 ja ruokit hänet päiväksi. Opeta tutkijaa kalastamaan p-arvoja ja ruokit hänet loppuelämäksi.

Merkitsevyyden raja p = 0.05 tarkoittaa, että joka 20. arpa voittaa. Big data tarkoittaa, että arpoja riittää. Ja vain voittavat arvat huomataan ja muistetaan.

Eipä ihme, että eräs luotettavimmin toistuvista tutkimustuloksista on, että julkaistuista tuloksista korkeintaan puolet onnistutaan toistamaan.

Tieteelle p-arvojen 0.049 ja 0.051 välinen 0.2 prosenttiyksikön ero on yhtä mitätön kuin tavalliselle tallaajalle 4.9% ja 5.1% välinen ero sateen todennäköisyydessä. Merkitsevän ja ei-merkitsevän ero ei itsessään ole merkitsevä! Silti p = 0.049 kerää kunnian ja p = 0.051 vaipuu unholaan.

Nature julkaisi viime viikolla yli 800 tutkijan allekirjoittaman vetoomuksen, jossa halutaan lopettaa jako merkitseviin ja ei-merkitseviin tuloksiin. "Älä sano tilastollisesti merkitsevä", myötäilee The American Statistician -lehden pääkirjoitus uusimmassa numerossaan, jonka kaikki 43 artikkelia ehdottavat keinoja korvata perinteinen merkitsevyysluokittelu kehittyneemmällä päättelyllä.

Tilastollisen merkitsevyyden vastustamisen on vienyt pisimmälle sosiaalipsykologian lehti Basic and Applied Social Psychology, joka asetti vuonna 2015 ehdottoman kiellon p-arvoille sekä kaikille muillekin merkitsevyyden mitoille. Lehti julkaisee nyt ainoastaan tutkimuksia, joissa ei ole mitään viittauksia tulosten tilastolliseen merkitsevyyteen. Fysiikassa vastaava tarkoittaisi, että esim. Higgsin hiukkasen löydön varmuutta ei saisi julkaista (eli monenko sigman signaali on havaittu). Kiellon jälkeen lehden saamien viittausten määrä on yli kaksinkertaistunut ja päätoimittaja seisoo edelleen päätöksensä takana.

Mielestäni p-arvot eivät ole ongelma. Ongelma on p-arvojen väärinkäyttö ja heikko tilasto-osaaminen. Eikä p-arvon kaltaisten, merkitsevyyttä mittaavien tärkeiden tilastollisten työkalujen kielto korjaa ongelmaa.

Ei ole järkevää kieltää matematiikkaa, koska jotkut käyttävät sitä väärin. Tai lakeja, koska jotkut eivät noudata sääntöjä. Tai nettiä, koska sitä käytetään pahaan.

Parannuksia tietysti tarvitaan: Tutkimuksen julkaiseminen pitäisi olla yhtä helppoa, olipa p-arvo 0.049 tai 0.051. Isoa p-arvoa ei pidä väittää osoitukseksi, että vaikutusta ei ole. Tuloksen merkitsevyyttä ei pidä sekoittaa sen merkittävyyteen. Merkitsevyys tulee ymmärtää jatkumona, eikä p = 0.05 kaltaisen mielivaltaisen rajan pidä kategorisoida tuloksia merkitseviksi ja ei-merkitseviksi. P-arvoa ei pidä sekoittaa siihen käänteiseen todennäköisyyteen, että havaintoaineiston perusteella signaali olisi kohinaa: p = Pr(signaali | kohina) ≠ Pr(kohina | signaali).

Tilastotieteen osaamattomuuteen ei ole helppoa tai nopeaa ratkaisua. On vain vaikea ja hidas ratkaisu. Koulutus. Mutta sillä on eräs verraton etu. Se toimii.

Sisältö jatkuu mainoksen alla

Kommentit (2)

Eusa
Liittynyt16.2.2011
Viestejä16948
1/2 | 

Onkohan yleistä vääristymä, jossa ei käytetä symmetristä kaksisuuntaista koetta, vaikka sille olisi selvä kysyntä?

Esimerkiksi tulkitaan poikien olevan matemaattisesti tyttöjä lahjakkaampia, jos heitä on p-arvolla 4,5% enemmän matemaattisissa onnistujissa tietyn rajan yli, mutta ei huomioida, että vastaavasti heitä voi olla samalla yksisuuntaisella merkitsevyydellä ylisedustus matemaattisissa epäonnistujissa ja kaksisuuntaisen tarkastelun tulos olisikin p-arvolla 9% matemaattisen onnistumisen poikkeavuus tilastollisesti eli ei merkitsevästi. Jos pojilla olisi yliedustus onnistujissa ja epäonnistujissa p-arvolla 2%, osoittautuisi tilastollinen vääristymä todelliseksi p-arvolla 4%,  jos merkitsevyydelle asetetaan tuo 5%. Tuolloin tulkinta olisi se, että poikien matemaattinen lahjakkuus tyttöihin verrattuna on joko huippua tai heikkoa ja voitaisiin jatkotutkia mistä kummasta tuo saattaisi aiheutua.

Vääristyneellä yksisuuntaisella tarkastelulla saatetaan hyvinkin kohdistaa jatkotutkimus varsin epäoleelliseen seikkaan, kun vaihtoehtona olisi osua tavallisen epäoleelliseen seikkaan, joista sentään jokin aina silloin tällöin voi osoittautua hieman oleelliseksikin. Tiedejulkaisemisessa on havaittavissa typerysten kyyhkysparviefektiä - kun yksi säikähtää johonkin suuntaan, muut käännähtävät samaan suuntaan... :D

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

111
Liittynyt11.1.2019
Viestejä775
2/2 | 

"Tieteelle p-arvojen 0.049 ja 0.051 välinen 0.2 prosenttiyksikön ero on yhtä mitätön kuin tavalliselle tallaajalle 4.9% ja 5.1% välinen ero sateen todennäköisyydessä "

🤔

Ikuista työntävän voiman kierrätystä äärettömässä 3 D avaruudessa joka ei todellakaan laajene tai kaareudu. Laajeneva avaruus on keisari alasti!!!

Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat