Uhkapelurin harha vs. regressio kohti keskiarvoa

Seuraa 
Viestejä8
Liittynyt27.9.2010

Jos heittelen tasapainoista kolikkoa ja saan peräkkäin kymmenen klaavaa, niin yhdestoista heitto tuottaa klaavan todennäköisyydellä 50% ja kruunan todennäköisyydellä 50%. Kolikolla ei ole muistia aiemmista heitoista - ne eivät vaikuta tulokseen. Jos kuvittelee toisin, sitä sanotaan uhkapelurin harhaksi (gambler's fallacy, jatkossa "tapaus G"). Suuressa määrässä kolikonheittoja kruunan ja klaavan suhteelliset osuudet lähestyvät 50/50-tilannetta, mutta esiintymiskertojen absoluuttinen ero tuppaa itse asiassa kasvamaan.

Toinen tapaus: Valitsen sattumanvaraisesti kymmenen ihmistä, mittaan heidän pituutensa keskiarvon ja saan tulokseksi jotakin väestön keskiarvosta poikkeavaa. Sitten valitsen sattumanvaraisesti toiset kymmenen ihmistä ja mittaan heidän pituutensa keskiarvon. Todennäköisemmin (kuin ei) toisen mittauksen keskiarvo on lähempänä väestön keskiarvoa kuin ensimmäisen mittauksen. Tätä ilmiötä kutsutaan regressioksi kohti keskiarvoa (regression to the mean, tapaus R). Toinen esimerkki R:stä on, että keskimääräistä pidemmät vanhemmat saavat todennäköisesti lapsia, jotka ovat lyhyempiä kuin he itse, mutta pidempiä kuin väestö keskimäärin.

Selvää tähän asti ja ymmärrän tapaukset G ja R erillisinä, mutta en silti osaa kunnolla selittää, mikä oleellinen ero niillä on vierekkäin asetettuna. Miten esimerkiksi tuossa pituuden mittauksessa (tapaus R) toinen mittaus tavallaan "tietää" ensimmäisen mittauksen tuloksesta (eihän se tiedäkään)?

Lopuksi varsinaisiin kysymyksiin: Jos haluaisin ennustaa osakekurssien käyttäytymistä historiatietojen perusteella, voinko esim. päätellä, että kolme nousupäivää nostaa laskupäivän todennäköisyyttä? Jos viime talvi oli erittäin luminen, nostaako se tulevan talven vähälumisuuden todennäköisyyttä? Jos ravihevonen Ammeen Tulppa on poikkeuksellisesti pärjännyt tosi huonosti jo neljänä viikonloppuna peräkkäin, voinko hyvällä syyllä odottaa sen pärjäävän paremmin ensi viikonloppuna (edellyttäen ettei normaalia huonomman menestyksen takana ole sairautta tms. selkeää syytä)?

Kommentit (13)

Vierailija

"Jos haluaisin ennustaa osakekurssien käyttäytymistä historiatietojen perusteella, voinko esim. päätellä, että kolme nousupäivää nostaa laskupäivän todennäköisyyttä?"

Et voi päätellä niin. Tulevaisuus ei ole samanlainen kuin menneisyys. David Hume sanoi aikoinaan, ettemme voi sanoa auringon nousevan huomena sen perusteella koska se on kaikkina muinakin päivinä tehnyt niin. Se viittaa tarkoittaa induktioon.

peneus
Seuraa 
Viestejä8
Liittynyt27.9.2010
Nagarjuna
"Jos haluaisin ennustaa osakekurssien käyttäytymistä historiatietojen perusteella, voinko esim. päätellä, että kolme nousupäivää nostaa laskupäivän todennäköisyyttä?"

Et voi päätellä niin. Tulevaisuus ei ole samanlainen kuin menneisyys. David Hume sanoi aikoinaan, ettemme voi sanoa auringon nousevan huomena sen perusteella koska se on kaikkina muinakin päivinä tehnyt niin. Se viittaa tarkoittaa induktioon.




Ei kai se nyt ihan noin suoraviivaisesti mene. Joskus menneet tapahtumat eivät vaikuta tulevaisuuteen mitenkään (kolikonheitto), joskus vähän, joskus paljon. Jos vedonlyöntitoimistossa voisi veikata huomisen auringonnousun puolesta kertoimella 5,2 niin tyhjentäisin pankkitilini heti tähän jaloon tarkoitukseen (itse asiassa jos häviäisin, jotakin olisi niin pahasti pielessä, että häviö olisi pienin murheistani).

Joka tapauksessa alkuperäiset kysymykseni voisi ehkä tämän valossa muotoilla toisinkin: mitkä yleiset tunnusmerkit ovat voimassa niissä tapauksissa, joissa tapahtuu regressiota keskiarvoa kohti, ts. menneisyys vaikuttaa ainakin jonkin verran tuleviin tapahtumiin? Asiallisesti järjestetyssä kolikonheitossa näitä tunnusmerkkejä ei ole yhtään.

Vierailija
peneus
Toinen tapaus: Valitsen sattumanvaraisesti kymmenen ihmistä, mittaan heidän pituutensa keskiarvon ja saan tulokseksi jotakin väestön keskiarvosta poikkeavaa. Sitten valitsen sattumanvaraisesti toiset kymmenen ihmistä ja mittaan heidän pituutensa keskiarvon. Todennäköisemmin (kuin ei) toisen mittauksen keskiarvo on lähempänä väestön keskiarvoa kuin ensimmäisen mittauksen. Tätä ilmiötä kutsutaan regressioksi kohti keskiarvoa (regression to the mean, tapaus R).



Esimerkki regressiosta kohti keskiarvoa on virheellinen. Paremmin ilmiötä kuvaa:

Regressio kohti keskiarvoa ”regression towards the mean” on yleinen ilmiö
seurantatutkimuksissa; Esim. jos verenpainetutkimuksissa tarkastellaan niiden
henkilöiden osaryhmää, joilla on lähtötutkimuksessa korkea verenpaine, niin
toistomittauskerroilla tämän ryhmän keskiarvo lähestyy perusjoukon keskiarvoa
ilman mitään hoitovaikutustakin.

peneus
Seuraa 
Viestejä8
Liittynyt27.9.2010
Lepakko
Esimerkki regressiosta kohti keskiarvoa on virheellinen.



Ehkäpä oli virheellinen, mutta ei ollut oma esimerkkini. Löytyi täältä http://www.fallacyfiles.org/regressf.html: "Consider a sample taken from a population. The value of the variable will be some distance from the mean. For instance, we could take a sample of people—it could be just one—measure their heights, and then determine the average height of the sample. This value will be some distance away from the average height of the entire population of people, though the distance might be zero.

Suppose, further, that we take a second sample of the population. If the value for the first sample is an extreme one—that is, far away from the mean—then it is likely that the value of the variable for the second sample will be closer to average than the first one. The farther away from the mean the first sample was, the more likely that the second will be closer to it. This is regression to the mean."

Ehkä tuossa esimerkissä pitää korostaa sitä, että ensimmäinen mittaus poikkeaa selvästi keskimääräisestä. Siinä tapauksessa on epätodennäköistä, että toinen poikkeaa vielä enemmän.

Vierailija
peneus
Joka tapauksessa alkuperäiset kysymykseni voisi ehkä tämän valossa muotoilla toisinkin: mitkä yleiset tunnusmerkit ovat voimassa niissä tapauksissa, joissa tapahtuu regressiota keskiarvoa kohti, ts. menneisyys vaikuttaa ainakin jonkin verran tuleviin tapahtumiin? Asiallisesti järjestetyssä kolikonheitossa näitä tunnusmerkkejä ei ole yhtään.

Yksi käyttökelpoinen tapa tarkastella tämänkaltaisia ilmiöitä on aikasarja-analyysi. Esim. simppeleillä ARMA-malleilla (Autoregressiivinen liukuvan keskiarvon malli) pystyy mallintamaan suht hyvin esim. osakekursseja (ainakin ns. kouluesimerkeissä). Tosin ARMA vaatii sen, että aikasarja on stationaarinen stokastinen prosessi. Monet todelliset aikasarjat pystytään kylläkin stationarisoimaan mm. poistamalla niiden trendi ja kausivaihtelut.

Tavoitteena ARMAssa on siis selittää i. havainto x[size=70:28p1q3c0]i[/size:28p1q3c0] havaintojen x[size=70:28p1q3c0]i-1[/size:28p1q3c0],...,x[size=70:28p1q3c0]i-p[/size:28p1q3c0] sekä valkoisen kohinan ε[size=70:28p1q3c0]i[/size:28p1q3c0],...,ε[size=70:28p1q3c0]i-q[/size:28p1q3c0] avulla. Alaindeksi viittaa edellisissä ajanhetkeen (joka on diskreetti) ja ARMA-prosessia, jossa suurin havaintoviive on p ja suurin valkoisen kohinan viive on q kutsutaan ARMA(p,q)-prosessiksi.

Aikasarjojen käsittely kyllä vaatii sen verran esitietoja, että ainakin yleinen n selittäjän lineaarinen regressioanalyysi pitäisi olla hallussa ennen kuin ainakaan ARMA-malleista tajuaa hölkäsen pöläystä. Jos asia kiinnostaa, niin kannattaa kuitenkin tsekata esim. seuraavat prujut ja harjoitustehtävät ratkaisuineen:

https://noppa.tkk.fi/noppa/kurssi/mat-2.3128/luennot
https://noppa.tkk.fi/noppa/kurssi/mat-2 ... rjoitukset

Vierailija
peneus

Selvää tähän asti ja ymmärrän tapaukset G ja R erillisinä, mutta en silti osaa kunnolla selittää, mikä oleellinen ero niillä on vierekkäin asetettuna. Miten esimerkiksi tuossa pituuden mittauksessa (tapaus R) toinen mittaus tavallaan "tietää" ensimmäisen mittauksen tuloksesta (eihän se tiedäkään)?



Arvaan sen liittyvän jotenkin siihen, että R tapauksessa valitset olemassa olevasta joukosta valmiita tapauksia, joista keskiarvo on laskettu ja johon tulostasi vertaat (ja periaatteessa pidempiä on jo poisvalittu joukosta, vaikka isossa populaatiossa sillä lienee pienempi merkitys) ja kolikonheitossa joka kerta lähtötilanne on neitseellinen.

eli siis kolikonheitot ovat riippumattomia toisistaan, mutta ihmisten valinta ei ole toisistaan riippumatonta.

E: ihmisten valinta = valinnan tulokset

visti
Seuraa 
Viestejä6331
Liittynyt16.11.2009
peneus
Jos heittelen tasapainoista kolikkoa ja saan peräkkäin kymmenen klaavaa, niin yhdestoista heitto tuottaa klaavan todennäköisyydellä 50% ja kruunan todennäköisyydellä 50%. Kolikolla ei ole muistia aiemmista heitoista - ne eivät vaikuta tulokseen. Jos kuvittelee toisin, sitä sanotaan uhkapelurin harhaksi (gambler's fallacy, jatkossa "tapaus G"). Suuressa määrässä kolikonheittoja kruunan ja klaavan suhteelliset osuudet lähestyvät 50/50-tilannetta, mutta esiintymiskertojen absoluuttinen ero tuppaa itse asiassa kasvamaan.

Toinen tapaus: Valitsen sattumanvaraisesti kymmenen ihmistä, mittaan heidän pituutensa keskiarvon ja saan tulokseksi jotakin väestön keskiarvosta poikkeavaa. Sitten valitsen sattumanvaraisesti toiset kymmenen ihmistä ja mittaan heidän pituutensa keskiarvon. Todennäköisemmin (kuin ei) toisen mittauksen keskiarvo on lähempänä väestön keskiarvoa kuin ensimmäisen mittauksen. Tätä ilmiötä kutsutaan regressioksi kohti keskiarvoa (regression to the mean, tapaus R). Toinen esimerkki R:stä on, että keskimääräistä pidemmät vanhemmat saavat todennäköisesti lapsia, jotka ovat lyhyempiä kuin he itse, mutta pidempiä kuin väestö keskimäärin.

Selvää tähän asti ja ymmärrän tapaukset G ja R erillisinä, mutta en silti osaa kunnolla selittää, mikä oleellinen ero niillä on vierekkäin asetettuna. Miten esimerkiksi tuossa pituuden mittauksessa (tapaus R) toinen mittaus tavallaan "tietää" ensimmäisen mittauksen tuloksesta (eihän se tiedäkään)?

Lopuksi varsinaisiin kysymyksiin: Jos haluaisin ennustaa osakekurssien käyttäytymistä historiatietojen perusteella, voinko esim. päätellä, että kolme nousupäivää nostaa laskupäivän todennäköisyyttä? Jos viime talvi oli erittäin luminen, nostaako se tulevan talven vähälumisuuden todennäköisyyttä? Jos ravihevonen Ammeen Tulppa on poikkeuksellisesti pärjännyt tosi huonosti jo neljänä viikonloppuna peräkkäin, voinko hyvällä syyllä odottaa sen pärjäävän paremmin ensi viikonloppuna (edellyttäen ettei normaalia huonomman menestyksen takana ole sairautta tms. selkeää syytä)?




Ehei. Valitset umpimähkään kymmenen kymmenen hengen ryhmää ja mittaat heidän pituutensa. Saat kunkin ryhmän keskipittudeksi mitä saat. tuskinpa mittausjärjestys siihen vaikuttaa.
Jos koko populaation keskipituus on 175,3 cm ja ensimmäisen ryhmän 175,0 cm, on varmasti todennäköisempää, että seuraavan ryhmän keskipituus poikkeaa keskiarvosta enempi kuin ensimmäinen.
Jos heität kymmene kolikkoa ja saat 8 kruunua, on seuraavan sarjan ensimmäisen heiton kruunun todenn ½, kuten sanoit, mutta on nyt todenn., että koko sarjassa kruunuja tulee vähemmän kuin 8.

Vierailija
peneus

Toinen esimerkki R:stä on, että keskimääräistä pidemmät vanhemmat saavat todennäköisesti lapsia, jotka ovat lyhyempiä kuin he itse, mutta pidempiä kuin väestö keskimäärin.



Eikös tämän tapauksen selitä geneettinen perinnöllisyys? Pitkät vanhemmat saavat pitkiä lapsia mutta kauempaa perintyvät geenit pyrkivät tasaamaan kohti keskiarvoa?

Vierailija

Itse ajattelisin tuon regression kohti kesiarvoa esimerkiksi nopanheiton kautta. Jos ensimmäisellä heitolla tulee luku 6 on todennäköisempää kuin ei (mahdollisuus yli 50%), että seuraava on lähempänä keskiarvoa kuin edellinen onhan mahdollisuus 2/3 saada 2-5.

peneus
Seuraa 
Viestejä8
Liittynyt27.9.2010
Ielmoere
Itse ajattelisin tuon regression kohti kesiarvoa esimerkiksi nopanheiton kautta. Jos ensimmäisellä heitolla tulee luku 6 on todennäköisempää kuin ei (mahdollisuus yli 50%), että seuraava on lähempänä keskiarvoa kuin edellinen onhan mahdollisuus 2/3 saada 2-5.



Yksinkertaisuudessaan aika hyvä pointti. Pieni tarkennus vain esimerkin kautta: jos olen heittänyt noppaa X kertaa ja senhetkinen heittojen keskiarvo on 4, niin seuraavalla heitolla kaikkien heittojen keskiarvo nousee todennäköisyydellä 2/6, laskee todennäköisyydellä 3/6 ja pysyy samana todennäköisyydellä 1/6. Eli voi sanoa, ettei ole ainakaan puskua poispäin silmälukujen keskiarvosta 3,5:stä.

peneus
Seuraa 
Viestejä8
Liittynyt27.9.2010

Löysin mielestäni hyvän ja selkeän selityksen regressiosta kohti keskiarvoa täältä: http://www.socialresearchmethods.net/kb/regrmean.php. Tämä selittäisi myöskin sen, miksi monet netistä löytyvät esimerkit eivät ole oikein hyviä, mukaan lukien se alunperin lainaamani esimerkki pituuden mittauksesta. Ymmärrän nyt myös paremmin sen, miksi kolikonheiton tapauksessa puhutaan oikeastaan ihan eri asiasta. Itse ilmiö on varmaan kuitenkin vähän monitahoisempi kuin tuossa selityksessä kuvataan, mutta asian ydin on klaari.

Yksi seuraus tästä ilmiöstä on ymmärtääkseni se, että jos piirtäisin jonkun osakkeiden arvostusmuuttujan suhteen kellokäyrän tänä vuonna listatuista pörssiosakkeista ja sijoittaisin huonoimpaan neljännekseen, niin todennäköisesti ensi vuonna osakesalkkuni keskiarvo olisi lähempänä koko osakelistan keskiarvoa ja olisin siten ansainnut enemmän kuin laittamalla rahani parhaimpaan neljännekseen. Näin siksi, että korrelaatio r vuosien välillä on varmasti pienempi kuin 1. Jos taas koko pörssilista (populaatio) olisi tullut takapakkia, olisin samalla sijoitusstrategialla hävinnyt vähemmän kuin sijoittamalla parhaimpaan neljännekseen.

Vierailija
Lepakko
Esimerkki regressiosta kohti keskiarvoa on virheellinen. Paremmin ilmiötä kuvaa:

Regressio kohti keskiarvoa ”regression towards the mean” on yleinen ilmiö
seurantatutkimuksissa; Esim. jos verenpainetutkimuksissa tarkastellaan niiden
henkilöiden osaryhmää, joilla on lähtötutkimuksessa korkea verenpaine, niin
toistomittauskerroilla tämän ryhmän keskiarvo lähestyy perusjoukon keskiarvoa
ilman mitään hoitovaikutustakin.




Tämä on mielestäni hieman harhaanjohtavasti esitetty. Tekstistä saa äkkiseltään kuvan, että rajoitumme osajoukkoon, jolla on jokin syy sairastaa korkeaa verenpainetta, kun ilmeisesti kirjoittajalla on kuitenkin ollut ajatuksena, että mittauksen tulos on sopivasti jakaantunut ja mitatut korkeat verenpaineet ovat "sattumaa" eikä taustalla ole mitään erityistä syytä.

peneus
Lepakko
Esimerkki regressiosta kohti keskiarvoa on virheellinen.



Ehkäpä oli virheellinen, mutta ei ollut oma esimerkkini. Löytyi täältä http://www.fallacyfiles.org/regressf.html:

Ehkä tuossa esimerkissä pitää korostaa sitä, että ensimmäinen mittaus poikkeaa selvästi keskimääräisestä. Siinä tapauksessa on epätodennäköistä, että toinen poikkeaa vielä enemmän.




Tuossa on juurikin se tärkeää, että tutkitaan itse asiassa ehdollista tapausta. Ensimmäinen asettaa ehdon sille mitkä toisen mittauksen arvot ovat "lähellä" tai "kaukana" keskiarvosta. Jos satumme ensimmäisellä kerralla saamaan varsin harvinaisen tuloksen, niin seuraavassa mittauksessa onkin isompi todennäköisyys saada lähempänä populaation keskiarvoa oleva tulos. Tämä pätee toisinkin päin, jos saamme melkein täsmälleen populaation keskiarvoa vastaavan tuloksen, niin on todennäköisempää saada kauempana keskiarvosta oleva tulos seuraavalla mittauksella.

Näin ainakin itse järkeilen asian.

visti
Seuraa 
Viestejä6331
Liittynyt16.11.2009
peneus

Yksi seuraus tästä ilmiöstä on ymmärtääkseni se, että jos piirtäisin jonkun osakkeiden arvostusmuuttujan suhteen kellokäyrän tänä vuonna listatuista pörssiosakkeista ja sijoittaisin huonoimpaan neljännekseen, niin todennäköisesti ensi vuonna osakesalkkuni keskiarvo olisi lähempänä koko osakelistan keskiarvoa ja olisin siten ansainnut enemmän kuin laittamalla rahani parhaimpaan neljännekseen. Näin siksi, että korrelaatio r vuosien välillä on varmasti pienempi kuin 1. Jos taas koko pörssilista (populaatio) olisi tullut takapakkia, olisin samalla sijoitusstrategialla hävinnyt vähemmän kuin sijoittamalla parhaimpaan neljännekseen.



Kun luot pörssistrategian, sinun täytyy muistaa, että miljoonat ihmiset käyttävät samaa päättelyä. Jos siis halvat osakkeet tuottaisivat kalliita paremmin, eikö se olisi yleisesti tunnettu tosiasia ja kaikki sijoittaisivat näihin halpoihin ja kas ne eivät olisikaan enää halpoja?

Uusimmat

Suosituimmat