Kirjoitukset avainsanalla hajonta

Kuva: Wellcome Collection gallery

Tieteellinen teoria on matemaattinen malli, josta voi laskea ennusteita. Havaintoihin hyvin sopivat ennusteet lisäävät teorian uskottavuutta. Paitsi silloin, kun ennusteet näyttävät sopivan havaintoihin liian hyvin. Liian hyvin ollakseen totta.

Jotta voi ymmärtää miten malli voi olla liian sopiva, on ensin ymmärrettävä mitä mallin sopivuus tarkoittaa.

Sopivuus mittaa ennusteiden poikkeamaa havainnoista, matemaattisen täsmällisesti määriteltynä. Mitta on käänteinen eli mitä pienempi poikkeama, sitä sopivampi malli.

Eräs sopivuuden mitta on suhteellinen neliöpoikkeama. Tämän yleisesti käytetyn mitan ymmärtämiseksi täytyy tietää, mitä tarkoittavat suhteellinen, neliö ja poikkeama.

Poikkeama tarkoittaa erotusta eli vähennyslaskua. Kun havainto on 73 ja teoria ennustaa 68, poikkeama on 73 - 68 = 5. Havainnon H ja ennusteen E täydellinen yhteensopivuus H = E vastaa nollan suuruista poikkeamaa H - E = 0.

Neliö tarkoittaa toista potenssia eli luvun kertomista itsellään. Kakkosen neliö on neljä 2² = 2×2 = 4, kolmosen neliö yhdeksän 3² = 3×3 = 9, nelosen neliö kuusitoista 4² = 4×4 = 16 jne. Kun havainto on 73 ja teoria ennustaa 68, neliöpoikkeama on (73 - 68)² = 5² = 5×5 = 25. Neliö saa nimensä geometriasta: luvun toinen potenssi on pinta-ala neliön muotoisessa alueessa, jonka sivut ovat kyseisen luvun pituisia. 

Negatiivinen luku kumoaa positiivisen luvun, -5 + 5 = 0, mutta mallin sopivuuden kannalta negatiivinen poikkeama ei kumoa positiivista poikkeamaa vaan molemmat lisäävät mallin epäsopivuutta yhtä lailla. Poikkeamien neliöinti korjaa tämän ongelman, koska negatiivinen luku kerrottuna itsellään on aina positiivinen (-5)×(-5) = 25. Niinpä näiden kahden ennusteen epäsopivuus on yhteensä (73 - 68)² + (63 - 68)² = 25 + 25 = 50 eikä nolla, kuten laskettaessa erisuuntaiset poikkeamat suoraan yhteen ilman neliöintiä (73 - 68) + (63 - 68) = 5 - 5 = 0.

Neliöinti hoitaa negatiivisten poikkeamien lisäksi myös oikean skaalauksen. Nimittäin poikkeamat noudattavat monessa tilanteessa normaalijakaumaa, missä riippuvuus poikkeamasta on neliöllinen eli esim. poikkeaman kymmenkertaistuminen satakertaistaa ennusteen epäsopivuuden 10² = 10×10 = 100. Jos poikkeamien jakauma ei ole likimainkaan normaali, käytetään neliöpoikkeaman sijasta toiselle jakaumalle ominaista skaalausta. Muutoin mallin sopivuus lasketaan jakaumasta riippumatta samalla periaatteella.

Sopivuuden määritelmän viimeinen osa eli suhteellisuus tarkoittaa poikkeamien havaintokohtaista painotusta. Painotusta tarvitaan, koska odotetun satunnaisvirheen eli hajonnan suuruus riippuu havainnosta. Mitä pienempi hajonta havaintoon liittyy, sitä suurempi painoarvo poikkeamalle pitää antaa. Painokerroin on hajonnan käänteisluku: esim. poikkeama, johon liittyy hajonta 2, on viisi kertaa epäsopivampi kuin samansuuruinen poikkeama, johon liittyy hajonta 10. Kun useasta havainnosta koostuvan aineiston poikkeamat lasketaan yhteen, kukin poikkeama saa näin suhteellista merkitystään vastaavan painon. Sopivuuden mittana toimiva suhteellinen neliöpoikkeama on siis painotettu neliösumma.

Kilpailevista malleista sopii havaintoihin parhaiten se, jonka ennusteista laskettujen poikkeamien painotettu neliösumma on pienin.

Mallista laskettu neliösumma voidaan kääntää myös todennäköisyydeksi. Tämä ei kuitenkaan kerro suoraan mallin todennäköisyyttä, vaan uuden havaintoaineiston uskottavuutta on puntaroitava yhdessä aiemman tutkimusnäytön kanssa. Mallin todennäköisyys on uuden näytön uskottavuuden ja ennakkotiedon tulo.

Siisti tarina, eikös? Moni tutkija omaksuu tyytyväisenä tämän reseptin, koska sen avulla mallien vertailu on suoraviivaista. Autuaan tietämättömänä, että jutun juonessa vaanii vielä käänne.

Nimittäin edes täydellisesti todellisuutta kuvaavan mallin neliöpoikkeamien ei pitäisi olla keskimäärin nollia vaan satunnaisvirheen suuruisia.

Heitetään noppaa 6000 kertaa. Tuloksena saadaan tasan tuhat ykköstä, tuhat kakkosta, tuhat kolmosta, tuhat nelosta, tuhat viitosta ja tuhat kuutosta. Onko noppa rehellinen? Silmälukujen määrien neliöpoikkeamathan ovat rehellisen nopan ennusteista 6000×1/6 = 1000 täsmälleen nollia. Mutta todennäköisyys saada näin tasainen jakauma ilman filunkipeliä on vähemmän kuin yksi miljardista! Rehellisen nopan 6000 heitossa silmälukujen määrät poikkeavat tasajakaumasta keskimäärin muutamasta heitosta muutamaan kymmeneen heittoon.

Johdonmukaisesti satunnaisvirhettä pienemmät poikkeamat tarkoittavat, että malli sopii havaintoihin paremmin kuin mihin edes todellinen luonto pystyy!

Asian voi toki ilmaista myös niin, että jos ennustetut arvot vastaavat havaintoarvoja liian hyvin, ennustettu hajonta ei vastaakaan havaittua hajontaa. Eli pinnallisesti täysin sopiva malli sopiikin tarkemmin katsottuna todellisuuteen erityisen huonosti.

Liian sopivalta näyttävä malli ei kuitenkaan aina ole laskelmoitua petosta, vaan saattaa syntyä myös tietämättömän tutkijan tai apulaisen hyväntahtoisista pyrkimyksistä. Gregor Mendelin herneet lienevät tästä klassinen esimerkki. Liian hyvin perinnöllisyyslain ennusteita vastaava Mendelin alkuperäinen aineisto ei toki kyseenalaista myöhemmin moneen kertaan vahvistettuja tuloksia, mutta herättää kysymyksen oliko hänen aineistonsa täysin rehellisesti kerättyä ja mistä liian sopiva tulos aiheutui.

Erityisesti ihmisen, talouden ja yhteiskunnan tutkimuksessa yleinen ongelma on, että havaintoaineistoon sovitetaan liian monimutkaista mallia. Tällaisessa ylisovitetussa mallissa voi olla niin paljon liikkuvia osia, että mallin saa myötäilemään minkälaisen sattuman oikkuja hyvänsä. Menneisyyteen täydellisesti sopivan mallin surkeus paljastuu, kun sillä yrittää ennustaa tulevaisuutta. Edellisviikon lottonumerot eivät ennusta tulevan viikon arvonnasta mitään (paitsi sen, että edellisiä numeroita ei kannata pelata koska jotkut hupsut pelaavat niitä kuitenkin jolloin vanhoille numeroille sattuva päävoitto pirstoutuisi lohduttoman pieniin osiin).

Kosmologit ja muut teoreetikot puhuvat toisinaan havaintojen sovittamisesta malliin. Lipsahdus kuulostaa ehkä viattomalta, mutta paljastaa paljon. Tieteessä mallia tulee tietenkin sovittaa havaintoihin eikä päinvastoin, mutta etenkin kosmologiassa tähän nurinkurisuuteen törmää. Yleensä mittalaitteet keräävät ns. raakadataa, josta täytyy siivota jos jonkinlaista häiriötekijää kotigalaksista lähtien ennen kuin helpommin analysoitava havaintoaineisto julkaistaan koko tutkijayhteisön saataville. Tämä on ymmärrettävää, mutta ongelma on että tässä suurta tiimityötä vaativassa (ja siten vaikeasti toistettavassa) prosessissa usein jo oletetaan pimeä energia ja tasaisen laajenevan avaruuden malli. Niinpä ei ole yllättävää, että yhtäältä kilpailevia malleja on vaikea sovittaa julkaistuun aineistoon ja toisaalta pimeän energian mallit ovat toisinaan sopineet aineistoon liiankin hyvin. Lisäksi oletuksista riippumatonta raakadataa ei suinkaan aina julkaista. Tutki siinä sitten avaruuden epätasaista laajenemista.

Liian sopivan mallin ongelman ratkaisu on periaatteessa yksinkertainen. Pitää vain testata mallin keskiarvoisen sopivuuden lisäksi hajonnan sopivuus. Tosin ennustettu hajontakin voi sopia havaintoihin liian hyvin samoin kuin hajonnan hajonta ja niin edelleen, mutta se on taas jo kokonaan toinen tarina.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Wikimedia Commons

Ota kasa matemaattisia malleja. Tee havaintoja. Vertaa malleja havaintoihin. Valitse malli, joka sopii parhaiten havaintoaineistoon. Laske mallista ennusteita. Vertaa ennusteita uusiin havaintoihin. Jos ennusteet eivät täsmää, älä luota malliin. Jos täsmäävät, kasvata luottamustasi malliin. Anna luotettavimman mallin kohdentaa seuraavia havaintojasi ja aloita piirissä uusi kierros.

Tätä havaintojen ja teorian päättymätöntä piiritanssia kutsutaan tieteeksi. Tiede on järjestelmällistä järjen käyttöä. Tiede opettaa, kuinka maailma toimii.

Tieteen toimintaa kuvaava piiri tarjoaa selvän reseptin todellisuuden tavoittamiseen kierros kierrokselta tarkemmin. Piirin jokaisessa vaiheessa on kuitenkin vaikeutensa. Kuten siinä, miten valita äärettömästä joukosta malli, joka sopii parhaiten havaintoihin.

Ihanteellinen malli minimoi yhtäältä harhan ja toisaalta hajonnan. Harha tarkoittaa mallin sovitteiden poikkeamaa havainnoista. Hajonta tarkoittaa mallin sovitteiden poikkeamaa toisistaan. Mallinnuksen harha ja hajonta saattavat joissain tilanteissa merkitä lähes päinvastaista kuin arkikielessä, mutta ajoittaista hämmennystä lukuun ottamatta termistöllä ei ole tässä suurta väliä sillä kummastakin halutaan eroon niin paljon kuin mahdollista.

Ongelma on siinä, että harhan vähentäminen kasvattaa hajontaa ja hajonnan vähentäminen kasvattaa harhaa. Kyseessä on optimointiongelma. On etsittävä harhan ja hajonnan tasapaino, ylisovituksen ja alisovituksen välinen raja.

Harhan nollaaminen tarkoittaa ylisovittamista eli liian monimutkaista mallia. Harhaton ylisovitus ennustaa uusia havaintoja huonommin kuin yksinkertaisempi malli, koska harhaton malli myötäilee ainutkertaista kohinaa. Eli mallintaa virhevaihtelua, joka ei toistu samana enää uusissa havainnoissa.

Hajonnan nollaaminen puolestaan tarkoittaa alisovittamista eli liian yksinkertaista mallia. Inhimillisten taipumustemme vuoksi ylisovittaminen on käytännössä yleisempi ongelma kuin alisovittaminen.

Havainnollistetaan sovittamisen ongelmaa numeerisella esimerkillä.

Ajattele jotain tutkimuskohdetta, kuten ilmanpaineen ja sateisuuden, pituuden ja painon tai äidin ja lapsen älykkyyden välistä yhteyttä. Tehdään ilmiöstä 30 riippumatonta havaintoa, jotka piirretään hajontakuvioon

Pysty- ja vaaka-akseleiden yksiköt mittaavat standardipisteitä eli montako keskihajontaa kukin harmaana pallurana kuvattu havainto poikkeaa otoksen keskiarvosta. Pystyakselilla on vaikkapa sateisuus, paino tai lapsen älykkyys, vaaka-akselilla ilmanpaine, pituus tai äidin älykkyys.

Sovitetaan havaintoaineistoomme 30 riippumatonta parametriä eli 30 liikkuvaa osaa sisältävä malli. Sovitus tarkoittaa jokaisen havaintopalluran täsmälleen halkovaa siksakkia

Sovitetaan samaan aineistoon yksinkertaisena verrokkimallina suora, jolla on kaksi riippumatonta parametriä eli kaksi liikkuvaa osaa: suoran korkeus ja kaltevuus. Sovitus tarkoittaa, että etsitään korkeudeltaan ja kaltevuudeltaan sellainen suora, jonka palluroista mitattujen pystysuuntaisten neliöpoikkeamien summa on pienin mahdollinen. Eli suora, joka kulkee mahdollisimman hyvin palluroiden kautta

Punaisen ja sinisen mallin sopivuutta aineistoon kuvaavat niiden ns. selitysosuudet R². Selitysosuus mittaa mallin sovitteiden ja havaintojen yhteisvaihtelua, eli kuinka suuren osan sovitteiden vaihtelu selittää havaintojen vaihtelusta; esim. paljonko ilmanpaineen vaihtelun avulla selittyy sademäärän vaihtelusta, paljonko pituuden vaihtelun avulla selittyy painon vaihtelusta tai paljonko äitien välisen älykkyyden vaihtelun avulla selittyy lasten välisen älykkyyden vaihtelusta. 

Punaisen siksak-mallin selitysosuus R² = 100% eli siksakki selittää havaintojen vaihtelun täydellisesti juuri kerätyssä 30 havainnon aineistossa. 

Sinisen suoran selitysosuus R² = 50% eli suora selittää tässä havaitusta vaihtelusta vain puolet.

Selitysosuuksia vertaamalla punainen malli näyttää siniseen nähden täysin ylivertaiselta.

Punaisen mallin kannalta valitettavasti täydellinen sopivuus aineistoon on yhtä vakuuttavaa kuin lottonumeroiden tietäminen, edellisen viikon arvonnasta! Vasta uusien havaintojen täsmäävä ennustaminen mittaa mallin todellisen selitysvoiman. Todellinen ennustajakin tietäisi tulevan viikon lottonumerot.

Tekoälyn, neuroverkkojen ja koneoppimisen tutkijat kutsuvat alkuperäistä havaintoaineistoa opetusdataksi, jolla malli vasta opetetaan, ja uusia havaintoja testidataksi, jolla mallin todelliset kyvyt testataan. Aito oppiminen on kykyä yleistää ja soveltaa opittua tulevaan, ei menneen toistelua.

Selvitetäänpä sinisen ja punaisen mallin paremmuus laittamalla ne ennustetestiin: tehdään samasta ilmiöstä vielä uudet 30 riippumatonta havaintoa, jotka lisätään hajontakuvioon mustina palluroina

Ennustetestissä punaisen siksak-mallin selitysosuus romahtaa arvoon R² = 25% eli siksakki selittää havaitusta vaihtelusta enää neljäsosan tässä kerätyssä 30 uuden havainnon aineistossa. Harmaiden palluroiden perässä kiemurtelu eksytti siksakin kauas mustista palluroista, joiden tavoittamisesta todellinen palkinto vasta jaettiin!

Sinisen suoran selitysosuus sen sijaan säilyy suunnilleen ennallaan, arvossa R² = 55%, eli suora selittää myös havaitusta uudesta vaihtelusta puolet. Suora on yhtä kaukana mustista palluroista kuin harmaista palluroista. Suora ei langennut mutkittelemaan pikavoittojen perässä, ja ryhdikkyys palkittiin kiistattomalla ennusteherruudella.

Kun satunnaisotoksia kerätään samasta ilmiöstä yhä uudestaan, sininen suora ennustaa uusia havaintoja toistuvasti paremmin kuin ylisovitettu punainen siksakki. Selitysosuuksien tarkat numeeriset arvot toki vaihtelevat sattumasta johtuvan otantavirheen puitteissa, mutta suoran ennusteherruus säilyy. Signaali pysyy, vaikka kohinan muoto vaihtelee.

Punainen siksakki lankeaa ylisovituksen houkutukseen, joka näyttää menneisyyden valossa hyvältä mutta juuri pinnallisen vetovoimansa vuoksi malli oppii huonosti. Ylisovitus on menneisyyden vanki, joka ei opi menneisyydestä ja toimii siksi tulevaisuudessa ratkaisevasti huonommin.

Siksakki on kuin sattumanvaraisia elämäntapahtumia syy-seraussuhteiksi sepittävä ihmispolo.

Älä ole siksakki. Pysy suorana. Ohita johdatuksen tunteet englantilaisen hovimestarin viileydellä. Kohina on kohinaa, vaikka vapahtajalta näyttäisi.

Kun kirja putoaa hyllystä, se ei sisällä salattua viestiä. Putoava kirja ei ole merkki kuin korkeintaan huolimattomuudesta. Taivaalta ei viestittele edesmennyt sukulainen, vaikka pilvellä on täsmälleen samannäköinen nenä. Ajatuksesi eivät aiheuttaneet vuosien takaisen ystäväsi yhteydenottoa, vaikka satuitkin ajattelemaan samanaikaisesti juuri häntä. Kun lampun valo vaihtaa väriään aivan kuten ajattelit, se ei kerro mielen salatusta voimasta vaan mielen tunnetusta heikkoudesta nähdä hahmoja ja merkitystä satunnaisessa kohinassa. Ympäristömme on kohinaa täynnä, joten epätodennäköisillekin sattumille riittää mahdollisuuksia vuosikymmeniä kestävän elämämme varrelle yllin kyllin.

Järjissään pysyminen ei tietenkään ole helppoa, kun sattumat koskettavat henkilökohtaisesti ja halu elämää suurempiin kokemuksiin on kova. Mutta järjissään pysyminen kannattaa, sillä mustien palluroiden eli tulevaisuuden tavoittaminen palkitsee enemmän kuin harmaiden palluroiden eli menneisyyden oikkujen perässä kiemurtelu.

Hahmojen ja merkityksen näkeminen sattumassa eli kohinaan ylisovittaminen on ihmisen perisynti, joka evoluutiossa geeneihimme koodautui: selviytymisen kannalta on yleensä parempi virsta (yli kilometri) väärään kuin vaaksa (alle metri) vaaraan eli luulla varjoa pedoksi kuin petoa varjoksi. Aivomme luulevat ennemmin puuta parittelukumppaniksi kuin parittelukumppania puuksi, koska erehdys ylisovituksen suuntaan on ollut keskimäärin hedelmällisempää kuin erehdys alisovituksen suuntaan.

Kun tutkittavaa ilmiötä oppii tuntemaan tarkemmin, havaintoihin on mahdollista sovittaa moniulotteisempi malli, joka lisää selitysosuutta ilman ylisovitusta eli erottaa havainnoista enemmän signaalia kohinan seasta. Sateisuuden selittäjäksi voi lisätä ilmanpaineen lisäksi lämpötilan, tuulen ja ilmankosteuden. Painon selittäjäksi voi lisätä pituuden lisäksi ravinnon ja liikunnan. Lapsen älykkyyden selittäjäksi voi lisätä äidin älykkyyden lisäksi isän älykkyyden.

Ilmiöiden moniulotteisuuden tavoittaa kiertämällä tieteen havaitse-sovita-testaa-päivitä-piiriä kierros kierrokselta yhä uudestaan ja uudestaan. Mikä parasta, matkasta voi nauttia hyvällä mielellä sillä tieteestä oppiminen on aitoa.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Kuva: Minderbinder / Wikimedia Commons

Keskiarvoja on kaikkialla. Nettikauppa listaa tuotteidensa asiakasarvostelujen keskiarvot. Todistuksesta kysytään aina keskiarvo. Tutkimuksesta näytetään keskiarvot, eikä mediassa usein muuta kerrotakaan.

Keskiarvo on toki kuvaava tunnusluku, mutta yksinään riittämätön. Keskiarvon lisäksi pitäisi aina ilmoittaa myös hajonta, havaintojen keskimääräinen poikkeama keskiarvosta. Hajonta sisältää nimittäin oleellista, jopa ratkaisevaa, tietoa.

Oletetaan, että tarvitset pesukonetta ja tarjolla on kaksi samanhintaista vaihtoehtoa, Zing ja Zang. Molempiin on tuhansia asiakasarvioita, joiden molempien keskiarvot ovat tasan kolme tähteä. Valinta jää sattuman ja perusteettomien ennakkoluulojen varaan.

Mutta entä jos saatkin tietää juuri ennen ostopäätöstä pesukoneiden asiakasarvostelujen hajonnat: Zing on saanut jokaiselta asiakkaalta kolme tähteä, Zang taasen puolelta asiakkaista yhden tähden (eli heikoimman arvosanan) ja puolelta asiakkaista viisi tähteä (eli parhaan arvosanan). Molempien keskiarvo on kolme, mutta Zingin hajonta nolla, Zangin hajonta kaksi tähteä (eli suurin mahdollinen, kun asteikkona 1-5 tähteä). Kumman valitset?

Hajonnan merkitys riippuu asiayhteydestä. Pesukoneelta sopii toivoa tasaista varmuutta, ei hohtoa tai ihmeitä. Pesukoneista kannattaa siis valita se vaihtoehto, jonka arvosteluissa on pienempi hajonta. Luultavasti puolet Zangin koneista on viallisia tai siinä on jokin ominaisuus, joka ei puolelle käyttäjistä sovellu. Parasta olisi tietysti selvittää tuo syy ja päättää vasta sitten, mutta aikakin on rahaa eikä syy välttämättä selviä etukäteen.

Oletetaan, että menet katsomaan elokuvaa ja tarjolla on jälleen kaksi vaihtoehtoa, Zing ja Zang. Molempiin on tuhansia arvosteluja, joiden molempien keskiarvot ovat tasan kolme tähteä, mutta Zingin hajonta on nolla, Zangin hajonta kaksi tähteä. Kumman valitset?

Toisin kuin pesukoneen, elokuvan sopii herättää tunteita. Kannattaa siis mennä katsomaan elokuvaa, jota puolet katsojista vihaa ja puolet rakastaa, kuin sellaista johon kaikki reagoivat jassoo.

Arvosteluista on muutamalla klikkauksella yleensä nähtävissä myös arvosanojen koko jakauma, mutta hajonta voisi näkyä keskiarvon ohella jo tuotelistauksessa. Moni ei ehkä tiedä tai ymmärrä hajontaa, mutta voisi oppia jos näkisi hajonnan yhtä usein kuin keskiarvonkin.

Oletetaan, että tarvitset työntekijän ja tarjolla on jälleen kaksi vaihtoehtoa, Matti ja Teppo. Molempien hakijoiden todistusten keskiarvo on tasan seitsemän, mutta Matti on saanut jokaisesta 20 aineesta seiskan, Teppo 12 vitosta ja 8 kymppiä. Kumman valitset?

Hajonnan merkitys riippuu jälleen asiayhteydestä. Kaavamaiseen puurtamiseen kannattaa näillä tiedoilla valita Matti, luovaan älylliseen työhön Teppo.

Hajontaa voi mitata monin tavoin, ei ainoastaan keskihajonnan numeerisen arvon avulla. Esimerkiksi hajonnan positiivisen merkityksen voi määrittää valintatilanteessa huomioimalla keskiarvon lisäksi vaikkapa viisi parasta arvosanaa. Tepon ansioluettelo 7, 10, 10, 10, 10, 10 näyttää silloin paljon paremmalta kuin Matin vastaavaa 7, 7, 7, 7, 7, 7. Üheksa ametit, kümnes nälg, tietävät etelänaapurimmekin.

Jokaiseen tutkimukseen sisältyy virherajat, joita ei kerro keskiarvo vaan hajonta. Virherajat johtuvat kaiken väistämättömästä epävarmuudesta, eivätkä tarkoita mokaa tai että jotain olisi tehty väärin. Täydelliseen tutkimukseenkin sisältyy virhe, mutta täydellisessä tutkimuksessa se on osuvasti arvioitu ja täsmällisesti ilmoitettu. Tutkimustuloksista näytetään tai korostetaan uutisissa ja lehtijutuissa silti vain keskiarvoja ilman minkäänlaista hajonnan tai virherajojen kaltaista epävarmuuden ilmaisua.

Ongelma on siinä, että ilman virherajoja tutkimustuloksia ei voida verrata toisiinsa. Ei voida sanoa onko hanke A, jonka kustannusarvio on 1,6 miljardia euroa, toteutuessaan kalliimpi kuin hanke B, jonka kustannusarvio on 1,2 miljardia euroa, jos ennusteiden virherajoista ei tiedetä mitään. Ennusteen poikkeama on nimittäin verrannollinen tekijään (keskiarvojen erotus)/virhe, ja kun virhe → 0, jakolasku kasvattaa poikkeaman äärettömäksi. Virheettömät ennusteet ovat siis äärettömän huonoja.

Virherajojen puuttuminen vaivaa yleisemminkin viestintää, jopa tiedepuolella. Ongelma on niin lukijoissa, jotka janoavat varmuutta, mediassa, joka varmuutta kauppaa, kuin tutkijoissa, jotka eivät riittävästi korosta tulostensa epävarmuutta.

Ongelma helpottuisi, jos vain riittävän moni ymmärtäisi hajonnan ratkaisevan merkityksen.

Kun siis kuulet tai näet seuraavan kerran pelkän keskiarvon, vaadi myös hajontaa!

Kommentit (1)

Kommentit julkaistaan hyväksynnän jälkeen.

Jos lottoaisi kaikki mahdolliset rivit, paljonko voittaisi? Veikkaus pitää itsellään n. 60% lottoon pelatuista rahoista, joten jokaista pelaamaansa miljoonaa kohti saisi 400 000 euroa takaisin.

Tappiota tulisi siis 600 000 euroa per pelattu miljoona, joten kaikkien rivien pelaamisessa ei ole tietenkään mitään järkeä. Mutta keskimäärin jokaista lottoamaansa euroa kohtikin saa vain 40 senttiä takaisin, joten odotusarvoisesti lottoaminen on tappiollista puuhaa joka tapauksessa.

Paitsi että joku sen päävoiton aina saa. Matemaatikko kutsuu tätä hajonnaksi. Juuri voittojen hajonta tekee lottoamisesta edes jossain mielessä kannattavaa. Mitä suurempi hajonta, sitä kannattavampaa odotusarvoisesti tappiollisen loton pelaaminen on.

Kuvitellaan kaksi loton muunnelmaa A ja B, joissa molemmissa jokaista pelaamaansa euroa kohti saa keskimäärin 40 senttiä takaisin. A-lotossa jokainen rivi antaa aina takaisin 40 senttiä, sattuipa riviin oikeita numeroita 0, 1, 2 tai vaikka kaikki 7. B-lotossa ainoastaan kaikki oikein antaa voiton, joka olisi 40% kaikkien lottoamista euroista eli paljon suurempi kuin nykyinen päävoitto. Muilla riveillä ei sitten voittaisi penniäkään – ei vaikka osuisi kuusi ja lisänumero. Voittojen hajonta on A-lotossa pyöreä nolla, B-lotossa taas suurin mahdollinen.

Kukaan tuskin pelaisi A-lottoa; sehän olisi kuin 60 sentin antamista pois jokaista riviä kohden.

Mutta minä ainakin pelaisin "kaikki tai ei mitään" B-lottoa, jos sellainen olisi olemassa. Nykyistä lottoa en pelaa, koska liian suuri osa palautetuista rahoista menee pikkuvoittoihin. Toisin sanoen hajonta on liian pieni. Toki voittoina palautettava osuus saisi sekin olla suurempi kuin nykyinen 40%, mutta minun silmissä loton arvoa alentaa erityisesti nuo hajontaa pienentävät pikkuvoitot. Veikkauksen lotto muistuttaa liikaa A-lottoa.

Miksi Veikkaus ei sitten kasvata hajontaa, jos se kerran tekisi lottoamisesta kannattavampaa ilman että yhtiö joutuisi tinkimään omasta 60% voitto-osuudestaan? Koska juuri pikkuvoitot koukuttavat pelaajat jatkamaan tappioistaan huolimatta. Ilman pikkuvoittojen addiktoimia massoja Veikkauksen euromääräiset tulot romahtaisivat, vaikka yhtiö voittaisi edelleen pelatuista euroista sen 60% osuuden.

Juuri hiljattain mainostettiin, että loton voittojen määrää vain entisestään kasvatettiin, kun myös kolme oikein riveistä alettiin maksaa voittoja. Lotto siirtyi taas askeleen kauemmas kannattavammasta B-lotosta kohti kannattamatonta A-lottoa. Mainospuheissa tämä huononnus tietysti esitettiin parannuksena.

Toisessa mainoksessaan Veikkaus mainosti uutta peliään "Kaikki tai ei mitään". Hetken jo ajattelin, että onko tosiaan tullut joku B-loton kaltainen peli, jota minäkin voisin pelata. Mutta olisihan se pitänyt arvata, mistä pelissä on kyse: pikkuvoittoja jaetaan vähintäänkin entiseen malliin ja päävoittokin on jaettu kahtia (sen voi saada jos on joko 12 oikein tai 0 oikein valittavasta 24 numerosta; siitä siis nimi; 0 ja 12 oikein todennäköisyys on tietysti yhtä suuri, joten ero on pelkästään näennäinen).

Jonottaessani bussikortin lataamista kioskeissa olen huomannut, että myyjillä on tapana kysyä Veikkauksen pelivoittoja lunastavilta asiakkailta, että laitetaanko voittorahoilla uudet rivit vetämään. Sitten vielä kysytään, että laitetaanko joku ekstra jokeripokeripoks tuplaus myös.

On kuin panttitölkkien palauttajalta kysyttäisiin kassalla, että laitetaanhan taas samaa kaljaa panttirahoilla. Tai tupakan ostajalta, että ostaisitko kuitenkin mieluummin tällaisen isomman askin. Tai pornolehden ostajalta, että laitetaanko myös tällainen vähän härskimpi lisänumero mukaan.

Euron panoksella saatu euro ei ole voitto vaan ajan haaskausta. Mistä tulikin mieleeni, että en ole vieläkään jaksanut raaputtaa toissa jouluna lahjaksi saamaani kalenteriarpaa.

Kommentit (4)

Retard
Liittynyt13.5.2005
Viestejä28258
1/4 | 

Ehkä en nyt täysin ymmärtänyt. Jos lotossa olisi saumat voittaa enemmän rahaa kuin kaikkien rivien veikkaaminen maksaa, niin eikös peli ikään kuin menetä merkityksensä?

Jos argumentista ei voi johtaa yleistä sääntöä, sillä ei ole sisältöä.

Vierailija
3/4 | 

Kaikki tai ei mitään pätee myös sähkösopimuksiin - Ilman vertailemista tai kilpailutusta todennäköisesti maksat kalleimman hinnan sähköstä. Siksi sähkön kilpailuttaminen on ainut tapa säästää sähkössä!

Vierailija
4/4 | 

Nykypäivänä on todellakin typerää jättää asiat vertailematta. Kuten edellisessäkin viestissä mainittiin, sähkön kilpailutus on todellakin asia jota normaalit kansalaiset eivät usein tee tietämättömyyttään vaikka sen avulla voi säästää satoja euroja vuodessa.

Kommentit julkaistaan hyväksynnän jälkeen.

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat