Kirjoitukset avainsanalla keskiarvo

Kuva: Minderbinder / Wikimedia Commons

Keskiarvoja on kaikkialla. Nettikauppa listaa tuotteidensa asiakasarvostelujen keskiarvot. Todistuksesta kysytään aina keskiarvo. Tutkimuksesta näytetään keskiarvot, eikä mediassa usein muuta kerrotakaan.

Keskiarvo on toki kuvaava tunnusluku, mutta yksinään riittämätön. Keskiarvon lisäksi pitäisi aina ilmoittaa myös hajonta, havaintojen keskimääräinen poikkeama keskiarvosta. Hajonta sisältää nimittäin oleellista, jopa ratkaisevaa, tietoa.

Oletetaan, että tarvitset pesukonetta ja tarjolla on kaksi samanhintaista vaihtoehtoa, Zing ja Zang. Molempiin on tuhansia asiakasarvioita, joiden molempien keskiarvot ovat tasan kolme tähteä. Valinta jää sattuman ja perusteettomien ennakkoluulojen varaan.

Mutta entä jos saatkin tietää juuri ennen ostopäätöstä pesukoneiden asiakasarvostelujen hajonnat: Zing on saanut jokaiselta asiakkaalta kolme tähteä, Zang taasen puolelta asiakkaista yhden tähden (eli heikoimman arvosanan) ja puolelta asiakkaista viisi tähteä (eli parhaan arvosanan). Molempien keskiarvo on kolme, mutta Zingin hajonta nolla, Zangin hajonta kaksi tähteä (eli suurin mahdollinen, kun asteikkona 1-5 tähteä). Kumman valitset?

Hajonnan merkitys riippuu asiayhteydestä. Pesukoneelta sopii toivoa tasaista varmuutta, ei hohtoa tai ihmeitä. Pesukoneista kannattaa siis valita se vaihtoehto, jonka arvosteluissa on pienempi hajonta. Luultavasti puolet Zangin koneista on viallisia tai siinä on jokin ominaisuus, joka ei puolelle käyttäjistä sovellu. Parasta olisi tietysti selvittää tuo syy ja päättää vasta sitten, mutta aikakin on rahaa eikä syy välttämättä selviä etukäteen.

Oletetaan, että menet katsomaan elokuvaa ja tarjolla on jälleen kaksi vaihtoehtoa, Zing ja Zang. Molempiin on tuhansia arvosteluja, joiden molempien keskiarvot ovat tasan kolme tähteä, mutta Zingin hajonta on nolla, Zangin hajonta kaksi tähteä. Kumman valitset?

Toisin kuin pesukoneen, elokuvan sopii herättää tunteita. Kannattaa siis mennä katsomaan elokuvaa, jota puolet katsojista vihaa ja puolet rakastaa, kuin sellaista johon kaikki reagoivat jassoo.

Arvosteluista on muutamalla klikkauksella yleensä nähtävissä myös arvosanojen koko jakauma, mutta hajonta voisi näkyä keskiarvon ohella jo tuotelistauksessa. Moni ei ehkä tiedä tai ymmärrä hajontaa, mutta voisi oppia jos näkisi hajonnan yhtä usein kuin keskiarvonkin.

Oletetaan, että tarvitset työntekijän ja tarjolla on jälleen kaksi vaihtoehtoa, Matti ja Teppo. Molempien hakijoiden todistusten keskiarvo on tasan seitsemän, mutta Matti on saanut jokaisesta 20 aineesta seiskan, Teppo 12 vitosta ja 8 kymppiä. Kumman valitset?

Hajonnan merkitys riippuu jälleen asiayhteydestä. Kaavamaiseen puurtamiseen kannattaa näillä tiedoilla valita Matti, luovaan älylliseen työhön Teppo.

Hajontaa voi mitata monin tavoin, ei ainoastaan keskihajonnan numeerisen arvon avulla. Esimerkiksi hajonnan positiivisen merkityksen voi määrittää valintatilanteessa huomioimalla keskiarvon lisäksi vaikkapa viisi parasta arvosanaa. Tepon ansioluettelo 7, 10, 10, 10, 10, 10 näyttää silloin paljon paremmalta kuin Matin vastaavaa 7, 7, 7, 7, 7, 7. Üheksa ametit, kümnes nälg, tietävät etelänaapurimmekin.

Jokaiseen tutkimukseen sisältyy virherajat, joita ei kerro keskiarvo vaan hajonta. Virherajat johtuvat kaiken väistämättömästä epävarmuudesta, eivätkä tarkoita mokaa tai että jotain olisi tehty väärin. Täydelliseen tutkimukseenkin sisältyy virhe, mutta täydellisessä tutkimuksessa se on osuvasti arvioitu ja täsmällisesti ilmoitettu. Tutkimustuloksista näytetään tai korostetaan uutisissa ja lehtijutuissa silti vain keskiarvoja ilman minkäänlaista hajonnan tai virherajojen kaltaista epävarmuuden ilmaisua.

Ongelma on siinä, että ilman virherajoja tutkimustuloksia ei voida verrata toisiinsa. Ei voida sanoa onko hanke A, jonka kustannusarvio on 1,6 miljardia euroa, toteutuessaan kalliimpi kuin hanke B, jonka kustannusarvio on 1,2 miljardia euroa, jos ennusteiden virherajoista ei tiedetä mitään. Ennusteen poikkeama on nimittäin verrannollinen tekijään (keskiarvojen erotus)/virhe, ja kun virhe → 0, jakolasku kasvattaa poikkeaman äärettömäksi. Virheettömät ennusteet ovat siis äärettömän huonoja.

Virherajojen puuttuminen vaivaa yleisemminkin viestintää, jopa tiedepuolella. Ongelma on niin lukijoissa, jotka janoavat varmuutta, mediassa, joka varmuutta kauppaa, kuin tutkijoissa, jotka eivät riittävästi korosta tulostensa epävarmuutta.

Ongelma helpottuisi, jos vain riittävän moni ymmärtäisi hajonnan ratkaisevan merkityksen.

Kun siis kuulet tai näet seuraavan kerran pelkän keskiarvon, vaadi myös hajontaa!

Kommentit (2)

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat