Kirjoitukset avainsanalla tilastotiede

Kuva: Minderbinder / Wikimedia Commons

Keskiarvoja on kaikkialla. Nettikauppa listaa tuotteidensa asiakasarvostelujen keskiarvot. Todistuksesta kysytään aina keskiarvo. Tutkimuksesta näytetään keskiarvot, eikä mediassa usein muuta kerrotakaan.

Keskiarvo on toki kuvaava tunnusluku, mutta yksinään riittämätön. Keskiarvon lisäksi pitäisi aina ilmoittaa myös hajonta, havaintojen keskimääräinen poikkeama keskiarvosta. Hajonta sisältää nimittäin oleellista, jopa ratkaisevaa, tietoa.

Oletetaan, että tarvitset pesukonetta ja tarjolla on kaksi samanhintaista vaihtoehtoa, Zing ja Zang. Molempiin on tuhansia asiakasarvioita, joiden molempien keskiarvot ovat tasan kolme tähteä. Valinta jää sattuman ja perusteettomien ennakkoluulojen varaan.

Mutta entä jos saatkin tietää juuri ennen ostopäätöstä pesukoneiden asiakasarvostelujen hajonnat: Zing on saanut jokaiselta asiakkaalta kolme tähteä, Zang taasen puolelta asiakkaista yhden tähden (eli heikoimman arvosanan) ja puolelta asiakkaista viisi tähteä (eli parhaan arvosanan). Molempien keskiarvo on kolme, mutta Zingin hajonta nolla, Zangin hajonta kaksi tähteä (eli suurin mahdollinen, kun asteikkona 1-5 tähteä). Kumman valitset?

Hajonnan merkitys riippuu asiayhteydestä. Pesukoneelta sopii toivoa tasaista varmuutta, ei hohtoa tai ihmeitä. Pesukoneista kannattaa siis valita se vaihtoehto, jonka arvosteluissa on pienempi hajonta. Luultavasti puolet Zangin koneista on viallisia tai siinä on jokin ominaisuus, joka ei puolelle käyttäjistä sovellu. Parasta olisi tietysti selvittää tuo syy ja päättää vasta sitten, mutta aikakin on rahaa eikä syy välttämättä selviä etukäteen.

Oletetaan, että menet katsomaan elokuvaa ja tarjolla on jälleen kaksi vaihtoehtoa, Zing ja Zang. Molempiin on tuhansia arvosteluja, joiden molempien keskiarvot ovat tasan kolme tähteä, mutta Zingin hajonta on nolla, Zangin hajonta kaksi tähteä. Kumman valitset?

Toisin kuin pesukoneen, elokuvan sopii herättää tunteita. Kannattaa siis mennä katsomaan elokuvaa, jota puolet katsojista vihaa ja puolet rakastaa, kuin sellaista johon kaikki reagoivat jassoo.

Arvosteluista on muutamalla klikkauksella yleensä nähtävissä myös arvosanojen koko jakauma, mutta hajonta voisi näkyä keskiarvon ohella jo tuotelistauksessa. Moni ei ehkä tiedä tai ymmärrä hajontaa, mutta voisi oppia jos näkisi hajonnan yhtä usein kuin keskiarvonkin.

Oletetaan, että tarvitset työntekijän ja tarjolla on jälleen kaksi vaihtoehtoa, Matti ja Teppo. Molempien hakijoiden todistusten keskiarvo on tasan seitsemän, mutta Matti on saanut jokaisesta 20 aineesta seiskan, Teppo 12 vitosta ja 8 kymppiä. Kumman valitset?

Hajonnan merkitys riippuu jälleen asiayhteydestä. Kaavamaiseen puurtamiseen kannattaa näillä tiedoilla valita Matti, luovaan älylliseen työhön Teppo.

Hajontaa voi mitata monin tavoin, ei ainoastaan keskihajonnan numeerisen arvon avulla. Esimerkiksi hajonnan positiivisen merkityksen voi määrittää valintatilanteessa huomioimalla keskiarvon lisäksi vaikkapa viisi parasta arvosanaa. Tepon ansioluettelo 7, 10, 10, 10, 10, 10 näyttää silloin paljon paremmalta kuin Matin vastaavaa 7, 7, 7, 7, 7, 7. Üheksa ametit, kümnes nälg, tietävät etelänaapurimmekin.

Jokaiseen tutkimukseen sisältyy virherajat, joita ei kerro keskiarvo vaan hajonta. Virherajat johtuvat kaiken väistämättömästä epävarmuudesta, eivätkä tarkoita mokaa tai että jotain olisi tehty väärin. Täydelliseen tutkimukseenkin sisältyy virhe, mutta täydellisessä tutkimuksessa se on osuvasti arvioitu ja täsmällisesti ilmoitettu. Tutkimustuloksista näytetään tai korostetaan uutisissa ja lehtijutuissa silti vain keskiarvoja ilman minkäänlaista hajonnan tai virherajojen kaltaista epävarmuuden ilmaisua.

Ongelma on siinä, että ilman virherajoja tutkimustuloksia ei voida verrata toisiinsa. Ei voida sanoa onko hanke A, jonka kustannusarvio on 1,6 miljardia euroa, toteutuessaan kalliimpi kuin hanke B, jonka kustannusarvio on 1,2 miljardia euroa, jos ennusteiden virherajoista ei tiedetä mitään. Ennusteen poikkeama on nimittäin verrannollinen tekijään (keskiarvojen erotus)/virhe, ja kun virhe → 0, jakolasku kasvattaa poikkeaman äärettömäksi. Virheettömät ennusteet ovat siis äärettömän huonoja.

Virherajojen puuttuminen vaivaa yleisemminkin viestintää, jopa tiedepuolella. Ongelma on niin lukijoissa, jotka janoavat varmuutta, mediassa, joka varmuutta kauppaa, kuin tutkijoissa, jotka eivät riittävästi korosta tulostensa epävarmuutta.

Ongelma helpottuisi, jos vain riittävän moni ymmärtäisi hajonnan ratkaisevan merkityksen.

Kun siis kuulet tai näet seuraavan kerran pelkän keskiarvon, vaadi myös hajontaa!

Kommentit (2)

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Kuva: Wilfried Berns / Wikimedia Commons

Opettaja pyrkii esittämään uudet asiat niin, että ne tuntuvat tutulta. Toimittaja pyrkii esittämään tutut asiat niin, että ne tuntuvat uudelta.

Huomiotaloudessa on tehtävä kohua kohinasta tai toimittajasta tulee ex-toimittaja. Se on eksodus rehelliselle toimittajalle.

Kohina tarkoittaa satunnaista virhevaihtelua, joka häiritsee dataa eli tietoaineistoa. Sitä esiintyy aina, kun tutkitaan tai mitataan jotain. Kohina on signaalin vastakohta. Jos eri tutkimukset antavat saman puolueen kannatusmittaukseksi 17.4%, 17.1% ja 17.8%, erot desimaalissa ovat kohinaa. Kohinan voi nähdä zoomatusta valokuvasta omin silmin ja kuulla vanhasta radiosta omin korvin.

Kun puolueiden kannatusmittauksissa ei tapahdu kuin pelkkää virhemarginaaliin mahtuvaa satunnaista kohinaa, rehellinen uutinen kertoisi: "puolueiden kannatussuhteet ennallaan". Mutta toimittajan pitää kohahduttaa: "Yllätyspuolueen kannatuksessa hurja käännös, kärkipuolue sakkasi - katso kuvat puoluejohtajien venähtäneistä naamoista!"

Äidinkielen tunneilla opetettiin, että otsikon tulee kiteyttää tekstin ydinasia. Mediapelissä otsikon tarkoitus on voittaa kaikkien huomio ja aktivoida sormet klikkaamaan.

Lisäksi toimittajat käyvät uutisesta sekuntikilpaa, jossa ensimmäisenä klikkiotsikkonsa julkaiseva mediatalo voittaa myös muiden viittaukset. Laatu on sivuseikka.

Eräs luotettavimpia tutkimustuloksia on se, että julkaistuista tuloksista vain murto-osa osoittautuu pidemmän päälle luotettaviksi. Yksittäisten tutkimusten varaan rakentuva maailmankuva on talo hiekalla.

Vasta johdonmukaisesti ja riippumattomasti toistuvat tulokset luovat vakaan tieteellisen maailmankuvan pohjan. Siihen kuuluvat fysiikan lakien, maapallon historian sekä evoluution kaltaiset koetellut faktat, jotka lukemattomat riippumattomat tutkimukset ovat vahvistaneet.

Kun toimittajat nostavat yksittäisiä tutkimuksia otsikoihin, jutuista puuttuu iso kuva. Milloin flunssaa voi parantaa, milloin ei. Milloin kahvi on terveellistä, milloin epäterveellistä. Totta tänään, tarua huomenna.

Todellisuudessa tiede ei ole postimerkkikokoelman kaltainen tiedosto, vaan tapa hankkia tietoa. Tiede antaa harhattominta mahdollista tietoa, jossa oleellisena osana on arvio tiedon epävarmuudesta: mittaustulos = paras arvio ± mittausvirhe. Jos tulokset vaihtelevat virhettä vähemmän, muutos ei ole todellista vaan todennäköisesti sattuman aiheuttamaa kohinaa.

Pintapuolinen tiedeuutisointi näyttää tieteen epävakaana mörkönä, jolle todellisuus määräytyy päivän kohusta. Ja mikä sen kohahduttavampaa kuin fysiikan lakien kumoaminen. Kukapa ei haluaisi osoittaa, että Einstein oli väärässä.

Oikeasti koeteltuja fysiikan teorioita ei edes voi kumota, vaan ainoastaan rajata niiden toimialuetta. Ja rajaaminenkin on mahdollista vain silloin harvoin kun keksitään jokin yleisemmin pätevä teoria, joka ennustaa ja selittää havaintoja vanhaa paremmin. Einstein ei kumonnut Newtonin teoriaa liikkeestä ja painovoimasta, vaan laajensi sen koskemaan suuria nopeuksia, vahvoja painovoimakenttiä ja koko maailmankaikkeuden mittakaavaa. Ennen Einsteinia ei tiedetty Newtonin teorian rajoja. Nykyään ei tiedetä Einsteinin teorian rajoja.

Evoluutio ja maapallon historiakin pysyvät faktana, vaikka elämän ja maan kehityksestä saadaan tarkempaa tietoa. Tieteessä suuret linjat pitävät.

Lukutaito ei ole pelkästään kirjainten, sanojen ja lauseiden tunnistamista. Siihen kuuluu myös taito arvioida tekstin luotettavuutta. Taito erottaa asiat, joista tiedetään paljon, asioista, joista tiedetään vähän tai ei yhtään. Taito erottaa signaali kohinasta.

Kommentit (0)

Kummalta puolelta?
*sanomalehden rapinaa*
Kakkoselta! Käännä kakkoselle.

Tällaisen sananvaihdon muistan kuulleeni lukemattomat kerrat lapsuudessani. Keskustelussa oli kyse tietenkin siitä, miltä tv-kanavalta urheilulähetys alkoi. Vaihtoehtoja oli kaksi, ja kanava tarkistettiin Urjalan Sanomista.

Kaikki seurasivat urheilua. Lapset ja aikuiset. Kaverit ja sukulaiset. Yleisurheilua, olympialaisia, mäkihyppyä, hiihtoa, jalkapalloa, jääkiekkoa ja mitä vain televisiossa tai radiossa lähetettiin.

Minäkin seurasin. Odottaen levottomana että lähetys loppuisi. En tykännyt penkkiurheilusta, mutta jokin siinä silti kiehtoi tavattomasti. En jaksanut katsella, mutta tulokset halusin aina tietää.

Vähitellen minulle alkoi valjeta todellinen intohimoni kohde: tilastot!

Aloin pitää salaista sääpäiväkirjaa, josta en hiiskunut kenellekään. Kirjasin tunnontarkasti jokaisen päivän sään ja piirtelin pidemmän aikavälin kuvaajia oranssikantiseen vihkooni. Vihko pysyi visusti kaikilta piilossa, koska jostain syystä häpesin sitä suunnattomasti. Tallessa se on tietenkin edelleen.

Pysäköityjen autojen ikkunoista kurkin nopeusmittarin maksimilukemia. Oliko se 140, 160, 180, 200 vai peräti 220 km/h. Muiden poikien ihaillessa autoja minä näin ne numeroina, jotka olivat minun ihailuni todellinen kohde. Kirjastosta löytyi henkilöautojen vuosikirjoja, joihin innoissani vertailin omaa havaintoaineistoani.

Olin innokas sienestäjä, mutta sienimetsänkin näin ensisijaisesti tilastoina. Itse sienet eivät maistuneet, mutta lajit, luokittelut ja kasvupaikat olivat sitäkin maistuvampaa henkistä ravintoa. Kuvassa ote viisivuotiaana kirjoittamastani sienikirjasta. Sienikirjojakin syntyi kynästäni jokunen kappale.

Varsinaiseksi kultakaivokseksi osoittautui tietokone.

Tietokone vapautti riippuvuuden todellisten urheilutapahtumien tuloksista. Microprose Soccer tuotti loputtomasti tilastoja, eikä sitä tarvinnut edes itse pelata vaan nappia painamalla tulokset sai Commodore 64:n ruudulle silmänräpäyksessä. Kaverit ihmettelivät, miksen pelaa vaan kirjoitan vain paperille ylös tuloksia. Tilastoistani laskin todennäköisyyksiä eri joukkueiden voitoille.

Pelien oheisvahinkona päähäni syntyi laaja tietokanta maailman maista ja kaupungeista. Maantieto oli koulussa helppoa. Tosin vasta koulussa opin, ettei All Stars olekaan kaupunki. Oletin sen USA:n pääkaupungiksi, koska joukkue oli paras.

Koodasin myös omia ohjelmia, jotka tuottivat tuloksia ja tilastoja. En sano vain tuloksia ja tilastoja, koska muuta en olisi halunnutkaan.

Välillä tilastointini keskeytti ainoastaan innosta pomppiminen.

Äidin ja isoveljen mielestä vietin liikaa aikaa tietokoneella. Jos sain tietokonekiellon, kirjoittelin tuloksia paperille omasta päästäni. Tilastoihini sitoutui melkoiset määrät hiiltä.

Rakkauteni tilastoihin on roihunnut varhaisesta lapsuudesta nykypäivään, eikä hiipumisesta ole merkkejä. Se on luultavasti hyvin pysyvä aivojen sisäsyntyinen ominaisuus. Iän myötä ilmiasu toki kehittyy. Minullakin alkuvaiheen kiinnostus itse tilastoinnista on laajentunut yhä enemmän kerätyn aineiston analysointiin ja tilastolliseen päättelyyn. Tilastollinen päättely kertoo kuinka havaintoja voidaan yleistää, mutta siitä kerron lisää toisella kerralla.

Kommentit (3)

Eusa
Liittynyt16.2.2011
Viestejä18192
1/3 | 

No miltä nyt tuntuu, kun koko kvanttifysiikan ala on osoittautunut tilastotieteeksi? Kiinnostaako mitkä lainalaisuudet vaikuttavat tilastojen takana? Mikä on aaltoilun itseisvuorovaikutus?

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

Kuva: Wikimedia Commons

Rakastamme yksinkertaisia selityksiä. Syy siinä, seuraus tässä. Matti syyllinen, Teppo uhri. Sinä pahis, minä hyvis.

Mustavalkoiset selitykset rauhoittavat. Ne vapauttavat aivomme muihin tehtäviin. Vaikkapa vetelemään seuraavia mutkia suoraksi.

Todellisuudessa yksinkertaisia syitä ei olekaan. Kaikki on pohjimmiltaan fysiikan perusvuorovaikutusten yhteispeliä. Ja ihmisen mittakaavassa vuorovaikuttavia syitä on ziljoonia. Mikään ei tee yksinään mitään.

Yksiselitteisen syyn etsiminen on kuin kysyisi, aiheuttaako tilavuuden pituus, leveys vai korkeus.

Jokainen koulunsa käynyt tietää, miten tilavuus lasketaan: pituus × leveys × korkeus. Kaikki kolme tarvitaan tai tilavuus häviää. Pedantti muistaa myös muotokertoimen – laatikolle 1, sylinterille π/4, pallolle π/6 jne. – joka on kuitenkin muodosta riippumatta aina > 0, eli ulottuvuuksien rinnalla pelkkää hienosäätöä.

Jokainen vuorovaikutus on matemaattisesti tekijöidensä tulo, eli eräänlainen tilavuus. Kun fyysikko määrittelee kvanttikenttäteorian, vuorovaikutukset näkyvät kertolaskuna. Kun humanisti määrittelee tilastollisen mallinsa, vuorovaikutukset näkyvät kertolaskuna. Summa a + b kuvaa riippumatonta vaikutusta, tulo a × b vuorovaikutusta.

Pillereitä ja sihijuomaa ei passaa päästää samaan vatsaan, koska ne voivat vuorovaikuttaa ikävin seurauksin. Sormeaan heristävä lääkäri puhuu yhteisvaikutuksesta tai yhdysvaikutuksesta.

Johtuiko pojan juominen huonosta seurasta vai sukurasitteesta? Oliko tupakka vai perimä sedän syövän syy? Mitä koskettavampi tapaus, sitä suurempi tarve vastauksille.

Usein kuulee, että geenit selittävät 40% sitä, 50% tuota ja 60% tätä. Mikä todellisuudessa tarkoittaa, että vaihtelu väestön geeneissä selittää sen 40, 50 tai 60% vaihtelusta havaitussa ilmiasussa. Jos yksilöt kasvaisivat identtisessä ympäristössä, geenit selittäisivät aina 100% havaitusta vaihtelusta. Ilmiasun syy on kuitenkin aina geenien ja ympäristön vuorovaikutus. Geenitkään eivät elä tyhjiössä. Ja toimivat vieläpä monimutkaisesti yhdessä vuorovaikuttaen, joka ansaitsee jo kokonaan oman tarinansa.

Entäs tuhopolttaja – yksiselitteisesti syyllinen, eikö totta? Ehkä, mutta palo on silti monisyinen, vaikkei kaiveltaisi edes kvanttimaailman syvyyksiä. Paloonhan tarvitaan happea, kuumuutta ja polttoainetta – vaikkapa puuta. Ilman kuumuutta happi ei yhdy puuhun. Ilman happea puu ei pala. Ilman puuta ei ole mikä palaisi. Eikä se syyllisyyskään ole niin yksiselitteinen, jos tuhopolttaja toimii vakuutusrahoja himoitsevan omistajan juoksupoikana.

Psykologien mukaan älykkyys ja persoonallisuus ovat toisistaan riippumattomat. Kuulostaa hienolta, mutta miten se on mahdollista? Äly ja luonnehan ovat samojen aivojen toimintaa, vaikka eivät olisikaan tilastollisesti toisiinsa yhteydessä. Ja aivot jos mitkä ovat itsensä ja ympäristön kanssa niin vahvasti vuorovaikuttava kokonaisuus, että kysymykset työnjaosta ovat väistämättä keinotekoisia. Ja vastaukset parhaimmillaankin vahvasti ehdollisia ja rajoitettuja.

Oliko Tsernobylin onnettomuuden syy reaktorin epävakaus vai huolimaton käyttö? Vakaa reaktori ei olisi voinut räjähtää edes huolimattomissa käsissä. Eikä epävakaa reaktori olisi huolellisesti käytettynä koskaan joutunut kriittiseen tilaan. Mutta välinpitämättömän kulttuurin ja riskialttiin tekniikan vuorovaikutus synnytti tuhoisan yhdistelmän.

Jokainen tarina tarvitsee kuitenkin roistonsa ja sankarinsa. Vuorovaikutusta kun on vaikea vangita. Yhdelle pallo jalkaan, toiselle urhoollisuusmitali rinnukseen. Homma selvä.

Vai onko? 

Ehkä opimme virheistä. Ehkä keskitymme syyttelyn sijaan tulevaisuuden kehittämiseen. Ehkä emme vaadi liian yksinkertaisia selityksiä monimutkaisiin ongelmiin. Ehkä.

Kommentit (2)

111
Liittynyt11.1.2019
Viestejä2226
1/2 | 

Joskus yksinkertaiset selitykset toimivat.

Mutta se johtaa isoon maailmankuvan mullistumiseen.

Vaikka Aurinko näyttää liikkuva taivaalla suhteessa meihin, ei se liiku.

Vaikka Maapallo tuntuu laajenevan jalkojemme alla, eivät fyysikot ole hyväksyneet tätä suoraa havaintoa siitä että Maapallo todellakin laajenee koko ajan, aivan kuten me itsekin.

Selvääkin selvempi todiste sille on se että sydän laajenee sykäyksittäin ja näin sen laajenemisen voi myös tuntea ja havaita.

Oletteko valmiita maailmankuvan mullistumiseen?

Työntyikö Auringon sisälle sittenkin pimeää laajenevaa työntävää vuosina 1572 ja 1604?

1900 - 1940 lämpeneminen olisi johtunut Tyko Brahen havaitsemasta supernovasta peräisin olevasta laajenevan valon meille pimeistä laajenevista aalloista.

Ja 1980 - 2010 lämpeneminen taas Keplerin Supernovasta peräisin olevasta laajenevan valon meille pimeistä laajenevista aalloista?!?

https://youtu.be/20WbvitTclc

Katso ja ihmettele.

Olit valmis tai et,

Nyt mullistetaan muailmankuvaa 😃

🤔

Ikuista työntävän voiman kierrätystä äärettömässä 3 D avaruudessa joka ei todellakaan laajene tai kaareudu. Laajeneva avaruus on keisari alasti!!!

David Galli
2/2 | 

Be cautious of "academies" - they are privately running and can be horrendous. The local primary / junior school to me became an academy four years ago. The year after  write my essay, it was generated, 18 staff resigned at Christmas. My neighbors' kids went there and the youngest had four different teachers in her first year. In this current academic year, the two reception classes are only 60% filled.

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat