Kirjoitukset avainsanalla tilastot

Kuva: Nick Hobgood / Wikimedia Commons

Psykologian professori Markus Jokela "korostaa, että tukevatkaan tilastolliset totuudet eivät koskaan kerro yksilöstä mitään". Eivät koskaan. Mitään. Tämä todella on sanatarkka lainaus Tiede-lehden jutusta (2/2020, s. 31) joka löytyy (maksullisena) myös verkkojulkaisusta. Olen kuullut Jokelan luennoilla vastaavaa väitettä, joten toimittaja lienee lainannut professoria totuudenmukaisesti.

Samaa väitettä toistellaan niin usein milloin missäkin, että haluan esittää vastalauseeni: Kyllä tilastot kertovat yksilöstä, todennäköisyyksiä. Ja koska kaikki tietomme pohjautuu enemmän tai vähemmän todennäköisyyksiin, tieto todennäköisyyksistä on tietoa sanan parhaassa merkityksessä.

Säähavainnot ovat tilasto. Huomisen sää on yksilö. Huomisen sään ennustaminen ei olisi mahdollista, jos tilastot eivät kertoisi yksilöstä mitään.

Kun havainnot eli tilastot ennustavat, fysiikan ja matematiikan avustamana, että paikkakunnalla sataa seuraavana päivänä runsaasti lunta 90% todennäköisyydellä, kertoo tilasto ainakin kaksi asiaa: 1) Suuressa sääaineistossa vastaavat ennusteet toteutuvat yhdeksän kertaa kymmenestä runsaana lumipyrynä, eli kerran kymmenestä eivät toteudu kun ennusteet ovat täsmääviä. 2) Aurausväki ja -kalusto kannattaa hälyttää valmiuteen. Ensimmäinen kertoo tilastoista, jälkimmäinen yksilöstä.

Todennäköisyydellä on kaksi puolta: tilastoissa se kuvaa tapahtumien osuuksia, yksilöillä tapahtumien varmuuden astetta.

Tilastot eivät tietenkään kerro esim. sellaista, että jokainen vuosi koulua kasvattaisi yksilön älykkyysosamäärää muutamalla pisteellä, vaikka väestöjen keskiarvoissa vastaava kasvu havaittaisiinkin. Mutta samat tilastot kertovat, että 20 vuotta kouluja käyneen yksilön älykkyys on todennäköisesti korkeampi kuin 10 vuotta kouluja käyneen yksilön, vaikka jokainen 20 vuotta kouluja käynyt ei tietenkään ole jokaista 10 vuotta kouluja käynyttä älykkäämpi (eikä havaittu yhteys yksistään kerro koulutuksen ja älykkyyden syy-seuraussuhdetta, minkä päättely on vielä oma aiheensa). 

Erityistapauksissa tilastot voivat kertoa hyvinkin tarkkoja tietoja yksilöistä. Jos luokan kokeiden arvosanoista saa julkaista vain keskiarvon, mutta tuo keskiarvo sattuu olemaan tasan 10, tilasto kertoo suoraan jokaisen yksilön arvosanan: Kaikkien täytyi saada kymppi, koska muutoin keskiarvo olisi välttämättä alle 10.

Jokela varmasti ymmärtää tämän tilastoista ja todennäköisyyksistä, joten luultavasti hänen väitteensä on vain hyvää tarkoittava yritys pehmentää jutun kovaksi miellettyä sanomaa havaitusta geenien suuresta vaikutuksesta älykkyyteen, mistä juttu todenmukaisesti kertookin.

Mutta vaikka Jokelan kaltainen huippuälykäs yksilö ymmärtää tilastojen ja yksilöiden todellisen yhteyden, kaikki hänen juttujaan seuraavat eivät välttämättä ymmärrä. Höpöväitteiden hyväntahtoinenkin toistelu ruokkii ja aseistaa huuhaan ja väärinymmärrysten tahattomia ja tahallisia levittäjiä.

Tyypillinen päättelyvirhe on ensin mitätöidä laadukas tieto "vain tilastollisena" ja samaan hengenvetoon hyväksyä jokin toinen, omiin tarkoituksiin sopiva "tilastollinen" tulos tai jopa täysin perusteeton väite totuutena. Eikä tapa ole vain Yhdysvaltojen väistyvän presidentin yksinoikeus, vaikka hän onkin erityisen ansiokkaasti tehnyt sitä tunnetuksi, vaan siihen haksahtavat hyvää tarkoittavat ja fiksutkin ihmiset.

Otan esimerkiksi neurobiologi Tiina Hutun Tiede-lehteen (11/2020, s. 14-21) kirjoittaman jutun, joka on mielestäni erittäin ansiokas katsaus kasvatuksen merkityksestä lukuun ottamatta väliotsikon "Kotiolot ohjaavat koulutusta" jälkeistä loppua, joka käsittelee tilastojen ja yksilön välistä suhdetta. Suosittelen lukemaan koko jutun, joka löytyy myös (maksullisena) verkosta. Jutussa ei väitetä suoraan, että tilastot "eivät koskaan kerro yksilöstä mitään", mutta siinä esiintyy kuitenkin mielestäni samansukuista päättelyä hienovaraisempana. Ja paljolti hienovaraisuuden vuoksi tämän jutun nostankin esimerkiksi, koska räikeisiin esimerkkeihin törmää päivittäin ainakin politiikassa.

Huttu kirjoittaa lehden sivulla 20, että kaksostutkimuksista "ei voida päätellä, kuinka paljon geenit, lapsuudenkoti tai muu ympäristö ovat vaikuttaneet tietyn yksilön älykkyyteen", koska "osuudet pätevät vain tilastollisesti".

Vaikka geenien, kasvatuksen ym. tekijöiden vaikutuksia tietyllä yksilöllä ei tietenkään voida päätellä tarkkaan, voidaan niiden vaikutuksista kuitenkin päätellä yksilötasollakin todennäköisyyksiä virherajoineen ym. epävarmuuksineen, jotka voivat toki olla monissa tapauksissa suuria. Hyväksyisin Hutun käyttämän ilmaisun kaksostutkimuksista "vain tilastollisena", jollei hän jatkaisi että "Täysin satunnaisia ympäristön vaikutukset eivät kuitenkaan ole. Jokainen vuosi koulua kasvattaa älykkyysosamäärää keskimäärin 1-5 pistettä, geeneistä riippumatta", minkä "tilastollisuutta" jutussa ei mainita; "keskimäärin"-määreenkin voi tulkita viittaavan yksilön sisäisen kehityksen vuosikeskiarvoon ennemmin kuin väestötason keskiarvoon. 

Saan Hutun jutusta sellaisen (väärin)käsityksen, että yksilön näkökulmasta kaksostutkimukset voitaisiin kuitata "vain tilastollisena", mutta koulututkimuksia ei. Etenkin kun jutussa vielä myöhemmin korostetaan, että "kaksostutkimusten perusteella on turha väittää, ettei kasvatus kasvattaisi" ja että, jos lapsuudenkodin "vaikutukset eivät näy tilastollisesti standardoiduissa psykologissa tai kognitiivisissa testeissä, se ei vielä välttämättä tarkoita, että vanhemmuudella ei ole järjestelmällistä vaikutusta. Yhtä hyvin voimme päätellä, että nuo testit eivät selitä ihmistä." Jos testit eivät selitä ihmistä, samalla kai kyseenalaistuu myös niiden pätevyys koulutuksen hyötyjen mittarina.  

Minulle hiipii kasvatusjutun esittämästä tilastokritiikistä sama ajatus kuin älykkyysjutunkin kohdalla: onkohan tässäkin jälleen kyseessä yritys pehmentää jutun kovaksi miellettyä sanomaa geenien suuresta vaikutuksesta.

Tilastot kertovat yksilöstä. Tiede on suurelta osin yleistämistä havainnoista ja tilastoista yksittäistapauksiin ja yksilöihin sekä erityisesti tähän päättelyyn liittyvän epävarmuuden täsmällistä arviointia. Eikä tiedeviestinnän tehtävä ole pyydellä tätä tosiasiaa anteeksi tai yrittää peitellä pehmoisilla, vaan tarjota parhaat valmiudet ymmärtää ja sopeutua todellisuuteen.

Kommentit (12)

Eusa
Liittynyt16.2.2011
Viestejä20741
1/12 | 

Jos koko luokallinen saa kokeesta kympin, ei se kerro mitään kokeeseen osallistuneista yksilöistä vaan enintään kokeen laatineesta yksilöstä.

Sulta on Teppo nyt mennyt tilastollinen todennäköisyysfunktio ja observaabeli iloisesti sekaisin.

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

Vierailija
2/12 | 

Omaksumme todennäköisemmin totena sellaiset asiat, jotka täsmäävät aikaisempiin uskomuksiimme.
Tämä estää meitä olemasta objektiivisia todellisuutta kohtaan. Myös tiede on eräänlainen uskomus, johon sokeasti uskominen voi rajoittaa oikean todellisuuden kokemista. Lisäksi kun uutta tietoa syntyy, osa vanhasta tiedosta paljastuu sen myötä valheelliseksi.

Vierailija
3/12 | 

Siksi myös leimaamme jotkin asiat helposti huuhaaksi, jos ne ovat meille/suurimmalle osalle ihmisistä outoja, eivätkä vastaa aikaisempia uskomuksiamme.

Eusa
Liittynyt16.2.2011
Viestejä20741
6/12 | 

Teppo Mattsson kirjoitti:
Analyyttinen, tai mikä hyvänsä todennäköisyyksiin perustumaton, "tieto" on määritelmiä ja tautologioita.

Ei ole poissuljettua, että todennäköisyyksiin perustuva tieto perustuu kuitenkin puhtaasti analyyttiseen tietoon. Tämä skenaario on jopa lähtökohdastaan kaiken havaittavan muodostumiseksi jopa hyvin todennäköinen :)

Todennäköisyyksin käsiteltävä tilastoaineisto olisi siten lähinnä tiedon puutetta, ei tiedon paljoutta. Informaatioteorialla olisi tästä paljonkin sanottavaa.

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

Käyttäjä23615
Liittynyt3.8.2020
Viestejä2
7/12 | 

Olipa oikeasti mielenkiintoinen ja ajatuksia herättänyt kirjoitus. Kiitos!

Mitä todennäköisyyksiin tulee, avasin kommentoinnin varovaisin mielin, aikaisempiin, empiirisiin "tilastointeihin" perustuen. Ja niinhän se, ei niin inspiroivan palauteryöpyn todennäköisyys taas toteutui... 

Vaikka keskusteluiden tason keskiarvo olisikin inspiroivan asiallisuusasteikon keskivaiheilla, niin toki se ei kerro vielä niistä keskustelun tunnelman tappavista yksilöistä aivan kaikkea.

Harmillista, koska tuntuu, että keskustelu lähtee niin helposti ikävälle suomi24 & vauva.fi  lynkkaus- ja väittelypolulle. Aivan kuin lukijoilla olisi tavoite nostaa jotenkin itsensä kirjoittajan yläpuolelle. Mihin on hävinnyt inspiroivat ja asialliset keskustelut ...jos niitä on koskaan ollutkaan? Kertokaa toki mistä sellaisia keskusteluita löytää, niin siirryn mielummin sellaisen lehden tilaajaksi.

Eusa
Liittynyt16.2.2011
Viestejä20741
8/12 | 

Käyttäjä23615 kirjoitti:
Olipa oikeasti mielenkiintoinen ja ajatuksia herättänyt kirjoitus. Kiitos!

Mitä todennäköisyyksiin tulee, avasin kommentoinnin varovaisin mielin, aikaisempiin, empiirisiin "tilastointeihin" perustuen. Ja niinhän se, ei niin inspiroivan palauteryöpyn todennäköisyys taas toteutui... 

Vaikka keskusteluiden tason keskiarvo olisikin inspiroivan asiallisuusasteikon keskivaiheilla, niin toki se ei kerro vielä niistä keskustelun tunnelman tappavista yksilöistä aivan kaikkea.

Harmillista, koska tuntuu, että keskustelu lähtee niin helposti ikävälle suomi24 & vauva.fi  lynkkaus- ja väittelypolulle. Aivan kuin lukijoilla olisi tavoite nostaa jotenkin itsensä kirjoittajan yläpuolelle. Mihin on hävinnyt inspiroivat ja asialliset keskustelut ...jos niitä on koskaan ollutkaan? Kertokaa toki mistä sellaisia keskusteluita löytää, niin siirryn mielummin sellaisen lehden tilaajaksi.


Hm. Miksi et kommentoi aihetta? Lasket keskustelun tasoa.

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

KäyttäjänKäyttäjä
Liittynyt26.1.2020
Viestejä437
10/12 | 

Eli tilastot ei kerro yksilöstä. Tilastot kertovat yksilöön liittyvistä todennäköisyyksistä.

1. Pohjois-Korea on maailman vähiten globalistinen valtio.
Sukupuolentutkimuksen asiantuntija. Aivopesun vastustaja.
Täysin puolueeton nero.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla

Kummalta puolelta?
*sanomalehden rapinaa*
Kakkoselta! Käännä kakkoselle.

Tällaisen sananvaihdon muistan kuulleeni lukemattomat kerrat lapsuudessani. Keskustelussa oli kyse tietenkin siitä, miltä tv-kanavalta urheilulähetys alkoi. Vaihtoehtoja oli kaksi, ja kanava tarkistettiin Urjalan Sanomista.

Kaikki seurasivat urheilua. Lapset ja aikuiset. Kaverit ja sukulaiset. Yleisurheilua, olympialaisia, mäkihyppyä, hiihtoa, jalkapalloa, jääkiekkoa ja mitä vain televisiossa tai radiossa lähetettiin.

Minäkin seurasin. Odottaen levottomana että lähetys loppuisi. En tykännyt penkkiurheilusta, mutta jokin siinä silti kiehtoi tavattomasti. En jaksanut katsella, mutta tulokset halusin aina tietää.

Vähitellen minulle alkoi valjeta todellinen intohimoni kohde: tilastot!

Aloin pitää salaista sääpäiväkirjaa, josta en hiiskunut kenellekään. Kirjasin tunnontarkasti jokaisen päivän sään ja piirtelin pidemmän aikavälin kuvaajia oranssikantiseen vihkooni. Vihko pysyi visusti kaikilta piilossa, koska jostain syystä häpesin sitä suunnattomasti. Tallessa se on tietenkin edelleen.

Pysäköityjen autojen ikkunoista kurkin nopeusmittarin maksimilukemia. Oliko se 140, 160, 180, 200 vai peräti 220 km/h. Muiden poikien ihaillessa autoja minä näin ne numeroina, jotka olivat minun ihailuni todellinen kohde. Kirjastosta löytyi henkilöautojen vuosikirjoja, joihin innoissani vertailin omaa havaintoaineistoani.

Olin innokas sienestäjä, mutta sienimetsänkin näin ensisijaisesti tilastoina. Itse sienet eivät maistuneet, mutta lajit, luokittelut ja kasvupaikat olivat sitäkin maistuvampaa henkistä ravintoa. Kuvassa ote viisivuotiaana kirjoittamastani sienikirjasta. Sienikirjojakin syntyi kynästäni jokunen kappale.

Varsinaiseksi kultakaivokseksi osoittautui tietokone.

Tietokone vapautti riippuvuuden todellisten urheilutapahtumien tuloksista. Microprose Soccer tuotti loputtomasti tilastoja, eikä sitä tarvinnut edes itse pelata vaan nappia painamalla tulokset sai Commodore 64:n ruudulle silmänräpäyksessä. Kaverit ihmettelivät, miksen pelaa vaan kirjoitan vain paperille ylös tuloksia. Tilastoistani laskin todennäköisyyksiä eri joukkueiden voitoille.

Pelien oheisvahinkona päähäni syntyi laaja tietokanta maailman maista ja kaupungeista. Maantieto oli koulussa helppoa. Tosin vasta koulussa opin, ettei All Stars olekaan kaupunki. Oletin sen USA:n pääkaupungiksi, koska joukkue oli paras.

Koodasin myös omia ohjelmia, jotka tuottivat tuloksia ja tilastoja. En sano vain tuloksia ja tilastoja, koska muuta en olisi halunnutkaan.

Välillä tilastointini keskeytti ainoastaan innosta pomppiminen.

Äidin ja isoveljen mielestä vietin liikaa aikaa tietokoneella. Jos sain tietokonekiellon, kirjoittelin tuloksia paperille omasta päästäni. Tilastoihini sitoutui melkoiset määrät hiiltä.

Rakkauteni tilastoihin on roihunnut varhaisesta lapsuudesta nykypäivään, eikä hiipumisesta ole merkkejä. Se on luultavasti hyvin pysyvä aivojen sisäsyntyinen ominaisuus. Iän myötä ilmiasu toki kehittyy. Minullakin alkuvaiheen kiinnostus itse tilastoinnista on laajentunut yhä enemmän kerätyn aineiston analysointiin ja tilastolliseen päättelyyn. Tilastollinen päättely kertoo kuinka havaintoja voidaan yleistää, mutta siitä kerron lisää toisella kerralla.

Kommentit (3)

Eusa
Liittynyt16.2.2011
Viestejä20741
1/3 | 

No miltä nyt tuntuu, kun koko kvanttifysiikan ala on osoittautunut tilastotieteeksi? Kiinnostaako mitkä lainalaisuudet vaikuttavat tilastojen takana? Mikä on aaltoilun itseisvuorovaikutus?

Hienorakennevakio vapausasteista: (1+2¹+3²+5³+1/2¹*3²/5³)⁻¹ = 137,036⁻¹

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat