Kuva: W.D.F. Vincent / Wikimedia Commons

Lyhyillä ihmisillä on tyypillisesti lyhyet jalat, pitkillä ihmisillä tyypillisesti pitkät jalat. Vaikka kehon mittasuhteissa on yksilöllistä vaihtelua, pelkkä jalkavarren pituus paljastaa yleensä varsin tarkasti ja luotettavasti myös koko kehon pituuden.

Tilastotieteen menetelmillä voidaan luoda todennäköisyyksiin perustuva malli, joka ennustaa ihmisen pituuden hänen jalkavartensa pituudesta.

Ihmisellä on kaksi jalkaa, jotka eivät ole täysin samanpituiset. Tässä harmittomalta kuulostavassa lisätiedossa lymyää petollinen ansa, johon tilastotieteen huolimaton käyttäjä lankeaa. Ja ammatikseni tilastotiedettä soveltaessa olen huomannut, että ansaan astuu väkeä yhtenään. Langenneista valppaimmat ihmettelevät järjettömiltä tuntuvia tuloksia. Osa ei edes huomaa ongelmaa.

Ansasta varoittaminen on varsinainen asiani. Ihmisten jalat ja pituudet ovat pelkkä sivuseikka, jonka olen havainnollistavan konkretiansa vuoksi valinnut esimerkiksi. Sama vaara vaanii lähes kaikissa tilastotieteen sovelluksissa, joilla yritetään mallintaa usean muuttujan keskinäistä riippuvuutta. Ja monissa tilanteissa ongelma on paljon salakavalampi kuin käsittelemässämme pituusesimerkissä.

Tilastollisessa mallissa on tyypillisesti yksi ennustettava kohdemuuttuja y (tässä kehon pituus) ja yksi tai useampia ennustavia syötemuuttujia x (tässä jalkojen pituudet). 

Mallin luomiseksi kerätään ensin riittävän suuri ja väestöä edustava satunnaisotos ihmisiä, joiden kehon ja jalkojen pituudet mitataan mahdollisimman tarkasti.

Kun mittausaineisto on kerätty, aineistoon sovitetaan tilastollinen malli. Mallissa on kutakin ennustavaa muuttujaa kohti sovitettava kulmakerroin. Kulmakertoimet ovat liikkuvia osia, joiden arvot kiinnitetään vaatimalla paras mahdollinen sopivuus aineistoon (ehtona pienin virheneliösumma tai suurin uskottavuus).

Valmista mallia voidaan hyödyntää uusien, aineiston ulkopuolisten ihmisten pituuden ennustamiseen mittaamalla pelkästään heidän jalat. Mallille löytyy käyttöä suunniteltaessa vaatteita, käyttötavaroita ja työpisteiden ergonomiaa, ratkottaessa rikoksia, selvitettäessä onnettomuuksia, tutkittaessa fossiileja ja arkeologisia jäännöksiä sekä lähes kaikkialla missä kehon mittasuhteilla on merkitystä.

Ongelma syntyy, kun ennustavat muuttujat riippuvat vahvasti toisistaan kuten oikean ja vasemman jalan pituudet.

Nimittäin kaksi ennustavaa muuttujaa (tässä vasemman jalan pituus ja oikean jalan pituus) sisältävä malli vastaa kysymykseen: mikä on yhden muuttujan (esim. oikean jalan pituuden) lisäarvo kohdemuuttujan (eli kehon pituuden) ennustamisessa, kun toinen muuttuja (vasemman jalan pituus) jo tunnetaan. Jos vasemman jalan pituus tunnetaan, oikean jalan pituus ei juuri tuo lisäarvoa. Jos oikean jalan pituus tunnetaan, vasemman jalan pituus ei juuri tuo lisäarvoa. Jalkojen pituudet ovat kollineaarisia, sanoo matemaatikko.

Kollineaarisuus tarkoittaa, että keskinäisen riippuvuutensa takia muuttujat eivät ole aidosti itsenäisiä. Yksi yhtälö ei riitä kiinnittämään kahta muuttujaa: tuntemalla kahden luvun summa (esim. a+b=10) ei voida ratkaista molempien lukujen arvoja erikseen (koska 1+9=10, 2+8=10, 3+7=10 jne.).

Jalkojen pituuksien keskinäisestä yhteydestä seuraa, että kahden ennustavan muuttujan mallissa kummankaan jalan pituus ei ole merkitsevässä yhteydessä kehon pituuteen. Hätäinen päättelee, että ihmisen pituus ei riipu jalkojen pituudesta! 

Jalkaesimerkissä maalaisjärki tietysti estää virheellisen johtopäätöksen, mutta monimutkaisemmassa tutkimuksessa vastaava virhe jää helposti tajuamatta. Suuraineistojen aikakaudella mallit sisältävät helposti kymmeniä, satoja tai tuhansia muuttujia, joiden merkitys voi vieläpä olla mallintajalle hämärän peitossa. Vaikka johtopäätöksen suunta ei muuttuisi, virhe voi myös vääristää suuruuksia ja eri tekijöiden keskinäistä tärkeysjärjestystä ratkaisevalla tavalla. Pahimmillaan virheet vaikuttavat laajamittaiseen yhteiskunnalliseen päätöksentekoon talouspolitiikasta lääketieteen sovelluksiin.

Ongelman alku ja juuri on virheellinen intuitio kulmakertoimen tulkinnassa. Aivomme käsittelevät muuttujia itsenäisinä yksi kerrallaan, eivätkä hahmota muuttujan vakiointia, vaikka pohjimmiltaan kaikki ilmiöt ovat monen tekijän yhteisvaikutusta

Todellisuudessa usean ennustavan muuttujan malleissa kunkin ennustavan x-muuttujan kulmakertoimen arvo kertoo paljonko ennustettava y-muuttuja muuttuu, kun x kasvaa yhden yksikön verran mallin kaikkien muiden ennustavien muuttujien pysyessä vakiona. Kun ennustavat x-muuttujat riippuvat vahvasti toisistaan, tällainen vakiointi vastaa heikosti todellisuutta.

Kahden jalan mallissa oikean jalan kulmakerroin kertoo, kuinka paljon keskimääräistä pidempiä ovat ihmiset joiden oikea jalka on keskimäärin sentin pidempi kuin vasen jalka. Malli kertoo siis mikä on jalkojen epäsymmetrian vaikutus kehon pituuteen, vaikka mallin (väärin)käyttäjä haluaisi tietää mikä on jalan pituuden vaikutus kehon pituuteen.

Ongelman ratkaisu on yksinkertainen: lasketaan molempien jalkojen yhteis- tai keskipituus ja käytetään pelkästään tätä yhtä summamuuttujaa kehon pituuden itsenäisenä ennustajana. Yhteenlaskua kummempaa matematiikkaa ei siis monen hämmentävän ja kohtalokkaankin virhepäätelmän välttämiseksi tarvita.

Tilastotiede on kuin tietokone eli vastaa siihen mitä kysytään, ei siihen mitä toivotaan. Kommunikaation epäonnistuminen ei rajoitu yksinoikeudella pelkästään ihmisten keskinäiseen viestintään.

Tilastollisten mallien väärintulkinta johtaa näennäisiin paradokseihin, joista olen aiemmin kirjoittanut mm. Berksonin paradoksista ja paluusta keskiarvoon

Kenties lähimmin kulmakerrointen väärintulkintaan liittyy Simpsonin paradoksi, joka ansaitsee myöhemmin vielä oman kirjoituksensa.

Kommentit (1)

syytinki
Liittynyt18.8.2008
Viestejä10971
2/1 | 

Oikein hyvää tekstiä aiheesta, joka itsekunkin olisi hyvä sisäistää ennen kuin alkaa liikaa kumarrella jonkun makean tutkimuksen tulosta.

Tulipahan mieleen (kuten nykyisin on muotia) tämä ilmaston muutos. Enemmistö suostuu ymmärtämään, että ilmakehä se pitää poltsimme sopivan lämpöisenä. On niitä muitakin tekijöitä, mutta ilmakehää nyt kiittelen.

Ilmaston yhteydessä on julkisuus vedellyt yhden ainoan muuttujan syylliseksi eli hiilidioksidin, jota ilmassa on suhteeliisen vähän. Myönnän, että epäilen sen voimaa kun ilmassa on niin paljon muitakin muuttujia.

Kommentit julkaistaan hyväksynnän jälkeen.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat

Sisältö jatkuu mainoksen alla