Kosmisen lämpösäteilyn kuva vauvauniversumista. Kuva: Pablo Carlos Budassi / Wikimedia Commons

Ylistin vuoden takaisessa kirjoituksessa normaalijakauman mittaamatonta arvoa ja kauneutta. Nyt on jatko-osan vuoro. Eli aika selvittää, miksi poikkeamat täydellisen normaalijakauman kauneudesta voivat olla jopa puoleensavetävämpiä ja arvokkaampia kuin itse kauneus.

Havainnollistetaan poikkeamien tärkeyttä eräällä tunnetuimmista normaalijakaumista, ihmisväestön pituusjakaumalla.

Täysikasvuisten suomalaisten pituusjakauma näyttää suunnilleen tältä:

Jakauma ei näytä normaalilta. Miksi?

Syy selviää jakamalla aikuiset kahteen porukkaan: niihin joilla on Y-kromosomi ja niihin joilla ei ole. Näissä osaväestöissä pituuden jakauma näyttää likimain tältä:

Y-kromosomillisten pituus eli sininen käyrä ja Y-kromosomittomien pituus eli punainen käyrä noudattavat kumpikin erikseen omaa normaalijakaumaansa.

Pituusjakauman poikkeama normaalista on johtolanka, josta tiedämme etsiä symmetrian rikkovaa tekijää. Syyllisen tunnistaminen Y-kromosomiksi havainnollistaa muutamaa tilastollisen tutkimuksen vaihetta: 1) tutkitaan kiinnostavaa muuttujaa (pituus) kiinnostavasta populaatiosta (suomalaiset aikuiset), 2) havaitaan poikkeama normaalijakaumasta ja 3) etsitään selittävä tekijä, jonka huomioimisen jälkeen jäljelle jää pelkkää normaalijakautunutta satunnaisvaihtelua. Vaiheiden väliin kuuluu toki usein mutkia, joissa suunnitellaan, mallinnetaan, testataan hypoteeseja ja kenties palataan keräämään uusia havaintojakin, mutta se on kokonaan toinen tarina tieteen piiritanssista josta kirjoitin aiemmin erikseen.

Suomalaisten pituutta en tietenkään valinnut kiinnostavuuden vaan yksinkertaisuuden ja tuttuuden vuoksi. Sillä ymmärtämällä pituusesimerkin ymmärtää muutkin tutkimukset, koska periaate toistuu samana myös monimutkaisemmissa ja kiinnostavammissa tutkimuskohteissa.

Poikkeamaa normaalista ei suinkaan aina selitä Y-kromosomin kaltainen selkeä luokitteleva tekijä, vaan syyllinen voi olla myös lukuarvoinen muuttuja kuten ikä.

Esimerkkinä normaalijakauman rikkovasta lukuarvoisesta muuttujasta riittää katsoa vaikkapa 7-12-vuotiaiden kasvuikäisten pituusjakaumaa:

Kasvuikäisten pituusjakaumakaan ei näytä normaalilta. Miksi?

Syy selviää jakamalla lapset ikäryhmiin. Eli tarkastelemalla erikseen 7-, 8-, 9-, 10-, 11- ja 12-vuotiaiden pituusjakaumaa, mitä kutsutaan iän tilastolliseksi vakioimiseksi. Tällöin havaitaan jakaumat:

joista kukin on normaalijakauman käyrä (nuorimpien lasten jakauma on piirretty tummimmalla, vanhimpien vaaleimmalla harmaalla). Äärettömän populaation tapauksessa voitaisiin tasavuosiin pyöristettyjen ikäryhmien sijasta piirtää kaikki äärettömän monta, äärettömän tarkasti samanikäisten pituusjakaumaa (joiden käyrät piirtäisivät kuvaan harmaan sävyjen jatkuvan spektrin).

Jos pituusjakaumaa tarkasteltaisiin koko suomalaisväestössä vauvoista vaareihin, normaalijakautuneen vaihtelun esiin tuomiseksi tulisi mallintaa iän ja Y-kromosomin lisäksi ainakin niiden yhteisvaikutus murrosiässä sekä elintason kasvuun liittyvä keskipituuden kasvu. Koko maapallon väestön tapauksessa täytyisi huomioida myös perintö- ja ympäristötekijöiden maantieteelliset epätasaisuudet. Näitä asioita pohtimalla saa hieman esimakua siitä, miten nopeasti tosimaailman kiinnostavimpien ilmiöiden matemaattinen mallinnus monimutkaistuu.

Eräs kiinnostava tutkimuskohde on tautien leviäminen. Ja erityisesti sen selvittäminen, mikä aiheuttaa eteenpäin levitettyjen tartuntamäärien normaalista poikkeavan jakauman. Eli miksi jotkut levittävät saamaansa tautia paljon normaalia enemmän kun taas odotettua useampi ei levitä tartuntaansa ollenkaan. Kysymys on monimutkainen, koska normaalista poikkeavan leviämisen syyt voivat olla osin yksilöissä, osin ympäristössä ja osin tilanteissa. Lisäksi eri taudit leviävät eri tavoin ja kaikki tekijät vuorovaikuttavat keskenään. Syiden löytäminen on kuitenkin monimutkaisuudestaan huolimatta tärkeää, koska vain tiedon avulla tautien ehkäisyä voidaan kohdentaa oikein ja siten tehostaa epidemioiden torjuntaa. Paljon rahaa, henkiä ja terveyttä olisi säästettävissä.

Huolellinen lukija huomaa, että tartunnat eivät periaatteessakaan voi noudattaa jatkuvaa normaalijakaumaa koska lukumäärät ovat kokonaislukuja. Tämä on totta. Jatkuvan normaalijakauman vastine kokonaisluvuille onkin tässä tapauksessa Poisson-jakauma, jota voi yksinkertaisuuden vuoksi kutsua normaaliksi kunhan muistaa olla laskuissa huolellinen.

Kun Poisson-jakauman tartuttavuusluku R eli tartunnan saanutta kohti syntyvien uusien tartuntojen keskiarvo ei ole vakio vaan riippuu jostain tekijästä X, syntyy normaalista poikkeava jakauma (kuten negatiivinen binomijakauma). Tekijän X tunnistaminen ja huomioiminen palauttaa jakaumat normaaleiksi Poisson-jakaumiksi samaan tapaan kuin Y-kromosomin ja iän huomioinen palauttaa pituusjakauman normaaliksi.

Superleviäminen ei rajoitu pelkästään tauteihin, vaan esim. ystävien, kumppanien ja jälkeläisten määrissä havaitaan vastaavaa normaalista poikkeavaa kasautumista harvoille superyksilöille. "Sille, jolla on, annetaan, ja hänellä on oleva yltäkyllin; mutta siltä, jolla ei ole, otetaan pois sekin, mikä hänellä on" on kenties ollut kivuliaan ilmeistä jo esihistorian hämärissä, mutta syissä ja selittävissä tekijöissä riittää edelleen tutkimista.

Pituuden, lapsimäärän ja jatkotartuntojen normaalista poikkeavat jakaumat ovat vain muutama esimerkki loputtomasta ilmiöjoukosta, joista jokainen noudattaa esiteltyä yleistä periaatetta. Tilastollisen mallinnuksen eli selittävien tekijöiden etsimisen kannalta kaikissa on kyse samasta matematiikasta.

Entä jäljelle jäävän normaalijakautuneen satunnaisvaihtelun selittäminen? Sama normaalijakauma voi syntyä monien erilaisten pikkutekijöiden summasta – vaikkapa päihtyneiden päämäärättömästä hyörinästä – joten tarkempien syiden löytäminen on vaikeaa tai mahdotonta. Normaalijakauman syiden selvitys on kuin kysyisi, mitä lukuja yhteen laskemalla on päästy tulokseen miljoona. Jokainen kasvuiässä masuun tai jäteastiaan päätynyt kauravelli ja jokainen esivanhemmilta peritty DNA-pätkä jättää aikuispituuteen oman pikkuruisen jälkensä joita on vaikea erottaa toisistaan. Vain Y-kromosomin kaltainen iso tekijä jättää johtolangan, jonka takana oleva syyllinen voidaan saada kiinni.

Liian täydellisellä kauneudella on siis kääntöpuolensa: Ei jää mitään selitettävää. Ei johtolankaa, jota tutkia. Siksi poikkeama normaalijakaumasta on tutkijalle kuin lumoava kauneuspilkku.

Erästä kuumeisimmin kaivattua kauneuspilkkua etsitään alkuräjähdyksen jälkihehkusta eli kosmisesta taustasäteilystä. Toistaiseksi sellaista ei ole löydetty: taustasäteilyn lämpötilajakauma näyttää noudattavan normaalijakaumaa erittäin suurella tarkkuudella, josta poikkeamat voivat nykyhavaintojen tulkinnan mukaan olla enintään suuruusluokkaa yksi sadastatuhannesta. Poikkeaman havaitseminen voisi antaa johtolangan maailmankaikkeuden perimmäisten syiden selvittämiseen.

Normaalijakaumaa täydellisesti noudattava vauvauniversumi näyttää liian kauniilta.

Tieteessä poikkeama normaalista ei ole uhka, vaan mahdollisuus. Mahdollisuus oppia uutta. Eli sitä mitä tiede parhaiten osaa.

Kommentit (0)

Kommentit julkaistaan hyväksynnän jälkeen.

Sisältö jatkuu mainoksen alla
Sisältö jatkuu mainoksen alla
Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat

Sisältö jatkuu mainoksen alla