Tilastotiede ja virhepäätelmät

Seuraa 
Viestejä383
Liittynyt6.11.2010

"Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä" -Wikipedia

Minulla on sellainen tunne, että tilastotieteessä yksittäisestä tilastollisesta huomiosta tehtävää päättelyä voi tehdä tapauksesta riippuen useilla, ehkä sadoillakin tavoilla, mutta tilastotieteilijän itsensä tekemä päätelmä jotenkin muodostuu vallitsevaksi "oikeaksi" päätelmäksi. Olen pohtinut, että jotta päätelmä olisi oikea (mitä oikea tarkoittaakaan), tulisi tilastotieteilijän olla objektiivinen ja erityisen älykäs. Jos nämä ominaisuudet puuttuvat, tarvitaan lisää - ehkä jostain muusta raakadatasta tehtyjä - tulkintoja päätelmän vahvistamiseksi. Kuitenkin, aina kun tehdään tilastollinen tulkinta, niin sillä on tietynsuuruiset virherajat tai tietty todennäköisyys olla väärä, vaikka sitä (virhettä) ei pystyttäisi laskemaan. Jos siis tietty tilastollinen päätelmä vaatii useita tulkintoja, sen todennäköisyys olla väärä kasvaa väistämättä.

Olkoon, että yhden tulkinnan todennäköisyys olla oikea on 95%. Päätelmä tarvitsee tällaisia tulkintoja kolme ollakseen todistettu päätelmä. Tällöin päätelmän todennäköisyys olla oikein on noin 95%^3 = 86%. Lisäksi päätelmä nojautuu usein rajaaviin oletuksiin.

Korissa oli vuonna 2010 kolme kultakolikkoa. Vuonna 2011 siellä oli kaksi kultakolikkoa. Tästä pystyy tekemään valtavan määrän erilaisia virheellisia päätelmiä tekemällä ensin oletuksia:
- "Kultakolikoita on vuonna 2012 enää yksi" Tämä on ennuste eikä nojaudu muuhun kuin matemaattiseen laskentaan. Todellisuudessa kyseessä saattaa olla Kallen kultasijoituskori, jonka kultakolikkomäärä nojautuu muun muassa Kallen toimiin, taloudelliseen tilanteeseen, elämäntilanteeseen ja kullan markkina-arvoon. Kuitenkin tilastotiedettä tehdessä tällaista asiaa ei tunnuta huomioitavan, vaan ennuste tehdään niistä huolimatta kylmän rauhallisesti.
- "Kullan hinta on noussut, joten kolikon omistaja on myynyt kolikkonsa voitollisesti"
- "Kullan hinta on laskenut, joten kolikon omistaja on myynyt kolikkonsa minimoidakseen häviöt"
- "Kalle on ottanut korista kultakolikon" Koska kori on Kallen, oletuksena on että hän huolehtii kultakolikoistaan. Kuitenkin kuka tahansa muu on saattanut ottaa kultakolikon.
- "Joku muu henkilö on ottanut korista kultakolikon" Sen on voinut viedä vaikka varis tai apina.
- "Joku tai jokin on ottanut korista kultakolikon" Se on saattanut syöpyä yläpuolella vuotavan vahvaa happoa sisältävän pullon takia.
- "Kori on tarkoitettu kultakolikoita varten" Kori saattaa olla täynnä muitakin arvoesineitä.
- "Kori on tarkoitettu arvoesineitä varten" Korissa saattaa olla muutakin.
- "Kori on tarkoitettu esineitä varten" Kultakolikot ovat saattaneet joutua koriin vahingossa ja kolikoiden määrää mitattaessa yksi niistä on jotenkin kadonnut.
- "Kolikoita oli vuonna 2010 kolme ja vuonna 2011 kaksi kappaletta" On saattanut tapahtua mittausvirhe. Ehkä kolikoiden määrää oli kysytty Kallelta, joka ei halunnut paljastaa kolikoiden todellista määrää.
Ja niin edelleen. Tällaista tutkimustulosta voidaan käyttää väärinkin. Sillä voidaan saada lukijalle kaikenlaisia mielikuvia, joita voidaan ohjata lisäämällä tutkimustuloksen viereen tekstiä:
- Kolikoiden omistaja köyhtyy/kansakunta köyhtyy
- Kulta vaihtaa omistajaa paljon nykyään
- Kori on huono säilytyspaikka kultakolikoille
- Kulta loppuu
Ja niin edelleen.

Kenen vastuulla on totuuden etsiminen, kun julkaistaan informaatiota, joka saattaa johtaa tulkitsijan harhaan? Kuinka todeta tutkimuksen olevan objektiivinen ja mahdollisimman lähtökohdaton (oletukseton)? Nykyäänhän on tyypillistä ensin selvittää, ketkä ovat olleet osallisina tutkimuksen tekemiseen ja sen jälkeen miettiä näiden osapuolten intressejä julkaista kyseinen tutkimus. Joskus käy ilmi, että jokin osapuoli saavuttaa jonkinlaisen taloudellisen edun tutkimuksen julkaisemisesta. Tähänkö se on mennyt? "Tutkimukset" ovat manipuloivaa markkinointia? Ensin todetaan tarve parantaa instituution myyntiä tai päästä lähemmäksi jotain sen muuta tavoitetta, sitten määrätään tehtäväksi tutkimus, jonka tulokseksi saadaan päätelmä, joka ajaa tätä instituution tarpeen tyydyttämistä. Onko jotain, jolla ampua alas tämä luomani kärkäs mielikuva?

Kommentit (5)

tli
Seuraa 
Viestejä1057
Liittynyt11.11.2005
xork
"Tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä" -Wikipedia

Minulla on sellainen tunne, että tilastotieteessä yksittäisestä tilastollisesta huomiosta tehtävää päättelyä voi tehdä tapauksesta riippuen useilla, ehkä sadoillakin tavoilla, mutta tilastotieteilijän itsensä tekemä päätelmä jotenkin muodostuu vallitsevaksi "oikeaksi" päätelmäksi. Olen pohtinut, että jotta päätelmä olisi oikea (mitä oikea tarkoittaakaan), tulisi tilastotieteilijän olla objektiivinen ja erityisen älykäs. Jos nämä ominaisuudet puuttuvat, tarvitaan lisää - ehkä jostain muusta raakadatasta tehtyjä - tulkintoja päätelmän vahvistamiseksi. Kuitenkin, aina kun tehdään tilastollinen tulkinta, niin sillä on tietynsuuruiset virherajat tai tietty todennäköisyys olla väärä, vaikka sitä (virhettä) ei pystyttäisi laskemaan. Jos siis tietty tilastollinen päätelmä vaatii useita tulkintoja, sen todennäköisyys olla väärä kasvaa väistämättä.

Olkoon, että yhden tulkinnan todennäköisyys olla oikea on 95%. Päätelmä tarvitsee tällaisia tulkintoja kolme ollakseen todistettu päätelmä. Tällöin päätelmän todennäköisyys olla oikein on noin 95%^3 = 86%. Lisäksi päätelmä nojautuu usein rajaaviin oletuksiin.

Korissa oli vuonna 2010 kolme kultakolikkoa. Vuonna 2011 siellä oli kaksi kultakolikkoa. Tästä pystyy tekemään valtavan määrän erilaisia virheellisia päätelmiä tekemällä ensin oletuksia:
- "Kultakolikoita on vuonna 2012 enää yksi" Tämä on ennuste eikä nojaudu muuhun kuin matemaattiseen laskentaan. Todellisuudessa kyseessä saattaa olla Kallen kultasijoituskori, jonka kultakolikkomäärä nojautuu muun muassa Kallen toimiin, taloudelliseen tilanteeseen, elämäntilanteeseen ja kullan markkina-arvoon. Kuitenkin tilastotiedettä tehdessä tällaista asiaa ei tunnuta huomioitavan, vaan ennuste tehdään niistä huolimatta kylmän rauhallisesti.
- "Kullan hinta on noussut, joten kolikon omistaja on myynyt kolikkonsa voitollisesti"
- "Kullan hinta on laskenut, joten kolikon omistaja on myynyt kolikkonsa minimoidakseen häviöt"
- "Kalle on ottanut korista kultakolikon" Koska kori on Kallen, oletuksena on että hän huolehtii kultakolikoistaan. Kuitenkin kuka tahansa muu on saattanut ottaa kultakolikon.
- "Joku muu henkilö on ottanut korista kultakolikon" Sen on voinut viedä vaikka varis tai apina.
- "Joku tai jokin on ottanut korista kultakolikon" Se on saattanut syöpyä yläpuolella vuotavan vahvaa happoa sisältävän pullon takia.
- "Kori on tarkoitettu kultakolikoita varten" Kori saattaa olla täynnä muitakin arvoesineitä.
- "Kori on tarkoitettu arvoesineitä varten" Korissa saattaa olla muutakin.
- "Kori on tarkoitettu esineitä varten" Kultakolikot ovat saattaneet joutua koriin vahingossa ja kolikoiden määrää mitattaessa yksi niistä on jotenkin kadonnut.
- "Kolikoita oli vuonna 2010 kolme ja vuonna 2011 kaksi kappaletta" On saattanut tapahtua mittausvirhe. Ehkä kolikoiden määrää oli kysytty Kallelta, joka ei halunnut paljastaa kolikoiden todellista määrää.
Ja niin edelleen. Tällaista tutkimustulosta voidaan käyttää väärinkin. Sillä voidaan saada lukijalle kaikenlaisia mielikuvia, joita voidaan ohjata lisäämällä tutkimustuloksen viereen tekstiä:
- Kolikoiden omistaja köyhtyy/kansakunta köyhtyy
- Kulta vaihtaa omistajaa paljon nykyään
- Kori on huono säilytyspaikka kultakolikoille
- Kulta loppuu
Ja niin edelleen.

Kenen vastuulla on totuuden etsiminen, kun julkaistaan informaatiota, joka saattaa johtaa tulkitsijan harhaan? Kuinka todeta tutkimuksen olevan objektiivinen ja mahdollisimman lähtökohdaton (oletukseton)? Nykyäänhän on tyypillistä ensin selvittää, ketkä ovat olleet osallisina tutkimuksen tekemiseen ja sen jälkeen miettiä näiden osapuolten intressejä julkaista kyseinen tutkimus. Joskus käy ilmi, että jokin osapuoli saavuttaa jonkinlaisen taloudellisen edun tutkimuksen julkaisemisesta. Tähänkö se on mennyt? "Tutkimukset" ovat manipuloivaa markkinointia? Ensin todetaan tarve parantaa instituution myyntiä tai päästä lähemmäksi jotain sen muuta tavoitetta, sitten määrätään tehtäväksi tutkimus, jonka tulokseksi saadaan päätelmä, joka ajaa tätä instituution tarpeen tyydyttämistä. Onko jotain, jolla ampua alas tämä luomani kärkäs mielikuva?




Asiallisia ja mielenkiintoisia kysymyksiä. Viime kädessä asia on varmaan niin, että jokainen ihminen joutuu itse tekemään päätelmän siitä, onko hänelle esitetty tieto totta vai ei.. Ajatus saattaa tuntua kohtuuttomalta, mutta voiko oikeastaan muutoin päätellä, jos ajattelemme , että elämme täysivaltaisten ihmisten demokraattisessa maailmassa.. Tällöin tavallaan jokainen ihminen on vastuussa koko maailmasta.

Toisaalta on yhtä selvää, että valtaosalla ihmisiä ei ole sellaista koulutusta, että he voisivat ymmärtää vaikkapa tilastotieteilijöiden kaikkia höpinöitä..Nuo tilastotieteen kriteerit eivät muuten ole mitään ainoita tieteellisen totuuden vahvistuskeinoja. Itse asiassa tilastotieteen nostaminen ainoaksi tieteellisen päättelyn kriteeriksi on ns. positivismia, jonka kriteerit soveltuvat lähes sellaisinaan vain johoin fysiikkaan tai kemiaan. Esim. Darwin loi nerokkaan evoluutioteorian vain keräämällä suuren määrän aineistoa, tutkimalla sitä ja vetämällä siitä johtopäätöksiä älynsä avulla ilman sen kummempia tilastotieteen apukeinoja. Siis tilastotieteen keinot ovat vain apukeinoja tutkimustyössä.

Onko sitten ylipäänsä ollenkaan mahdollista ratkaista sitä ongelmaa, kuinka ihmiset voivat päätellä heille tarjottavan ns. tieteellisen tiedon paikkansapitävcyyttä, jos heillä ei ole siihen riittävää koulutusta. Ymmärtääkseni ainoa ratkaisu, jonka ihmiskunta on toistaiseksi tähän ongelmaan keksinyt, on autonominen, täysin valtion rahoittama yliopistolaitos, joka ei ole tippaakaan riippuvainen mistään yksityisestä rahoittajatahosta ja sen intresseistä vaan harjoittaa tutkimustyötä vain totuuden löytäminen ohjenuoranaan.

Sellainen yliopistolaitoshan on Suomestakin nyt tuhottu, joten silloin jää aina enemmän vastuuta ihmisille itselleen sen tulkinnasta, mitä tapahtuu. Ihmiset voivat silloin luottaa vain omaan järkeensä ja omiin kokemuksiinsa.

Vierailija

Tilastotiedehän muuttuu luotettavaksi vasta, kun on tarpeeksi otantaa. Esimerkiksi väestön tasolla sitä voidaan käyttää äärimmäisen tehokkaana työkaluna, kun voidaan todeta, että 5 miljoonaa ihmistä on 50 vuoden ajan tehnyt näin, niin seuraavat vuodet ilman poikkeavia muutoksia näyttävät todennäköisesti samanlaisilta.

Esimerkiksi painonpudotusvauhti on sellainen asia, että jos aloitan dieetin tänään ja vaaka näyttää vaikka 80kg ja huomenna se näyttää 79kg, voisi siitä vetää johtopäätöksen tietysti, että viikon päästä painan enää 72kg ja viimeistään kymmenen viikon päästä olen laihtunut kuolleeksi. Entäs sitten, jos vaaka näyttääkin kolmantena päivänä 81kg? Voidaanko siitä vetää jo johtopäätös, että neljäntenä päivänä se näyttää todennäköisesti taas 80 ja viidentenä 79? Todennäköisesti, koska voidaan loogisesti päätellä, että paino heittelee parilla kilolla päivittäin ja etenkin, jos syömistottumuksia muutetaan.

Kun sitten taas on laihdutettu jo kuukausi ja on kerätty kuukauden data, voidaan esimerkiksi havaita, että koko kuukauden aikana on paino pudonnut 4kg. Taas puolen vuoden aikana voidaan havaita, että painonpudotustahti onkin vähän alhaisempi, esimerkiksi vain noin 2.5kg kuukaudessa. Tietysti näin suurella pudotuksella lähtöpaino ei voi olla 80kg, koska 15kg pudotuksella se olisi enää 65, joka menee alipainon puolelle.

xork
Seuraa 
Viestejä383
Liittynyt6.11.2010

tli,

Uskon että tietolähteen luotettavuus täytyy ensin ansaita objektiivisilla ja värittymättömillä julkaisuilla, jotta se saavuttaa aseman, jossa se kykenee toimittamaan onnistuneesti subjektiivisia julkaisuja. Tällöin instituutiolle muodostuu siis tarve seurata omaa luotettavuuttaan. Jos luotettavuus laskee liian alas, se joutuu keräämään uskottavuuttaan jälleen objektiivisilla julkaisuilla, ennen kuin voi toimittaa subjektiivisia, jotka laskevat sen luotettavuutta. Kun subjektiivista ja objektiivista tietoa julkaistaan sekaisin, löytyy tietty luotettavuustaso, johon objektiivisen tiedon määrä (x) ja subjektiivisen tiedon määrä (1-x) vaikuttaa. Tällöin käytännössä millä tahansa instituutiolla voidaan ajatella voivan olla julkaisujensa joukossa (1-x) määrä julkaisuja joka ajan hetkellä, jotka eivät ole objektiivisia.

Bushmaster,

Otannan käsite on hyvin laaja, sillä tiettyyn asiaan voi vaikuttaa mikä tahansa positiivinen kokonaislukumääräinen määrä muita asioita. Olen sellaisessa käsityksessä, että sitä, mitkä niistä asioista ovat keskeisimpiä tietyn tilastotieteellisen tutkimuksen ollakseen luotettava, ei pystytä määrittämään millään muulla tavalla kuin älykkyydellä. Tilastotieteilijältä vaaditaan siis aina kykyä löytää jokainen niistä keskeisimmistä tekijöistä, jotka tulokseen vaikuttavat, jotta tutkimustulos olisi luotettava.

Jos siis keskeisimmät tekijät ovat järjestyksessä A, B, C, D ja E, niin ei riitä että ottaa huomioon tekijät A, B, D, E, F, G, H, sillä puuttuvalla keskeisellä tekijällä C saattaa olla yli 30% vaikutus tutkimustulokseen. Mikään tilastotieteellinen työkalu ei kuitenkaan tarjoa C:tä yhdeksi huomioitavaksi tekijäksi vaan se pitää pystyä huomioimaan pelkkää älykkyyttä käyttäen.

Vierailija

Sehän on ihmisen älykkyyden itse funktio. Eivät kirjatkaan itseään kirjoita - kyllä ihminen ne tekee.

Vierailija

Kerrankin jotain järkevää.

49

P.S. ei lisättävää. Paitsi että jatkakaa. Mielenkiintoista ja seuraan.

Uusimmat

Suosituimmat