Tietoyhteiskunta voi toimia vain, jos sen jäsenet osaavat ajatella tieteellisesti. Tilastollinen päättely on tieteellisen ajattelun perusta. Tilastotiede jäsentää tietotulvasta ymmärrettävän maailman ja erottaa tiedon luulosta, toden huuhaasta. Siksi tilasto-osaamisen pitäisi olla kansalaistaito, jonka jokainen oppii koulussa.

Mikä sitten estää tilastotieteen opettamisen koulussa?

Ensinnäkin moni opettaja ei itse osaa edes tilastotieteen alkeita. Tähän on onneksi tehokas ja ilmainen lääke: uusi, kaikille avoin tilastotieteen johdantokurssi verkossa Helsingin yliopiston järjestämänä.

Toiseksi, tarvitaan kouluihin sopivaa tilastotieteen oppimateriaalia. Oppimateriaali kehittyy sopivaksi ennen kaikkea opettajien ja opiskelijoiden välisessä vuoropuhelussa. 

Unelmoin siitä, että mahdollisimman yleistajuiset tilastotieteen perusteet olisi jokamiehenoikeutena saatavilla helposti ja ilmaiseksi kaikille.

Vuoropuhelun avauksena yritän seuraavaksi selittää parhaani mukaan, mistä tilastollisessa testauksessa on kyse. Kysymykset, kommentit ja kehitysideat ovat tervetulleita. Palautteen voi jättää nimettömänä kirjautumatta. Luen ajatuksen kanssa jokaisen asiallisen viestin.

Tutkimuksella halutaan selvittää, onko jokin uskomus tosi. Vaikkapa yleinen väite, että naiset puhuvat enemmän kuin miehet. Asian selvittämiseksi kerätään todistusaineisto.

Uskomukset ovat vääriä kunnes toisin todistetaan. Siksi oletamme aluksi, että naiset ja miehet puhuvat yhtä paljon. Todistusaineisto on tuomari, joka sitten kumoaa tai säilyttää tämän lähtöoletuksen.

Tutkimuskysymykseen saataisiin täysin varma vastaus, jos kaikkien ihmisten kaikki puheet ihmiskunnan synnystä sen tuhoon voitaisiin laskea. Tämä on mahdotonta. Joudumme tyytymään otokseen: arvotaan satunnaisesti joukko miehiä ja joukko naisia, ja mitataan kuinka paljon he puhuvat.

Jos valikoimme tarkoituksella erityisen puheliaita tai harvasanaisia naisia tai miehiä, tutkimus vain vahvistaa ennakkoluulomme. Onkin ratkaisevan tärkeää, että tutkitut henkilöt arvotaan kaikkien naisten ja miesten joukosta mahdollisimman sattumanvaraisesti. Vain silloin otoksesta voidaan päätellä, puhuvatko kaikki naiset yhteensä enemmän kuin kaikki miehet yhteensä.

Jokaiseen mittaukseen liittyy virhe. Täysin satunnainenkaan otos ei edusta täydellisesti koko väestöä. Otokseenhan saattaa puhtaasti sattumaltakin valikoitua poikkeuksellisen puheliaita tai harvasanaisia naisia tai miehiä. Mitä suurempi satunnaisotos, sitä pienemmäksi sattuman rooli kuitenkin käy. Joudumme silti aina puhumaan todennäköisyyksistä.

Kun aineisto on kerätty, haluaisimme laskea miten todennäköistä on, että uskomuksemme pitää paikkansa. Valitettavasti sitä ei ole mahdollista laskea. Sen sijaan turvaudumme hieman nurinkuriseen päättelyyn: laskemmekin, miten epätodennäköistä olisi saada vähintään aineistossa havaittu ero puhtaasti sattumalta. Jos eron syntyminen arvonnassa on hyvin epätodennäköistä, päättelemme että uskomus onkin totta.

Eli jos vaikkapa 396 ihmisen satunnaisotoksessa 210 naista puhuu päivässä 16215±7301 ja 186 miestä 15669±8633 sanaa per nenä, laskemme todennäköisyyden sille, että vähintään 16215 - 15669 = 546 sanan ero syntyy normaalijakaumasta arvottujen 210 ja 186 numeron välille. Tulos on tässä 50%, eli joka toisessa arvonnassa saadaan puhtaasti sattumalta vähintään tutkimuksessa havaittu ero. Naisten ja miesten puheen määrässä ei siis tutkimuksen perusteella ole todellista eroa: otoksessa havaittu pieni ero on sattumaa. Luvut ovat todellisesta, Science-lehdessä julkaistusta tutkimuksesta.

Tutkimuksen mukaan naiset ja miehet vaikuttavat puhuvan yhtä paljon, vastoin yleistä uskomusta jonka mukaan naiset puhuvat kolme kertaa enemmän kuin miehet. Laajemmat tutkimukset vahvistavat, että tilanne vaikuttaa puheen määrään paljon enemmän kuin sukupuoli. Kiitos tilastotieteen, väärä uskomus on jälleen korvautunut tiedolla.

Kommentit (9)

Thomas Bayes

"Uskomukset ovat vääriä kunnes toisin todistetaan. Siksi oletamme aluksi, että naiset ja miehet puhuvat yhtä paljon. Todistusaineisto on tuomari, joka sitten kumoaa tai säilyttää tämän lähtöoletuksen."

Ensinnäkin, tämäkin oletus on uskomus, eikä missään mielessä neutraali lähtökohta. Sen lisäksi, todennäköisyys sille, että miehet puhuvat yhtä paljon kuin naiset on nolla (jos oletetaan, että puheen määrä on jatkuva muuttuja, tai häviävän pieni jos kyseessä on diskreetti muuttuja)! Puolueeton lähtökohta on, että emme tiedä mitään miesten ja naisten puhemääristä, joten näille asetettaisiin epäinformatiiviset priori-jakaumat. Tämän jälkeen todistusaineiston ja havaintoprosessin mallin avulla näitä priori-jakaumia päivittämällä päätyisimme posteriori-jakaumiin ehdollisen todennäköisyyden aksioomien avulla (Bayesin kaava). Näin saatujen jakaumien avulla voimme vastata esim. kysymykseen mikä on todennäköisyys, että naiset puhuvat enemmän kuin miehet.

Minäkin unelmoin siitä, että mahdollisimman yleistajuiset tilastotieteen perusteet olisi jokamiehenoikeutena saatavilla helposti ja ilmaiseksi kaikille. Se kuitenkin vaatisi suurempaa paradigman muutosta pois frekventistisen tilastotieteen opetuksesta  ja kohti Bayesiläisen tilastotieteen ihmemaata.

Like a Bayesian

Kiitos tärkeän aihen esiin nostamisesta! En voisi olla enempää samaa mieltä: Maailmassamme jossa aineistoa, tietoa ja väittämiä virtaa ohitsemme kiihtyvällä tahdilla, tosiasioiden erottaminen luuloista käy alati tärkeämmäksi. Tilastotieteen osaamiseen ja ymmärtämiseen pitäisi toden totta panostaa niin nuorten kuin aikuisten, tutkijoiden ja kadunmiesten keskuudessa.

Tilastollisen testauksen käyttäminen esimerkkinä  tilastotieteen tarpeista ja hyödyistä kuitenkin ontuu. Kuten edellinen kommentoija toteaa, Bayes-tilastotieteen avulla on mahdollista laskea todennäköisyys mille tahansa väitteelle havaitun todistusaineiston valossa ilman nollahypoteesin kaltaisia ennakko-oletuksia. Eli sen sijaan että joudumme (menetelmien puutteellisuuden vuoksi) tarkastelemaan todennäköisyyttä sille että 546 sanan ero (tai suurempi) miesten ja naisten sanojen määrässä olisi syntynyt puhtaasti sattumalta JOS miehet ja naiset puhuisivat todellisuudessa yhtä paljon, voisimmekin laskea suoraan todennäköisyyden meitä kiinnostavalle väitteelle ”naiset puhuvat enemmän kuin miehet".

Bayes-tilastotiede auttaa meidät käsiksi niihin kysymyksiin joihin oikeasti haluamme vastauksia. Harvaa meistä varsinaisesti kiinnostaa ajatella arkipäivän ilmiöstä saatavia havaintoja loppumattoman toistokokeen sarjana, mikä on kuitenkin välttämätön näkökulma jos asioita tarkastellaan perinteisen tilastotieteen näkövinkkelistä. Hankala tulkittavuus on omiaan luomaan tilastotieteestä kuvaa tieteenalana, jonka ymmärtämiseksi tarvitaan satoja tunteja matematiikan opiskelua. Samalla syntyy väärinkäsityksiä koska ihmismieli pyrkii vetämään mutkat suoriksi ja tulkitsemaan esimerkiksi p-arvot todennäköisyytenä sille että lähtökohtana pidetty hypoteesi on tosi. Intuitiivisesti ajattelumme vastaa Bayes-tulkintaa, jossa kiinnostavat kysymykset koskevat syiden todennäköisyyksiä, eivätkä teoreettisissa, äärettömissä toistokokeissa saatavien havaintojen mahdollisuutta tai mahdottomuutta.

Toivottavasti näemme jossain vaiheessa myös avoimen verkkokurssin jossa raotetaan ovea Bayes-tilastotieteen maailmaan!

käyttäjä-3779
Liittynyt12.5.2014
Viestejä1715

Like a Bayesian: Toivottavasti näemme jossain vaiheessa myös avoimen verkkokurssin jossa raotetaan ovea Bayes-tilastotieteen maailmaan!

P.S.V.: Toivomus voi olla ja onkin varmaan paikallaan sovellettua matematiikkaa ja tietotekniikkaa opiskeleville. Monen muun alan opiskelijoille täysin uudet käsitteet ja laskutavat ovat mielestäni paitsi turhia, myös ylivaikeita opittavaksi. Esimerkiksi luokanopettajien ja muiden kasvatustieteen peruskurssien suorittajille pakollinen todennäköisyyskurssi saisi rajoittua frekventistisen menetelmän alkeisiin. Normaalijakaumalla ratkeavat perustehtävät olisivat kurssien maksimi.

Kun vilkaisin bayesilaisen menetelmän esitteitä ja ajattelin opiskelevani sitä tunsin suoranaista pahoinvointia ylivoimaiselta näyttävän urakan edessä - onneksi saankin jättää sen sikseen.

https://koppa.jyu.fi/kurssit/96640

https://www.jyu.fi/ytk/laitokset/ihme/metodifestivaali-2013/ohjelma/tiis...

5. Miksi Bayesia tarvitaan NYT?

Katsotaan eteenpäin. Mitkä ovat tilastotieteen haasteet?I Tutkimusongelmat kompleksisia.

I Uudet havainnointitekniikat, (esim. MRI, fMRI, EEG,MEG, moniulotteiset sekvenssit, sisältöanalyysi).

Tyypillistä on epäsuora havainnointi ja kompleksiset virhelähteet.I Suuret aineistot, mistä seuraa suuri heterogeenisuus ja puuttuvan tiedon määrän lisääntyminen.

I Tutkimusten määrä kasvaa, jolloin on tarve hyödyntää aiempia aineistoja ja tutkimuksia tehokkaasti

(evidenssisynteesi, meta-analyysi).

Asiaa syvemmin pohtimatta tekisi mieli sanoa, että hyvin harkitun ja monen "reunaehdon" vaikutuksesta moduloidun mutun osoittaminen virallisesti oikeaan osuvaksi vaatisi kaikkien noiden reunaehtojen jollain tavalla painotetun lopputuleman laskemiseksi hyvin monimutkaisen toimintojen sarjan. Tarvittaisiin valmis tietokoneohjelma, johon data voitaisiin syöttää ja josta tulos saataisiin juuri kenenkään ymmärtämättä, mitä oikein tapahtui.

Tulee mieleen, että aivot, jotka sisältävät tietojenkäsittelykykyä enemmän kuin kaikki maailman tietokoneet yhteensä, pystyvät selkeästi esitetystä datasta tekemään hyvinkin luotettavia arvioita ilman merkittävämpää tietoista ajattelua.

Myönnän kyllä olevani pahasti kompleksin vallassa, mitä tulee exeleihin ja muihin vastaaviin. Kun 60-luvulla menin tietokonekurssille ja näin läpsyvät reikäkortit ja puhisevan puimakoneen niin "huh mä käännyin pois". Nyt olen opettanut ammattikorkeakoulun tietotekniikan kurssin (joka muuten on paljon monimutkaisempi kuin 60-luvun tilastotieteen approbatur, mihin osaltaan varmaan vaikutti, että kaikki laskut joutui tuolloin tekemään kynällä) yksityisesti kahtena vuonna poisluettuna exelit, joista netti ei mielestäni tarjonnut meikäläisen omaksuttavissa olevaa opetusta.

Tutustuttuani tällöin ensi kertaa nollahypoteesiin, kriittiseen väliin jne. aloin tuntea suoranaista kiihkoa. Yksi asia kuitenkin vaivasi ja vaivaa jatkuvasti. Koska en aio opiskella tilastotiedettä  Holopainen et.al. "Tilastolliset menetelmät" .kirjaa enempää, pelkään, että en koskaan tule näkemään ongelmani ratkaisua. Ja ongelmani on tämä:  Miten on keksitty sellaiset kaavat kuin esimerkiksi "suhteellisen osuuden testaus kahdesta otoksesta" tai vaikkapa "khii toiseen -yhteensopivuustesti" tai "kahden riippumattoman otoksen keskiarvotesti". Matemaattisesti niitä ei ole voitu johtaa mistään postulaateista, varmaankaan, eivätkä ne ylipäänsä anna tulokseksi mitään täsmällistä; pelkästään teknisesti perustellumpaa mutua. Mutta miten kaavat on saatu? Normaalijakauman kyllä ymmärtää; sen taustalla onkin kuuluisa Gaussin käyrä, joka on eksakti, hieno matemaattinen olio. Mutta monet muut kaavat, mistä ne tulevat? Saadaanko ne normaalijakauman menetelmien tavoin ulos joidenkin muiden jakautumien täsmällisistä hahmoista, vai miten?

käyttäjä-3779
Liittynyt12.5.2014
Viestejä1715

Normaalijakauman keksimiseen on varmaan vaadittu huomattavaa matemaattista lahjakkuutta. Erikoisesti kiinnittää huomiota normaalijakauman kaavassa esiintyvät transsendenttiluvut e ja pi, jotka ovat valiutuneet jopa ylinumeroituvasta transsendenttilukujen joukosta kuvaamaan kaikenlaisia yksinkertaisia ilmiöitä alkaen pallosta ja ketjukäyrästä.

https://fi.wikipedia.org/wiki/Normaalijakauma

Joku on sanonut siihen tapaan, että joka oivaltaa normaalijakauman kaavan kokonaisuutena, on matemaatikko. Ehkä Ramanujan on oivaltanut

https://fi.wikipedia.org/wiki/Srinivasa_Ramanujan

Veikkaankin, että kananmunien joukko on sukua normaalijakaumalle. Kananmunan pyöreä pää edustaa lukua pi ja ketjukäyrän muotoinen pää lukua e. Käyrät vaihtuvat toisikseen kultaisen leikkauksen suhteessa. Siis keskimäärin. Tulee mieleen tutkia, mikä rooli voisi olla kultaisella leikkauksella normaalikäyrässä. Ainakin lukuisat ihmisen mittojen välillä vallitsevat kultaista leikkausta approksimoivat ulottuvuudet ovat normaalisti jakautuneet väestössä.

Vierailija

Normaalijakaumasta kunnia kuuluu Gaussille, Laplacelle, ja muille.

Frekventistinen tilastotiede saa myös allekirjoittaneen kiihkon valtaan: se on nimittäin aivan henkeäsalpaavan vaikeatulkintaista käytännön tutkimuksessa. Esimerkiksi yo. käyttäjät jotka soveltavat testejä ilman syvempää ymmärrystä mistä ja miten esimerkiksi khiin neliön testi johdetaan.

Jos bayesiläinen tilastotiede vaikuttaakin vaikealta, ei sen perusidean ymmärtämiseen tarvittava matemaattinen välineistö ole sen kummempaa kuin nk. klassisenkaan tilastotieteen metodien ymmärtämisessä tarvittava matematiikka --- ja monien mielestä bayesiläisen menetelmän teoreettinen perustelu on paljon helpompi niin maallikollekin kuin asiantuntijallekin ymmärtää oikein.

Vierailija

Aloin opiskelemaan kasvatustieteitä enkä alkuun ymmärtänyt mihin tarvitaan tutkimuksen tekoa ja sen opettelua, jos tarkoituksena on alkaa opettaa lapsia. Kvantitatiivisen kurssin jälkeen, kun oltiin käyty läpi, miten tutkimustulokset rakentuvat, aloin ymmärtää miksi. Kriittisyyteni on selkeästi lisääntynyt, kun luen artikkeleita, joissa vedotaan erilaisiin tutkimuksiin. Osaan päätellä, onko uutisoidut tutkimukset luotettavia, joten osaan suhteuttaa niistä saavan tiedon käytäntöön. Jos kyseiseisiä kursseja ei olisi, en osaisi eritellä erilähteiden luotettavuutta tai sitä onko tutkimus hyvin tehty, vaan ottaisin kaiken silkkana totena. Yksi asia mihin muidenkin kannattaa kiinnittää huomiota on se, kuinka suuri otanta tutkimuksissa on. Monissa iltalehden kaltaisissa uutisoinneissa joidenkin tutkimusten otanta saattaa olla 30 henkee, joten tulokset eivät todellakaan ole yleistettävissä perusjoukkoon. Huomiota kannataa kiinnittää myös siihen pääseekö uutis artikkeleiden kautta varsinaisiin tutkimustuloksiin tai onko tietoja kerrottu niin paljon, että alkuperäinen tutkimus olisi mahdollista löytää.

Your mama

Olen ehdottomasti samalla kannalla kirjoittajan kanssa - ainakin sikäli jos ajatuksena on, että tavallinen tallaajakin alkaisi ymmärtämään tilastojen päälle edes auttavasti.
Mutta en kuitenkaan pitäisi puhtaasti matemaattisen pohjan ymmärtämistä niin tärkeänä kuin tutkimusmenetelmien ja niiden vahvuuksien ja heikkouksien ymmärtämistä. Kvantitatiivisen väestötutkimuksen perusteella viljaa syöviä vertaamalla viljaa syöviin, Iltalehti kirjoittaa viljan syönnin olevan terveellistä ja se uppoaa väestöön kuin häkä. Väite sinänsä kestää tilastoanalyysin, jos ei oteta huomioon, että kyseisistä tutkimuksista ei voida vetää tehtyjä johtopäätöksiä.

käyttäjä-3779
Liittynyt12.5.2014
Viestejä1715

Vierailija kirjoitti:
Normaalijakaumasta kunnia kuuluu Gaussille, Laplacelle, ja muille.

Frekventistinen tilastotiede saa myös allekirjoittaneen kiihkon valtaan: se on nimittäin aivan henkeäsalpaavan vaikeatulkintaista käytännön tutkimuksessa. Esimerkiksi yo. käyttäjät jotka soveltavat testejä ilman syvempää ymmärrystä mistä ja miten esimerkiksi khiin neliön testi johdetaan.

Jos bayesiläinen tilastotiede vaikuttaakin vaikealta, ei sen perusidean ymmärtämiseen tarvittava matemaattinen välineistö ole sen kummempaa kuin nk. klassisenkaan tilastotieteen metodien ymmärtämisessä tarvittava matematiikka --- ja monien mielestä bayesiläisen menetelmän teoreettinen perustelu on paljon helpompi niin maallikollekin kuin asiantuntijallekin ymmärtää oikein.

Tilastotieteen jonkun kaavan asianmukainen käyttö ilmenee monissa vastaan tulevissa käytännön tilanteissa esimerkeistä ja niiden mukaisista harjoitustehtävistä. Ellei jollakulla ole aikomus opiskella tilastotiedettä tai muuten omakohtainen tarve ymmärtää kaavoja syvemmin, hän voinee jättäytyä esimerkkien ja oppikirjojen perus-harjoitustehtävien tasolle.  Itse en ainakaan pienestä hinnastakaan rupeisi selvittelemään itselleni esimerkiksi khiin neliö -riippumattomuustestin tai vaikkapa suhteellisen osuuden testauksen kahdesta otoksesta perusteita. Ymmärryshaluni ehdottoman ylärajan muodostavat Poisson-jakauma ja Gaussin käyrä, nekin lähinnä lempilukujeni e ja pi ansiosta.

Koska en ylipäänsä koskaan tule oikeasti tarvitsemaan tilastotiedettä, pidättäydyn kokonaan tutustumasta bayesilaiseen menetelmään ja jättäydyn itseäni viisaampien saamien tulosten tai mutu-tuntuman varaan. Uskoisin, että saman tasoinen ratkaisu olisi mielekäs monelle humanistillekin.

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat