Kirjoitukset avainsanalla todennäköisyys

Kumman ottaisit, ison rahan ehkä vai pienen varmasti?

Tilastotieteessä on kaksi samankuuloista käsitettä, merkittävä ja merkitsevä. Ne eroavat toisistaan samalla tavalla kuin ison rahan mahdollisuus eroaa varmuudesta saada ylipäätään mitään rahaa. Merkittävä tarkoittaa isoa, merkitsevä varmuutta.

Käsitteiden ero on periaatteessa selvä, mutta käytännössä sen sisäistäminen on vaikeaa. Viimeistään tilastokurssien opettajana olen tuon vaikeuden huomannut. Samankuuloinen nimi vain lisää käsitteiden sekaantumisen vaaraa.

Kuten yleensä, havainnollistavat esimerkit helpottavat oppimista.

Esimerkiksi halutaan luotettavasti selvittää kumpi kaksosista, Matti vai Teppo, on painavampi. Yksi punnitus ei riitä, koska mittaamiseen liittyy monia virhelähteitä. Vaa'an lukema heittelee. Kehon nestemäärä vaihtelee. Maha, rakko ja suolisto ovat välillä tyhjänä, välillä täynnä. Jos vaaka näyttää Matille 89 kg ja Tepolle 90 kg, ero voi johtua silkasta sattumasta.

Ratkaistaan ongelma punnitsemalla Matti ja Teppo satunnaisina hetkinä samanaikaisesti kymmenen kertaa. Vaaka antaa Matin lukemiksi 88.9, 90.2, 91.0, 88.5, 88.8, 90.0, 87.5, 88.6, 88.6, ja 90.3 kg ja Tepon vastaaviksi lukemiksi 90.2, 91.2, 92.0, 88.2, 91.2, 88.3, 93.1, 90.7, 90.0 ja 92.0 kg. Pelkästään mittaussarjoja tuijottamalla painavuusjärjestys ei ratkea: kymmenen punnituksen sarjassa painavampi on välillä Matti, välillä Teppo. Tarvitaan tilastotiedettä.

Matin mittausten keskiarvoksi saadaan laskemalla 89.2 kg ja Tepon vastaavasti 90.7 kg. Tepon keskiarvo on siis 1.5 kg suurempi kuin Matin, ja tässä tapauksessa ero on tilastollisesti merkitsevä: kymmenen samasta normaalijakaumasta arvotun numeroparin välille ainoastaan 4% tapauksissa sattuu vähintään yhtä suuri keskiarvojen ero kuin Matin ja Tepon mitatuissa painoissa.

Vaikka mitattu keskiarvojen ero painossa on merkitsevä, se ei ole tässä merkittävä, sillä prosentin suuruusluokan ero painossa ei käytännössä vaikuta: silmin sitä ei havaitse, terveyttä se ei ratkaise ja samat vaatteet sopivat.

Mittauksista voidaan siis melko varmasti päätellä, että Teppo on painavampi kuin Matti, mutta ero on pieni. Ero on merkitsevä, muttei merkittävä, tilastotieteen kielellä ilmaistuna.

Entäs sitten Matti ja Seppo, joiden painot on mitattu samanaikaisesti vain kahtena satunnaisena hetkenä. Matin vaakalukemat ovat 92.9 ja 87.1 kg, Sepon vastaavasti 97.1 ja 102.9 kg. Painon keskiarvoksi tulee Matilla 90 kg, Sepolla 100 kg.

10 kg ero painossa olisi jo merkittävä: Seppo olisi silminnähden paksumpi kuin Matti, Sepon terveysriskit olisivat suuremmat eivätkä Matille istuvat vaatteet sopisi Sepolle.

Vaikka mittausten välinen ero on merkittävä, se ei kuitenkaan ole tässä tilastollisesti merkitsevä. Nimittäin kahden samasta normaalijakaumasta arvotun numeroparin välille sattuu jopa kerran kolmesta tapauksesta vähintään yhtä suuri ero kuin Matin ja Sepon mitatuissa painoissa.

Näiden kahden mittauksen perusteella ei voida siis luotettavasti päätellä, että Seppo olisi Mattia painavampi.

Mitä suurempi otos, eli enemmän mittauksia, sen pienemmät erot tulevat merkitseviksi. Suuri otos erottelee siis herkemmin kuin pieni otos. Matin ja Tepon pieni ero painossa näkyi kymmenellä mittauksella, mutta Matin ja Sepon mahdollisesti suurtakaan eroa ei saatu kahdella mittauksella varmennetuksi. Lisämittaukset voisivat paljastaa, oliko Matin ja Sepon mittausten ero todellinen vai sattuman oikkua. Mitä suurempi todellinen ero, sen vähemmän mittauksia eron havaitsemiseen tarvitaan.

Matin ja Tepon esimerkissä merkitsevä ei ole merkittävä, ja Matin ja Sepon esimerkissä merkittävä ei ole merkitsevä. Valitsin esimerkit vakuuttaakseni, että merkittävä ja merkitsevä todella ovat erilliset käsitteet. On toki tapauksia, joissa tutkimuksessa havaittu ero on sekä merkitsevä että merkittävä, ja tapauksia joissa se ei ole kumpaakaan (joista julkaisuvinouman takia tosin harvemmin kuullaan). 

Merkittävän ja merkitsevän sekoittaminen aiheuttaa jatkuvasti ongelmia ja sekaannuksia tutkimuksista uutisoitaessa ja jopa tutkijoiden välisessä kommunikaatiossa. Lääke ei auta merkittävästi vain siksi, että sen teho on merkitsevä. Lisäksi yhdessä tutkimuksessa merkitseväksi havaittu ilmiö ei välttämättä ole seuraavassa tutkimuksessa enää edes merkitsevä, mutta se on jo kokonaan toinen tarina.

Kohulla elävän toimittajan näppäimistöllä tutkimusjulkaisun merkitsevä kääntyy helposti tiedeuutisessa merkittäväksi: kun tutkija sanoo pieni, toimittaja kuulee iso. Tosin nykyään, kun tutkijatkin joutuvat elämään yhä enemmän kohulla, syy ei ole välttämättä toimittajan. Ovelimmat tutkijat voittavat mediapelissä keinoilla, joilla voisi pärjätä jopa politiikassa. Tieteen alistaminen vapaiden markkinoiden kiihkeälle kilpailulle tuottaa kaikenlaista jännää.

Kenellepä ei kelpaisi iso raha varmasti.

Kommentit (1)

Vierailija

Matti ja Seppo -tapaus on taas yksi matematiikan esimerkki, jossa matematiikka ja todellisuus eivät ole yhteensopivia.  Olisi erittäin omituista, jos henkilön painossa olisi yli 10% virhemarginaali. Tilastotieteessä sellainen varmasti on täysin mahdollista, mutta käytännössä ei. Tuollainen arkijärjen vastainen esimerkki vain hämmentää asiaa opettelevaa ja johtaa ajatukset harhapoluille, kun tarkoitus oli selventää asiaa.

Mieleen muistuu Mind you decisions -Youtube-kanavan matemaattinen laskutehtävä, jossa kadunaurauskone saavutti valonnopeuden, kun lumen määrä väheni lähelle nollaa.

Tietoyhteiskunta voi toimia vain, jos sen jäsenet osaavat ajatella tieteellisesti. Tilastollinen päättely on tieteellisen ajattelun perusta. Tilastotiede jäsentää tietotulvasta ymmärrettävän maailman ja erottaa tiedon luulosta, toden huuhaasta. Siksi tilasto-osaamisen pitäisi olla kansalaistaito, jonka jokainen oppii koulussa.

Mikä sitten estää tilastotieteen opettamisen koulussa?

Ensinnäkin moni opettaja ei itse osaa edes tilastotieteen alkeita. Tähän on onneksi tehokas ja ilmainen lääke: uusi, kaikille avoin tilastotieteen johdantokurssi verkossa Helsingin yliopiston järjestämänä.

Toiseksi, tarvitaan kouluihin sopivaa tilastotieteen oppimateriaalia. Oppimateriaali kehittyy sopivaksi ennen kaikkea opettajien ja opiskelijoiden välisessä vuoropuhelussa. 

Unelmoin siitä, että mahdollisimman yleistajuiset tilastotieteen perusteet olisi jokamiehenoikeutena saatavilla helposti ja ilmaiseksi kaikille.

Vuoropuhelun avauksena yritän seuraavaksi selittää parhaani mukaan, mistä tilastollisessa testauksessa on kyse. Kysymykset, kommentit ja kehitysideat ovat tervetulleita. Palautteen voi jättää nimettömänä kirjautumatta. Luen ajatuksen kanssa jokaisen asiallisen viestin.

Tutkimuksella halutaan selvittää, onko jokin uskomus tosi. Vaikkapa yleinen väite, että naiset puhuvat enemmän kuin miehet. Asian selvittämiseksi kerätään todistusaineisto.

Uskomukset ovat vääriä kunnes toisin todistetaan. Siksi oletamme aluksi, että naiset ja miehet puhuvat yhtä paljon. Todistusaineisto on tuomari, joka sitten kumoaa tai säilyttää tämän lähtöoletuksen.

Tutkimuskysymykseen saataisiin täysin varma vastaus, jos kaikkien ihmisten kaikki puheet ihmiskunnan synnystä sen tuhoon voitaisiin laskea. Tämä on mahdotonta. Joudumme tyytymään otokseen: arvotaan satunnaisesti joukko miehiä ja joukko naisia, ja mitataan kuinka paljon he puhuvat.

Jos valikoimme tarkoituksella erityisen puheliaita tai harvasanaisia naisia tai miehiä, tutkimus vain vahvistaa ennakkoluulomme. Onkin ratkaisevan tärkeää, että tutkitut henkilöt arvotaan kaikkien naisten ja miesten joukosta mahdollisimman sattumanvaraisesti. Vain silloin otoksesta voidaan päätellä, puhuvatko kaikki naiset yhteensä enemmän kuin kaikki miehet yhteensä.

Jokaiseen mittaukseen liittyy virhe. Täysin satunnainenkaan otos ei edusta täydellisesti koko väestöä. Otokseenhan saattaa puhtaasti sattumaltakin valikoitua poikkeuksellisen puheliaita tai harvasanaisia naisia tai miehiä. Mitä suurempi satunnaisotos, sitä pienemmäksi sattuman rooli kuitenkin käy. Joudumme silti aina puhumaan todennäköisyyksistä.

Kun aineisto on kerätty, haluaisimme laskea miten todennäköistä on, että uskomuksemme pitää paikkansa. Valitettavasti sitä ei ole mahdollista laskea. Sen sijaan turvaudumme hieman nurinkuriseen päättelyyn: laskemmekin, miten epätodennäköistä olisi saada vähintään aineistossa havaittu ero puhtaasti sattumalta. Jos eron syntyminen arvonnassa on hyvin epätodennäköistä, päättelemme että uskomus onkin totta.

Eli jos vaikkapa 396 ihmisen satunnaisotoksessa 210 naista puhuu päivässä 16215±7301 ja 186 miestä 15669±8633 sanaa per nenä, laskemme todennäköisyyden sille, että vähintään 16215 - 15669 = 546 sanan ero syntyy normaalijakaumasta arvottujen 210 ja 186 numeron välille. Tulos on tässä 50%, eli joka toisessa arvonnassa saadaan puhtaasti sattumalta vähintään tutkimuksessa havaittu ero. Naisten ja miesten puheen määrässä ei siis tutkimuksen perusteella ole todellista eroa: otoksessa havaittu pieni ero on sattumaa. Luvut ovat todellisesta, Science-lehdessä julkaistusta tutkimuksesta.

Tutkimuksen mukaan naiset ja miehet vaikuttavat puhuvan yhtä paljon, vastoin yleistä uskomusta jonka mukaan naiset puhuvat kolme kertaa enemmän kuin miehet. Laajemmat tutkimukset vahvistavat, että tilanne vaikuttaa puheen määrään paljon enemmän kuin sukupuoli. Kiitos tilastotieteen, väärä uskomus on jälleen korvautunut tiedolla.

Kommentit (9)

Thomas Bayes

"Uskomukset ovat vääriä kunnes toisin todistetaan. Siksi oletamme aluksi, että naiset ja miehet puhuvat yhtä paljon. Todistusaineisto on tuomari, joka sitten kumoaa tai säilyttää tämän lähtöoletuksen."

Ensinnäkin, tämäkin oletus on uskomus, eikä missään mielessä neutraali lähtökohta. Sen lisäksi, todennäköisyys sille, että miehet puhuvat yhtä paljon kuin naiset on nolla (jos oletetaan, että puheen määrä on jatkuva muuttuja, tai häviävän pieni jos kyseessä on diskreetti muuttuja)! Puolueeton lähtökohta on, että emme tiedä mitään miesten ja naisten puhemääristä, joten näille asetettaisiin epäinformatiiviset priori-jakaumat. Tämän jälkeen todistusaineiston ja havaintoprosessin mallin avulla näitä priori-jakaumia päivittämällä päätyisimme posteriori-jakaumiin ehdollisen todennäköisyyden aksioomien avulla (Bayesin kaava). Näin saatujen jakaumien avulla voimme vastata esim. kysymykseen mikä on todennäköisyys, että naiset puhuvat enemmän kuin miehet.

Minäkin unelmoin siitä, että mahdollisimman yleistajuiset tilastotieteen perusteet olisi jokamiehenoikeutena saatavilla helposti ja ilmaiseksi kaikille. Se kuitenkin vaatisi suurempaa paradigman muutosta pois frekventistisen tilastotieteen opetuksesta  ja kohti Bayesiläisen tilastotieteen ihmemaata.

Like a Bayesian

Kiitos tärkeän aihen esiin nostamisesta! En voisi olla enempää samaa mieltä: Maailmassamme jossa aineistoa, tietoa ja väittämiä virtaa ohitsemme kiihtyvällä tahdilla, tosiasioiden erottaminen luuloista käy alati tärkeämmäksi. Tilastotieteen osaamiseen ja ymmärtämiseen pitäisi toden totta panostaa niin nuorten kuin aikuisten, tutkijoiden ja kadunmiesten keskuudessa.

Tilastollisen testauksen käyttäminen esimerkkinä  tilastotieteen tarpeista ja hyödyistä kuitenkin ontuu. Kuten edellinen kommentoija toteaa, Bayes-tilastotieteen avulla on mahdollista laskea todennäköisyys mille tahansa väitteelle havaitun todistusaineiston valossa ilman nollahypoteesin kaltaisia ennakko-oletuksia. Eli sen sijaan että joudumme (menetelmien puutteellisuuden vuoksi) tarkastelemaan todennäköisyyttä sille että 546 sanan ero (tai suurempi) miesten ja naisten sanojen määrässä olisi syntynyt puhtaasti sattumalta JOS miehet ja naiset puhuisivat todellisuudessa yhtä paljon, voisimmekin laskea suoraan todennäköisyyden meitä kiinnostavalle väitteelle ”naiset puhuvat enemmän kuin miehet".

Bayes-tilastotiede auttaa meidät käsiksi niihin kysymyksiin joihin oikeasti haluamme vastauksia. Harvaa meistä varsinaisesti kiinnostaa ajatella arkipäivän ilmiöstä saatavia havaintoja loppumattoman toistokokeen sarjana, mikä on kuitenkin välttämätön näkökulma jos asioita tarkastellaan perinteisen tilastotieteen näkövinkkelistä. Hankala tulkittavuus on omiaan luomaan tilastotieteestä kuvaa tieteenalana, jonka ymmärtämiseksi tarvitaan satoja tunteja matematiikan opiskelua. Samalla syntyy väärinkäsityksiä koska ihmismieli pyrkii vetämään mutkat suoriksi ja tulkitsemaan esimerkiksi p-arvot todennäköisyytenä sille että lähtökohtana pidetty hypoteesi on tosi. Intuitiivisesti ajattelumme vastaa Bayes-tulkintaa, jossa kiinnostavat kysymykset koskevat syiden todennäköisyyksiä, eivätkä teoreettisissa, äärettömissä toistokokeissa saatavien havaintojen mahdollisuutta tai mahdottomuutta.

Toivottavasti näemme jossain vaiheessa myös avoimen verkkokurssin jossa raotetaan ovea Bayes-tilastotieteen maailmaan!

käyttäjä-3779
Liittynyt12.5.2014
Viestejä1639

Like a Bayesian: Toivottavasti näemme jossain vaiheessa myös avoimen verkkokurssin jossa raotetaan ovea Bayes-tilastotieteen maailmaan!

P.S.V.: Toivomus voi olla ja onkin varmaan paikallaan sovellettua matematiikkaa ja tietotekniikkaa opiskeleville. Monen muun alan opiskelijoille täysin uudet käsitteet ja laskutavat ovat mielestäni paitsi turhia, myös ylivaikeita opittavaksi. Esimerkiksi luokanopettajien ja muiden kasvatustieteen peruskurssien suorittajille pakollinen todennäköisyyskurssi saisi rajoittua frekventistisen menetelmän alkeisiin. Normaalijakaumalla ratkeavat perustehtävät olisivat kurssien maksimi.

Kun vilkaisin bayesilaisen menetelmän esitteitä ja ajattelin opiskelevani sitä tunsin suoranaista pahoinvointia ylivoimaiselta näyttävän urakan edessä - onneksi saankin jättää sen sikseen.

https://koppa.jyu.fi/kurssit/96640

https://www.jyu.fi/ytk/laitokset/ihme/metodifestivaali-2013/ohjelma/tiis...

5. Miksi Bayesia tarvitaan NYT?

Katsotaan eteenpäin. Mitkä ovat tilastotieteen haasteet?I Tutkimusongelmat kompleksisia.

I Uudet havainnointitekniikat, (esim. MRI, fMRI, EEG,MEG, moniulotteiset sekvenssit, sisältöanalyysi).

Tyypillistä on epäsuora havainnointi ja kompleksiset virhelähteet.I Suuret aineistot, mistä seuraa suuri heterogeenisuus ja puuttuvan tiedon määrän lisääntyminen.

I Tutkimusten määrä kasvaa, jolloin on tarve hyödyntää aiempia aineistoja ja tutkimuksia tehokkaasti

(evidenssisynteesi, meta-analyysi).

Asiaa syvemmin pohtimatta tekisi mieli sanoa, että hyvin harkitun ja monen "reunaehdon" vaikutuksesta moduloidun mutun osoittaminen virallisesti oikeaan osuvaksi vaatisi kaikkien noiden reunaehtojen jollain tavalla painotetun lopputuleman laskemiseksi hyvin monimutkaisen toimintojen sarjan. Tarvittaisiin valmis tietokoneohjelma, johon data voitaisiin syöttää ja josta tulos saataisiin juuri kenenkään ymmärtämättä, mitä oikein tapahtui.

Tulee mieleen, että aivot, jotka sisältävät tietojenkäsittelykykyä enemmän kuin kaikki maailman tietokoneet yhteensä, pystyvät selkeästi esitetystä datasta tekemään hyvinkin luotettavia arvioita ilman merkittävämpää tietoista ajattelua.

Myönnän kyllä olevani pahasti kompleksin vallassa, mitä tulee exeleihin ja muihin vastaaviin. Kun 60-luvulla menin tietokonekurssille ja näin läpsyvät reikäkortit ja puhisevan puimakoneen niin "huh mä käännyin pois". Nyt olen opettanut ammattikorkeakoulun tietotekniikan kurssin (joka muuten on paljon monimutkaisempi kuin 60-luvun tilastotieteen approbatur, mihin osaltaan varmaan vaikutti, että kaikki laskut joutui tuolloin tekemään kynällä) yksityisesti kahtena vuonna poisluettuna exelit, joista netti ei mielestäni tarjonnut meikäläisen omaksuttavissa olevaa opetusta.

Tutustuttuani tällöin ensi kertaa nollahypoteesiin, kriittiseen väliin jne. aloin tuntea suoranaista kiihkoa. Yksi asia kuitenkin vaivasi ja vaivaa jatkuvasti. Koska en aio opiskella tilastotiedettä  Holopainen et.al. "Tilastolliset menetelmät" .kirjaa enempää, pelkään, että en koskaan tule näkemään ongelmani ratkaisua. Ja ongelmani on tämä:  Miten on keksitty sellaiset kaavat kuin esimerkiksi "suhteellisen osuuden testaus kahdesta otoksesta" tai vaikkapa "khii toiseen -yhteensopivuustesti" tai "kahden riippumattoman otoksen keskiarvotesti". Matemaattisesti niitä ei ole voitu johtaa mistään postulaateista, varmaankaan, eivätkä ne ylipäänsä anna tulokseksi mitään täsmällistä; pelkästään teknisesti perustellumpaa mutua. Mutta miten kaavat on saatu? Normaalijakauman kyllä ymmärtää; sen taustalla onkin kuuluisa Gaussin käyrä, joka on eksakti, hieno matemaattinen olio. Mutta monet muut kaavat, mistä ne tulevat? Saadaanko ne normaalijakauman menetelmien tavoin ulos joidenkin muiden jakautumien täsmällisistä hahmoista, vai miten?

käyttäjä-3779
Liittynyt12.5.2014
Viestejä1639

Normaalijakauman keksimiseen on varmaan vaadittu huomattavaa matemaattista lahjakkuutta. Erikoisesti kiinnittää huomiota normaalijakauman kaavassa esiintyvät transsendenttiluvut e ja pi, jotka ovat valiutuneet jopa ylinumeroituvasta transsendenttilukujen joukosta kuvaamaan kaikenlaisia yksinkertaisia ilmiöitä alkaen pallosta ja ketjukäyrästä.

https://fi.wikipedia.org/wiki/Normaalijakauma

Joku on sanonut siihen tapaan, että joka oivaltaa normaalijakauman kaavan kokonaisuutena, on matemaatikko. Ehkä Ramanujan on oivaltanut

https://fi.wikipedia.org/wiki/Srinivasa_Ramanujan

Veikkaankin, että kananmunien joukko on sukua normaalijakaumalle. Kananmunan pyöreä pää edustaa lukua pi ja ketjukäyrän muotoinen pää lukua e. Käyrät vaihtuvat toisikseen kultaisen leikkauksen suhteessa. Siis keskimäärin. Tulee mieleen tutkia, mikä rooli voisi olla kultaisella leikkauksella normaalikäyrässä. Ainakin lukuisat ihmisen mittojen välillä vallitsevat kultaista leikkausta approksimoivat ulottuvuudet ovat normaalisti jakautuneet väestössä.

Vierailija

Normaalijakaumasta kunnia kuuluu Gaussille, Laplacelle, ja muille.

Frekventistinen tilastotiede saa myös allekirjoittaneen kiihkon valtaan: se on nimittäin aivan henkeäsalpaavan vaikeatulkintaista käytännön tutkimuksessa. Esimerkiksi yo. käyttäjät jotka soveltavat testejä ilman syvempää ymmärrystä mistä ja miten esimerkiksi khiin neliön testi johdetaan.

Jos bayesiläinen tilastotiede vaikuttaakin vaikealta, ei sen perusidean ymmärtämiseen tarvittava matemaattinen välineistö ole sen kummempaa kuin nk. klassisenkaan tilastotieteen metodien ymmärtämisessä tarvittava matematiikka --- ja monien mielestä bayesiläisen menetelmän teoreettinen perustelu on paljon helpompi niin maallikollekin kuin asiantuntijallekin ymmärtää oikein.

Vierailija

Aloin opiskelemaan kasvatustieteitä enkä alkuun ymmärtänyt mihin tarvitaan tutkimuksen tekoa ja sen opettelua, jos tarkoituksena on alkaa opettaa lapsia. Kvantitatiivisen kurssin jälkeen, kun oltiin käyty läpi, miten tutkimustulokset rakentuvat, aloin ymmärtää miksi. Kriittisyyteni on selkeästi lisääntynyt, kun luen artikkeleita, joissa vedotaan erilaisiin tutkimuksiin. Osaan päätellä, onko uutisoidut tutkimukset luotettavia, joten osaan suhteuttaa niistä saavan tiedon käytäntöön. Jos kyseiseisiä kursseja ei olisi, en osaisi eritellä erilähteiden luotettavuutta tai sitä onko tutkimus hyvin tehty, vaan ottaisin kaiken silkkana totena. Yksi asia mihin muidenkin kannattaa kiinnittää huomiota on se, kuinka suuri otanta tutkimuksissa on. Monissa iltalehden kaltaisissa uutisoinneissa joidenkin tutkimusten otanta saattaa olla 30 henkee, joten tulokset eivät todellakaan ole yleistettävissä perusjoukkoon. Huomiota kannataa kiinnittää myös siihen pääseekö uutis artikkeleiden kautta varsinaisiin tutkimustuloksiin tai onko tietoja kerrottu niin paljon, että alkuperäinen tutkimus olisi mahdollista löytää.

Your mama

Olen ehdottomasti samalla kannalla kirjoittajan kanssa - ainakin sikäli jos ajatuksena on, että tavallinen tallaajakin alkaisi ymmärtämään tilastojen päälle edes auttavasti.
Mutta en kuitenkaan pitäisi puhtaasti matemaattisen pohjan ymmärtämistä niin tärkeänä kuin tutkimusmenetelmien ja niiden vahvuuksien ja heikkouksien ymmärtämistä. Kvantitatiivisen väestötutkimuksen perusteella viljaa syöviä vertaamalla viljaa syöviin, Iltalehti kirjoittaa viljan syönnin olevan terveellistä ja se uppoaa väestöön kuin häkä. Väite sinänsä kestää tilastoanalyysin, jos ei oteta huomioon, että kyseisistä tutkimuksista ei voida vetää tehtyjä johtopäätöksiä.

käyttäjä-3779
Liittynyt12.5.2014
Viestejä1639

Vierailija kirjoitti:
Normaalijakaumasta kunnia kuuluu Gaussille, Laplacelle, ja muille.

Frekventistinen tilastotiede saa myös allekirjoittaneen kiihkon valtaan: se on nimittäin aivan henkeäsalpaavan vaikeatulkintaista käytännön tutkimuksessa. Esimerkiksi yo. käyttäjät jotka soveltavat testejä ilman syvempää ymmärrystä mistä ja miten esimerkiksi khiin neliön testi johdetaan.

Jos bayesiläinen tilastotiede vaikuttaakin vaikealta, ei sen perusidean ymmärtämiseen tarvittava matemaattinen välineistö ole sen kummempaa kuin nk. klassisenkaan tilastotieteen metodien ymmärtämisessä tarvittava matematiikka --- ja monien mielestä bayesiläisen menetelmän teoreettinen perustelu on paljon helpompi niin maallikollekin kuin asiantuntijallekin ymmärtää oikein.

Tilastotieteen jonkun kaavan asianmukainen käyttö ilmenee monissa vastaan tulevissa käytännön tilanteissa esimerkeistä ja niiden mukaisista harjoitustehtävistä. Ellei jollakulla ole aikomus opiskella tilastotiedettä tai muuten omakohtainen tarve ymmärtää kaavoja syvemmin, hän voinee jättäytyä esimerkkien ja oppikirjojen perus-harjoitustehtävien tasolle.  Itse en ainakaan pienestä hinnastakaan rupeisi selvittelemään itselleni esimerkiksi khiin neliö -riippumattomuustestin tai vaikkapa suhteellisen osuuden testauksen kahdesta otoksesta perusteita. Ymmärryshaluni ehdottoman ylärajan muodostavat Poisson-jakauma ja Gaussin käyrä, nekin lähinnä lempilukujeni e ja pi ansiosta.

Koska en ylipäänsä koskaan tule oikeasti tarvitsemaan tilastotiedettä, pidättäydyn kokonaan tutustumasta bayesilaiseen menetelmään ja jättäydyn itseäni viisaampien saamien tulosten tai mutu-tuntuman varaan. Uskoisin, että saman tasoinen ratkaisu olisi mielekäs monelle humanistillekin.

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Blogiarkisto

Kategoriat