Ruskean käyrän kurtoosi on suuri, violetin kolmion pieni, vaikka jopa ammattikirjallisuudessa kurtoosin väitetään mittaavan "huipukkuutta" tai "terävähuippuisuutta". Todellisuudessa kurtoosi mittaa jakauman "hännäkkyyttä" tai "äärekkyyttä", eli on sitä suurempi mitä enemmän huipusta kaukana olevia arvoja.

Tilastoja kuvataan tunnusluvuilla. Keskiarvon tietää kaikki. Mediaanin moni. Hajonnan harva. Mutta vain tilastoihmiset tietävät, mitä on huipukkuus.

Vai tietävätkö? Huipukkuus ei nimittäin kuvaa tilastollisen jakauman huippua, vaan ennemmin sen häntiä.

Suomalaiset ovat luultavasti erityisen pahasti sekaisin tilastoasioista, koska kutsuvat tätä tunnuslukua huipukkuudeksi. Englanniksi ja ruotsiksi sama tunnusluku on nimeltään kurtosis, ja sekä englannin- että ruotsinkielinen Wikipedia näyttää myös kuvailevan lukua oikein. Saksaksi kurtosis on Wölbung (pullistuma), joten saksalaiset lienevät yhtä sekaisin kuin suomalaiset. Kurtosis on toki sekin johdettu kuperuuteen viittaavasta kreikankielisestä sanasta kyrtos, mutta sen taakkana ei ole nykykielessä samanlaista harhaanjohtavaa yleismerkitystä kuin huipukkuudella.

Suomenkielinen Wikipedia sanoo (17.1.2019), että huipukkuus "kuvaa jakauman huipun terävyyttä". Tilastotieteen suomenkielinen kirjallisuus toistelee määrittelyä terävähuippuisuuden avulla. En löytänyt ainuttakaan suomenkielistä kirjaa, jossa luku olisi kuvailtu oikein jakauman häntien tai keskikohdasta poikkeavien arvojen avulla.

Google löytää suomenkielisiä lähteitä, jotka käyttävät nimeä kurtoosi. On tietysti vaikea sanoa, onko termin "huipukkuus" välttämisessä tällöin kyse aidosta ymmärryksestä vai ainoastaan kääntäjän laiskuudesta. Minäkin tyydyn nimeen kurtoosi, kunnes parempi suomennos hyväksytään. Olisiko hännäkkyys tai äärekkyys sellainen?

Moni englanninkielinenkin lähde väittää kurtoosin kertovan, mikä on tilastollisen jakauman "peakedness" (huipukkuus). Jopa ammattikirjallisuudessa kurtoosia kuvaillaan toistuvasti väärin. Tähän kyllästynyt tilastotieteilijä Peter Westfall julkaisi aiheesta artikkelin Kurtosis as Peakedness, 1905 – 2014. R.I.P. (suom. "Kurtoosi huipukkuutena, 1905 – 2014. Levätköön rauhassa.")

Kurtoosin määrittely on korjattu englanninkieliseen Wikipediaankin vasta Westfallin artikkelin jälkeen, vaikka Westfall viittaa jo vuosikymmeniä vanhoihin julkaisuihin, joissa kurtoosin merkitys on tunnistettu oikein. Nämä löytyvät kuitenkin tilastotieteen perustutkimuksen julkaisuista, mitä valtaosa tilastotieteen soveltajista ei koskaan lue. Ja nykyisellä Big datan aikakaudella soveltajia on paljon.

Westfallin mukaan termi "huipukkuus" syntyi vuonna 1905, kun arvovaltainen tilastotieteilijä Karl Pearson kuvaili kurtoosia jakauman huipun avulla. Auktoriteetin synnyttämä väärinkäsitys on sitten valloittanut maailman ihmisten – tutkijoiden, soveltajien ja opettajien – kopioidessa toisiaan.

Westfallin terävä- ja tasahuippuiset esimerkit osoittavat, että molemmanlaisilla jakaumilla voi olla pieni tai suuri kurtoosi. Hän osoittaa myös, että vain pieni osa kurtoosista syntyy hajonnan sisällä jakauman huipusta. Kurtoosin määrää pääosin huipusta poikkeavat arvot eli jakauman hännät.

"Kuten olen osoittanut, kurtoosi kertoo hyvin vähän jakauman huipusta tai keskuksesta. Kurtoosin määritteleminen huipukkuutena haittaa tilastotieteellisen lukutaidon edistämistä. Huipukkuuden suhde kurtoosiin on nyt virallisesti ohi", julistaa Westfallin suurisanainen johtopäätös (vapaa suomennokseni).

Teoreetikon ei pitäisi yllättyä, että kurtoosi ei juuri kerro jakauman huipusta. Nimittäin kurtoosi lasketaan odotusarvona (ns. neljäntenä momenttina), ja odotusarvot ovat tunnetusti herkkiä nimenomaan huipusta poikkeaville arvoille!

Jakauman huipukkuudesta saa tietysti edelleen puhua, kunhan muistaa että sitä ei kuvaa yleisesti käytetty kurtoosin matemaattinen kaava. Kurtoosi on kurtoosi, ja jakauman huipun kuvaamiseen täytyy määritellä omat kaavansa.

Suomeksi olisi tarvetta samanlaiselle tilastotieteen sanaston uudistukselle, jonka Westfallin artikkeli on pannut alulle englanniksi. Sanoilla on merkitystä, sillä kieli vaikuttaa ajatteluun ja asioiden ymmärrykseen. 

Ja tilastotieteen ymmärrykselle on paljon enemmän kysyntää kuin tarjontaa.

Kommentit (0)

Seuraa 

Rajankäyntiä

Teppo Mattsson on kosmologiaan ja suhteellisuusteoriaan erikoistunut teoreettisen fysiikan tutkija, joka harrastaa matkailua tieteenalojen välisillä rajaseuduilla. Blogi on matkakertomus näiltä retkiltä.

Teemat

Hae blogista

Blogiarkisto

Kategoriat