Arvauskilpailu: leväluhtalaisten isä- ja äitilinjat

Seuraa 
Viestejä2762
Liittynyt15.9.2006

Järjestetäänpä pieni arvauskilpailu tässä kun odotellaan Isonkyrön Leväluhdan muinaisruumiiden geenitutkimuksen valmistumista. Eli millainen geenistö noilla keskirautakautisen (~ 500 jaa.) Etelä-Pohjanmaan muinaisvainajilla oli? Fyysisestihän he olivat lyhyitä ja pitkäkalloisia.

1. Laita yleisyysjärjestykseen leväluhtalaisten isälinjat prosentteineen. Nykypitoisuudet tutkimuksen Lappalainen et al. 2006 (Regional differences among the Finns: A Y-chromosomal perspective) mukaan ovat suomenkielisellä Etelä-Pohjanmaalla: I1 = 46,55 %; N1c = 25,86 %; N1b 3,45 %; R1a1 = 18,96 %; R1b = 3,45 %; Y*(xA,D,E,I,J,K) [eli muuta] = 1,72 % ja ruotsinkielisellä Etelä-Pohjanmaalla: I1 = 36 %; N1c = 40 %; N1b = 0 %; R1a1 = 12 %; R1b = 8 %; Y*(xA,D,E,I,J,K) [eli muuta] = 4 %.

2. Laita yleisyysjärjestykseen leväluhtalaisten äitilinjat prosentteineen. Eteläpohjalaisista en löytänyt tietoja, mutta seuraavat arvot ovat keskipohjalaisista tutkimuksesta Meinilä et al. 2001 (Evidence for mtDNA Admixture between the Finns and the Saami): H = 39 %; U = 25 %; W = 13 %; J = 9 %; I = 5 %; V = 3 %; K = 3 %; X = 3 %. U-haploryhmän alalinjaa, ns. saamelaismotiivia (U5b1b1) löytyy suomalaisilta keskimäärin 6,7 %, karjalaisilta 6 % ja saamelaisilta 47,6 % – kuinka paljon sitä oli leväluhtalaisilla?

Frekvenssien yhteissumman tulee olla lypsämisen estämiseksi enintään 100 % sekä isä- että äitilinjoilla. Voit ottaa mukaan myös linjoja, joita ei alueen nykyväestöstä löydy; valikoima löytyy täältä:
http://fi.wikipedia.org/wiki/Haploryhm%C3%A4
http://www.isogg.org/tree/ISOGG_YDNATreeTrunk.html

Pisteytys

Pisteitä annetaan sen mukaan, kuinka kauas oikeasta arvosta kunkin linjan kohdalla osuu; tällöin yleisemmät haploryhmät eivät painotu harvinaisempien kustannuksella. Maksimipistemäärä selviää vasta kun tiedetään kuinka montaa haploryhmää vainajista löytyy. Oikeaan osuneesta arvauksesta (puolen prosenttiyksikön tarkkuudella) saa 10 pistettä per haploryhmä ja 10 prosenttiyksikön erehdys maksaa 10 pistettä harvinaisten linjojen kohdalla (todellinen frekvenssi alle 10 %) ja 5 pistettä yleisempien linjojen kohdalla (jolloin 20 prosenttiyksikön virhe merkitsee että pisteet putoavat nollaan). Asteikko on portaaton suhdeluvun säilyessä samana, eli 2 prosenttiyksikön erehdys maksaa 2 (harvinaisilla linjoilla) tai 1 pisteen (yleisillä linjoilla).

Nykyväestöstä puuttuvien linjojen arvaamisessa riittää päähaploryhmä (esim. isälinja E, Q jne.)

Jaakko Häkkisen puolikuiva alkuperäsivusto http://www.elisanet.fi/alkupera/
Jaakko Häkkisen kuiva politiikkasivusto http://jaska.puheenvuoro.uusisuomi.fi/

Sivut

Kommentit (17)

Jaska
Seuraa 
Viestejä2762
Liittynyt15.9.2006

Jaskan arvaus:

Isälinjat
R1a1 = 25 %
I1 = 40 %
N1c = 20 %
N1b = 6 %
R1b = 2 %
E = 2 %
J = 2 %
Q = 2 %
K = 1 %
(YHT: 100 %)

Äitilinjat
U5b1b1 = 20 %
muu U = 10 %
H = 25 %
W = 10 %
V = 10 %
J = 10 %
X = 5 %
K = 5 %
D = 3 %
Z = 2 %
(YHT: 100 %)

Jaakko Häkkisen puolikuiva alkuperäsivusto http://www.elisanet.fi/alkupera/
Jaakko Häkkisen kuiva politiikkasivusto http://jaska.puheenvuoro.uusisuomi.fi/

Vierailija
Jaska
Järjestetäänpä pieni arvauskilpailu tässä kun odotellaan Isonkyrön Leväluhdan muinaisruumiiden geenitutkimuksen valmistumista. Eli millainen geenistö noilla keskirautakautisen (~ 500 jaa.) Etelä-Pohjanmaan muinaisvainajilla oli?

Ja mitenhän monta yksilöä sieltä ollaan edes yrittämässä tutkia? Jos ei kovin monta, arvauksista(nne) ropisee roimasti pisteitä pois jo siksi, että mahdolliset oikeat vastaukset ovat kovin kvantittuneita... Ja mikä pahempaa, kvantittuneisuuden hyvin huomioimalla voi pystyä keinotekoisesti parantamaan tulostaan.

Olisiko reiluuden nimissä pistejaossa syytä vähintään pitää "oikeana" frekvenssinä luvuista (havaittu lukumäärä +- 0.5)/(tutkittu lukumäärä) sitä kumpi on kulloinkin lähempänä esitettyä arvausta? Tai pitäisikö peräti rokottaa pisteitä sen perusteella, monenko hajontayksikön (jonka laskemiseen Jotuni epäilemättä osaisi kertoa meille kaavan ) verran arvaus poikkeaa havainnosta? Siinä tulisi suoraan huomioitua otoskoko ja erilaiset frekvenssit.

Jaska
Seuraa 
Viestejä2762
Liittynyt15.9.2006
Aarni
Ja mitenhän monta yksilöä sieltä ollaan edes yrittämässä tutkia? Jos ei kovin monta, arvauksista(nne) ropisee roimasti pisteitä pois jo siksi, että mahdolliset oikeat vastaukset ovat kovin kvantittuneita... Ja mikä pahempaa, kvantittuneisuuden hyvin huomioimalla voi pystyä keinotekoisesti parantamaan tulostaan.

Siellä on arvioitu olevan satakunta vainajaa (tai osia niin monesta) – ihan kelpo väestöotos siis geneettiseen tutkimukseen. Äitilinjoja saadaan tutkittua tuplamäärä isälinjoihin nähden, jos vain se tutkitaan miehiltäkin, mutta ei anneta tämän häiritä.

Aarni
Olisiko reiluuden nimissä pistejaossa syytä vähintään pitää "oikeana" frekvenssinä luvuista (havaittu lukumäärä +- 0.5)/(tutkittu lukumäärä) sitä kumpi on kulloinkin lähempänä esitettyä arvausta? Tai pitäisikö peräti rokottaa pisteitä sen perusteella, monenko hajontayksikön (jonka laskemiseen Jotuni epäilemättä osaisi kertoa meille kaavan ) verran arvaus poikkeaa havainnosta? Siinä tulisi suoraan huomioitua otoskoko ja erilaiset frekvenssit.

Pitäisin pisteidenlaskun mahdollisimman läpinäkyvänä, ettei kellään olisi mitä riitauttaa (vaikka huikeita palkintoja ei olekaan luvassa). Viitsisitkö heittää pari esimerkkiä siitä, miten tuon menetelmän pisteet eroaisivat käytännössä minun menetelmäni pisteistä?

Ja heitä toki omakin arvauksesi! Minä lähdin aika varovaisesti liikkeelle: oma arvaukseni ei kauheasti eroa alueen nykytilanteesta. Arvasin että Sigfrid, joka on korostanut muutosta, heittää rohkeammin poikkeavia lukuja.

Pitää vielä miettiä, miten kohdellaan Sigfridin vastauksen muutamia kohtia: saamelaismotiivia ei erotella, joten niillä jotka erottelevat, pitäisi olla mahdollisuus korkeampaan pistepottiin. Ja niinhän onkin, koska heillä U:ssa on kaksi erillistä haploryhmää ja maksimi 20 pistettä, kun taas Sigulla 10.

Ja voiko kohdasta MUUT antaa pisteitä? Jaetaanko 10 % kaikkien muiden kuin mainittujen haploryhmien kesken, jolloin tulee esim. 1 % per linja, ja pisteitä saisi sitten yhden per löytynyt "muu linja"? Jokaisestahan ei voi olla jaossa 10 pistettä, kun niitä ei ole nimetty - sehän tekisi tällaisesta MUU-kategorian käytöstä lypsämistä.

Tai sitten Sigfrid (ja se kolmas mahdollinen osallistuja) tarkentavat vastauksiaan sääntöjen kehyksiin sopiviksi.

Jaakko Häkkisen puolikuiva alkuperäsivusto http://www.elisanet.fi/alkupera/
Jaakko Häkkisen kuiva politiikkasivusto http://jaska.puheenvuoro.uusisuomi.fi/

Vierailija
sigfrid
Isälinjat
R1a1 = 40 %
I1 = 30 %
N1c = 20 %
LOPUT 10%

(YHT: 100 %)

Äitilinjat
U5 = 40 %
H = 20 %
W = 10 %
V = 20 %
LOPUT 10%

(YHT: 100 %)




Olettaisin (perstuntumalla) väestön edelleen pitkäkalloisuuden ja pienuuden lisäksi olleen vaaleaa ja sinisilmästä, ja jätän R:t eli lähinnä kanta-IE- ja U:t eli "uralilaiset" haplot pois, tai hyvin vähälle. Nyt kun uralilaiset on jätetty pois, kaikki mainitut ominaisuudet ovat erittäin resessiivisiä, ja tämä tarkoittaa, että väestö oli geneettisesti yksipuolista. Muuten lähden Sigfridin jakautumasta

Isälinjat:

I1 50%
N1c 40%
N1b 10%

Äitilinjat:

H 60%
V 40%

Vierailija

Heitän myös villin arvaukseni.

I1 = 40 %
N1c = 20 %
N1b = 2 %
R1a1 = 20 %
R1b = 10 %
Y*(xA,D,E,I,J,K) [eli muuta] = 8 %

H = 37 %
U = 20 %
W = 10 %
J = 5 %
I = 5 %
V = 3 %
K = 5 %
X = 3 %
U5b1b1 = 12

Mieslinjoja on paljon vaikeampi arvioida lyhyemmän aikaskaalan ja suuremman liikkuvuuden takia, mutta toisaalta ne kertonevat enemmän kansan historiasta. Odotan erittäin suurella mielenkiinnolla testien tuloksia.

Jaska
Seuraa 
Viestejä2762
Liittynyt15.9.2006

Kiitos, nyt alkaa löytyä jo hajontaa. Jännää jos noilla olisikin paljon jotain sittemmin harvinaistunutta isälinjaa: "eskimoottista" Q:ta (Lappalaisella 1 esiintymä Pohjois-Karjalassa), siperialaisperäistä N1b:tä (2 esiintymää juuri Etelä-Pohjanmaalla) tai jonkin haploryhmän ennen tuntematonta alalinjaa (vrt. jäämies Räikkösen eiku Ötzin äitilinja).

Pelkkä haploryhmän tarkkuus ei vielä riitä kertomaan, ovatko leväluhtalaiset siirtäneet paljonkin geenejään nykyisiin eteläpohjalaisiin - siihen tarvittaisiin haplotyyppien polveutumisanalyysi. Toivotaan että sellainenkin tulee. Kuinka paljon ja kuinka laajalla alueella heillä on jälkeläisiä? Tuollainen 1500 vuoden tarkasteluajanjakso antaisi jo todella hyvän kuvan geenien leviämisnopeudesta.

Jaakko Häkkisen puolikuiva alkuperäsivusto http://www.elisanet.fi/alkupera/
Jaakko Häkkisen kuiva politiikkasivusto http://jaska.puheenvuoro.uusisuomi.fi/

Jaska
Seuraa 
Viestejä2762
Liittynyt15.9.2006
El6
Eiköhän ne olleet ihan vaan ihmisiä kaikki. Rotuintoilijat ja muut haploholmöt voi tunkee ne höplöt perseeseensä.

Joitain sieniä ei ole tarkoitettu syötäväksi, nuori ystäväni.
Haploryhmillä ei ole mitään yhteyttä rotuihin, joten trollikommenttisi on nyt vähän väärällä planeetalla...

Jaakko Häkkisen puolikuiva alkuperäsivusto http://www.elisanet.fi/alkupera/
Jaakko Häkkisen kuiva politiikkasivusto http://jaska.puheenvuoro.uusisuomi.fi/

Vierailija
Jaska
Aarni
Ja mitenhän monta yksilöä sieltä ollaan edes yrittämässä tutkia? Jos ei kovin monta, arvauksista(nne) ropisee roimasti pisteitä pois jo siksi, että mahdolliset oikeat vastaukset ovat kovin kvantittuneita... Ja mikä pahempaa, kvantittuneisuuden hyvin huomioimalla voi pystyä keinotekoisesti parantamaan tulostaan.

Siellä on arvioitu olevan satakunta vainajaa (tai osia niin monesta) – ihan kelpo väestöotos siis geneettiseen tutkimukseen. Äitilinjoja saadaan tutkittua tuplamäärä isälinjoihin nähden, jos vain se tutkitaan miehiltäkin, mutta ei anneta tämän häiritä.

No joo, ihan lupaavan kuuloinen määrä - tosin Wiki väittää että aikuiset miehet puuttuisivat ehkä kokonaan, eli Y:itten määrä voinee jäädä selvästi alle puoleen tuosta. Ja moninaiset tekniset seikat tietysti ratkaisevat, miten suuresta osasta yksilöitä saadaan tulosta alkuunkaan. (Onko teillä muuten jotain salattua tietoa tämän projektin etenemisestä: miksi veikkauskilpailu juuri nyt - joko rupean pidättämään hengitystä tuloksia odotellessani? )

Jaska
Aarni
Olisiko reiluuden nimissä pistejaossa syytä vähintään pitää "oikeana" frekvenssinä luvuista (havaittu lukumäärä +- 0.5)/(tutkittu lukumäärä) sitä kumpi on kulloinkin lähempänä esitettyä arvausta? Tai pitäisikö peräti rokottaa pisteitä sen perusteella, monenko hajontayksikön (jonka laskemiseen Jotuni epäilemättä osaisi kertoa meille kaavan ) verran arvaus poikkeaa havainnosta? Siinä tulisi suoraan huomioitua otoskoko ja erilaiset frekvenssit.

Pitäisin pisteidenlaskun mahdollisimman läpinäkyvänä, ettei kellään olisi mitä riitauttaa (vaikka huikeita palkintoja ei olekaan luvassa). Viitsisitkö heittää pari esimerkkiä siitä, miten tuon menetelmän pisteet eroaisivat käytännössä minun menetelmäni pisteistä?

Tarkemmin mietittyäni (ja noin neljännellä lukemalla pisteytyssäännöt ehkä ymmärrettyäni ) huomaan, että kvantittuneisuus on ongelmallinen lähinnä silloin jos näytemäärän perusteella mahdolliset tulosfrekvenssit (esim. 10 näytettä => 10 %:n monikerrat) eroaisivat toisistaan enemmän kuin niitä ympäröivien pisteitä tuottavien alueiden leveyksien verran: silloin niiden väliin jäisi alue, jolta ei olisi mahdollista saada pisteitä eli jolta ei ainakaan kannattaisi veikata. Mutta niinhän ei tässä ole nyt uhkaamassa käydä, koska pisteytysalueet ovat kiitettävän laajat (itse asiassa harvinaisten haploryhmien kohdalla ulottuvat jopa nollan alapuolelle; olisiko syytä säätää että arvausten on paitsi summauduttava nollaan, myös oltava ei-negatiivisia? ) ja aineistoakin toivottavasti tulossa melkoinen määrä.

Binomijakauman otoshajonta on jotain sellaista kuin (p * (1-p) / n)^0.5, missä p on haplon frekvenssi otoksessa, n otostettujen yksilöitten määrä ja ^0.5 esittää neliöjuurta tässä huomattavan rajoittuneessa notaatiossa. En vanno että kaava on täsmälleen tämä, sillä se kirja josta sen tarkistaisin on töissä, mutta joka tapauksessa jotakin joka riippuu frekvenssistä ja otoskoosta eli säätyy niiden mukaan (eli ei tarvitsisi kiinnittää yleisen ja harvinaisen välistä rajaa, eikä myöskään arvailla pisteytysalueen laajuutta varten montako onnistunutta näytettä on tulossa) mutta on kuitenkin kohtalaisen läpinäkyvää. Eli jos arvaus olisi +- 1 hajontayksikön päässä oikeasta, saisi vaikkapa 3 pistettä, +-2:sta 2 pistettä ja +-3:sta yhden, tms.; tai jopa portaattomasti: 3 pistettä miinus arvauksen virheen suuruus hajontayksiköinä. Suosittelen seuraavaan veikkauskilpailuun!

Jaska
Ja heitä toki omakin arvauksesi! Minä lähdin aika varovaisesti liikkeelle: oma arvaukseni ei kauheasti eroa alueen nykytilanteesta. Arvasin että Sigfrid, joka on korostanut muutosta, heittää rohkeammin poikkeavia lukuja.

Taidan jättää heittämättä, kun en ole kovin perehtynyt näihin haploryhmäpuolen asioihin. Viimeaikaisten epäjatkuvuustulosten innoittamana - vaikka niissä tarkastelun aikaskaala onkin ollut aivan eri - veikkaisin kyllä koko lailla nykyisestä poikkeavaa tilannetta (ja tuottaahan pelkkä ajautuminenkin melkomoisia heilahduksia), mutta mitä sitten tilalle, sitä en osaa ryhtyä spekuloimaan. Jos tietäisin mihin haploryhmiin itse kuulun, voisin tietysti vettenhovimaisesti veikata niille muinaista dominanssia edes näin rajallisena aikana ja alueella.

Siis: Aarnille nolla pistettä.

Jaska
Ja voiko kohdasta MUUT antaa pisteitä? Jaetaanko 10 % kaikkien muiden kuin mainittujen haploryhmien kesken, jolloin tulee esim. 1 % per linja, ja pisteitä saisi sitten yhden per löytynyt "muu linja"? Jokaisestahan ei voi olla jaossa 10 pistettä, kun niitä ei ole nimetty - sehän tekisi tällaisesta MUU-kategorian käytöstä lypsämistä.

Pitää varmaan ynnätä muitten kuin erikseen lueteltujen haploryhmien frekvenssit leväluhtalaisissa, ja verrata summaa muut-veikkaukseen samoin pisteytyssäännöin kuin yksittäisiä haploryhmiä?

Jaska
Seuraa 
Viestejä2762
Liittynyt15.9.2006
Aarni
No joo, ihan lupaavan kuuloinen määrä - tosin Wiki väittää että aikuiset miehet puuttuisivat ehkä kokonaan, eli Y:itten määrä voinee jäädä selvästi alle puoleen tuosta. Ja moninaiset tekniset seikat tietysti ratkaisevat, miten suuresta osasta yksilöitä saadaan tulosta alkuunkaan.

Totta: jos otos jää pieneksi, mitenkään kiveen hakatun varma ei tulos ole. Mutta arvauskilpailun voittajan ratkaisemiseen sekin riittää!

Aarni
(Onko teillä muuten jotain salattua tietoa tämän projektin etenemisestä: miksi veikkauskilpailu juuri nyt - joko rupean pidättämään hengitystä tuloksia odotellessani?)

Ei ole salattua tietoa – tarkoitus oli vain heittää arvaukset reippaasti ennen mitään välikatsauksia juuri siksi, ettei kukaan pääsisi syyttämään ketään salattujen tietojen saamisesta. Toivottavasti ei kovin montaa vuotta jouduta odottamaan…

Aarni
Mutta niinhän ei tässä ole nyt uhkaamassa käydä, koska pisteytysalueet ovat kiitettävän laajat (itse asiassa harvinaisten haploryhmien kohdalla ulottuvat jopa nollan alapuolelle; olisiko syytä säätää että arvausten on paitsi summauduttava nollaan, myös oltava ei-negatiivisia? ) ja aineistoakin toivottavasti tulossa melkoinen määrä.

Minun alkaa olla vaikea seurata juttujasi, mutta leikitään että se johtuu väsymyksestä. Ei suinkaan säännöissä ole porsaanreikää, että negatiivisella veikkauksella saisi enemmän pisteitä kuin positiivisella? Tai tarkoittanet ilmeisesti, että negatiivisella veikkauksella saa pelivaraa ja voi siten "lypsää" eli jakaa lisää positiivisia arvauksia niin että summa on edelleen 100%? Täten tarkennamme tällä päivämäärällä itsevaltaisesti sääntöjä niin, että arvausten on oltava arvoltaan positiivisia eli nollaa suurempia.

Aarni
Taidan jättää heittämättä, kun en ole kovin perehtynyt näihin haploryhmäpuolen asioihin. Viimeaikaisten epäjatkuvuustulosten innoittamana - vaikka niissä tarkastelun aikaskaala onkin ollut aivan eri - veikkaisin kyllä koko lailla nykyisestä poikkeavaa tilannetta (ja tuottaahan pelkkä ajautuminenkin melkomoisia heilahduksia), mutta mitä sitten tilalle, sitä en osaa ryhtyä spekuloimaan. Jos tietäisin mihin haploryhmiin itse kuulun, voisin tietysti vettenhovimaisesti veikata niille muinaista dominanssia edes näin rajallisena aikana ja alueella.
Siis: Aarnille nolla pistettä.

Ihan Euroviisumeininkiä siis…
Tässä olemme kaikki onneksi ihan samassa veneessä, tappi hukassa ja äyskäri kateissa. (Suom. huom: veneessä on siis myös yksi susi ja useita kissoja, kullakin mahalaukussa vieraan esineen palasia.)

Minä oletan, että vaikka nykyisten haplotyyppien genealoginen jatkuvuus ei ulottuisikaan leväluhtalaisiin, niin nykyiset haploryhmät ovat kuitenkin niitä samoja kuin jo kauan sitten. Toisin sanoen tuntemattomia haploryhmiä ei löydy, vaan nämä tutut haploryhmät ovat pyörineet täällä pohjoisessa ”aina”.

Aarni
Pitää varmaan ynnätä muitten kuin erikseen lueteltujen haploryhmien frekvenssit leväluhtalaisissa, ja verrata summaa muut-veikkaukseen samoin pisteytyssäännöin kuin yksittäisiä haploryhmiä?

Kuulostaa reilulta, kiitos laskennallishallinnollisesta avusta!

Jaakko Häkkisen puolikuiva alkuperäsivusto http://www.elisanet.fi/alkupera/
Jaakko Häkkisen kuiva politiikkasivusto http://jaska.puheenvuoro.uusisuomi.fi/

Vierailija

En tiedä, missä vaiheessa tutkimukset ovat, mutta mistään julkaisusta ei ole vielä tietoakaan. Tuskin ilmestyykään kovin pian, kyseessähän on monivuotinen projekti.

Sivut

Uusimmat

Suosituimmat