Todennäköisyysarvioista

Seuraa 
Viestejä45973
Liittynyt3.9.2015

Olen yrittänyt kehitellä erilaisia malleja, joilla voisi arvioida jääkiekko-otteluiden tuloksia aiempien otteluiden tulosten pohjalta. Mallini arvioivat kohteen pitkävetotulosten todennäköisyydet (esim. Jokerit-Kalpa 1 45%, X 20%, 2 35%). Minulla on noin 2000 ottelun arviot ja tulokset ja olen yrittänyt pähkäillä, millä tavalla niiden perusteella voisi parhaiten päätellä, mikä malleistani osasi arvioida tuloksia parhaiten.

Jos ylläolevan esimerkkini ottelu Jokerit-Kalpa päättyy tasapeliin (jonka todennäköisyys oli vain 20%), niin siitähän ei suoraan voi päätellä mitään todennäköisyysarvioideni hyvyydestä. Mutta, kun otteluita on pari tuhatta, niin luulisi tilastotieteen puolelta löytyvän joku keino/malli/kaava/jotain, jolla voisi jotenkuten arvioida kuinka hyvin todennäköisyysarvioni keskimäärin pitivät? Miten on, löytyykö?

Kommentit (12)

IsoJussi
Seuraa 
Viestejä987
Liittynyt16.3.2005

Eipä löydy. Jos olisi löytynyt, eipä se ihminen siitä kertoisi. Keräilisipä vaan rahat pois jokaiselta pitkävetokierrokselta.

Jos tuohon ruvettaisiin mallia rakentamaan, muuttujia olisi aika hitosti:
-joukkueen sijoitus taulukossa
-edelliset pelit
-loukkaantumsitilanne
-vieras/kotipelipelaaminen
-puolustus/hyökkäyspeli
-ja paljon muutakin

Vedonlyöntifirmoilla on toki ohjelmia, joilla arvioivat eri vaihtoehtojen todennäköisyyksiä. Vaan eivätpä nekään kovin asiantuntevia ole.

Joten: lycka till...

Same shit, different day...

Vierailija

Ei ei en tarkoittanutkaan sitä. Vaan, kun minulla on useita malleja, joilla on omat todennäköisyytensä kohteille sekä otteluiden tulokset, niin miten saisin määritettyä, kuinka hyvin mallieni arviot pitivät kutinsa.

Mitenköhän tämän nyt tuota niinku selittäis... No jos haluaisin laskea joukkueiden tekemien maalimäärien odotusarvoja (esim. Jokerit 3.45 maalia Kalpa 2.58 maalia), niin voisin tulkita tilastojani vaikkapa laskemalla keskipoikkeaman tai keskihajonnan odotusarvojen ja tuloksien väliltä. Mutta kun maalimäärien sijasta haen 1X2-vetoja, niin keskipoikkeamat ja -hajonnat eivät enää autakaan.

Vierailija
W.Hill
Jos ylläolevan esimerkkini ottelu Jokerit-Kalpa päättyy tasapeliin (jonka todennäköisyys oli vain 20%), niin siitähän ei suoraan voi päätellä mitään todennäköisyysarvioideni hyvyydestä. Mutta, kun otteluita on pari tuhatta, niin luulisi tilastotieteen puolelta löytyvän joku keino/malli/kaava/jotain, jolla voisi jotenkuten arvioida kuinka hyvin todennäköisyysarvioni keskimäärin pitivät? Miten on, löytyykö?

Voihan siitä päätellä. Kyseinen malli toimi tuossa ottelussa 20 prosenttisesti. Kokeileppas vaikka laskea keskiarvo niistä prosenteista, miten pelit ovat päättyneet. Sen luulisi olevan tarpeeks hyvä keino arvioida malleja.

Ding Ding
Seuraa 
Viestejä9031
Liittynyt16.3.2005

Pitkävetoa ei ehkä kannata pelata jos haluaa voittaa rahaa. Kertoimet ovat niin huonot, että voitolle voi pitemmän päälle päästä vain jos omaa sisäpiirin tietoa joukkueiden loukkaantumistilanteesta tms.

Tai jos tietää että yksi viime pelit hävinnyt joukkue on häviämissään peleissä tehnyt monta tolppalaukausta eli ollut huonon tuurin uhri ja oikeasti hyvässä kunnossa. Tämä tolppa-/niukka huti -laskentamenetelmä olisi sellainen, johon ryhmään itse lähtisin mukaan jos ryhtyisin yrittämään tulosveikkauksia. Jos joukkue häviää kahdella maalilla mutta saa kaksi tolppalaukausta ja menettää virhetuomion kautta yhden maalin, niin silloinhan se oli parempi ja siis suosikki seuraavassa pelissä.

Vierailija
Ding Ding
Pitkävetoa ei ehkä kannata pelata jos haluaa voittaa rahaa. Kertoimet ovat niin huonot, että voitolle voi pitemmän päälle päästä vain jos omaa sisäpiirin tietoa joukkueiden loukkaantumistilanteesta tms.

Tuo ei ihan täysin pidä paikkaansa. Muistaakseni palautusprosentti pitkävedossa on 80 %, joten asiantuntemusta omaava (ja sitä käyttävä, huom!) pelaaja pystyy pelaamaan pidemmänkin päälle voitollista vedonlyöntipeliä. Eihän tuo 80% tietenkään ole suuri, mutta vain ylikertoimilla pelaten riittävän monen vedon jälkeen on varmasti voitolla (olettaen siis, että asiantuntemus ja juuri noiden todennäköisyyksien laskeminen osuu oikeaan)

Tuo palautusprosenttihan tarkoittaa sitä, että veikkauksen omien laskujen mukaan kertoimet on laitettu sellaisiksi, että voiton oletusarvo on 0,8. Eli ottelussa, jossa veikkaus arvioi mahdollisuuksien olevan 50-30-20 (1-X-2), kertoimet ovat 1,6-2,67-4,0 Jos veikkauksen arviot todennnäköisyyksistä ovat hyviä, ei minkään merkin pelaaminen ole kannattavaa. Vaikka voittaisi juuri kyseisellä kerralla, usein toistettuna tuollaiset vedot tuottavat 20% tappion.

Jos itse laskemasi todennäköisyydet (joihin luotat), ovatkin vaikka 42-30-28, saat 2:sta pelaamalla palautuksen odotusarvoksi 0,28x4,0=1,12 (kertaa panos tietenkin), joten vaikka veto "osuu" vain alle kerran kolmesta kerrasta, usein toistettuna se tuottaa voittoa.

Pelkkä veikkauksen todennäköisyyksin ylittäminen ei silti tietenkään tee kohteesta/merkistä pelikelpoista, sillä palautuksen odotusarvohan voi olla vaikka 90% (Jolloin veikkauksen kerroin kyllä ylittyy, mutta voiton odotusarvo silti negatiivinen). Omia kertoimia laskiessa kannattaa siis käyttää palautusprosenttina 100%, jolloin voi pelata kaikki kohteet, joissa veikkauksen antama kerroin on omaa laskettua kerrointa suurempi.

Ehkä vähän monimutkaisesti selitetty, mutta noin se menee.

Ding Ding
Seuraa 
Viestejä9031
Liittynyt16.3.2005

Itse asiassa pitkävedon palautusprosentti on viime vuoden alusta asti ollut jo 88%. Voikin olla että asiantunteva veikkaaja voi päästä voitolle, mutta silloin pitää toki tietää enemmän kuin kertoimenasettajat.

Vierailija
W.Hill
Mutta, kun otteluita on pari tuhatta, niin luulisi tilastotieteen puolelta löytyvän joku keino/malli/kaava/jotain, jolla voisi jotenkuten arvioida kuinka hyvin todennäköisyysarvioni keskimäärin pitivät? Miten on, löytyykö?

Jotain hyödyllistä kyllä löytyy, nimittäin funktio, joka maksimoituu silloin, kun arvoimasi todennäköisyydet Q(x) vastaavat "oikeita" todennäköisyyksiä P(x). Ei ruveta väittelemään siitä, onko objektiivista todennäköisyyttä olemassa. Analyysin kannalta on sama pitääkö todennäköisyyttä objektiivisena vai subjektiivisena, koska et kuitenkaan voi mitata P(x):ää vaan ainoastaan ottaa jotain empiirisiä odotusarvoja P(x):n suhteen. Käsittääkseni funktiot, jotka toteuttavat vaadittavat ehdot ovat oleellisesti muotoa

E{log Q(x)}

(Tuosta tuloksesta voi tietysti ottaa minkä tahansa monotonisen funktion.)

Tässä E tarkoittaa odotusarvoa P(x):n suhteen. Käytännössä siis katsot joka ottelusta, minkä todennäköisyyden mallisi antoi toteutuneelle tulokselle, otat todennäköisyydestä logaritmin ja sitten keskiarvoistat kaikkien otteluiden yli. Isoimman keskimääräisen logaritmisen todennäköisyyden antava malli toimii parhaiten. Tuon funktion vastaluku (miinusmerkki eteen) tunnetaan ristientropiana (luulisin... en ole varma suomennoksesta, englanniksi cross entropy).

Varmaan tiedätkin, mutta muista sitten, että luotettavien tulosten saamiseksi pitää käyttää testidataa, jota ei ole käyttänyt mallin parametrien estimointiin.

Vierailija
Muppetti
Kokeileppas vaikka laskea keskiarvo niistä prosenteista, miten pelit ovat päättyneet. Sen luulisi olevan tarpeeks hyvä keino arvioida malleja.

Voi toimiakin. Teoreettisesti tuossa mitassa on kuitenkin se ongelma, että se suosii suurimman todennäköisyyden korostamista. Ajatellaan vaikka, että on painotettu kolikko, joka antaa 70 % todennäköisyydellä kruunan ja 30 % todennäköisyydellä klaavan. Nämä siis olisivat "oikeita" todennäköisyyksiä P(kruuna) = 0,7 ja P(klaava) = 0,3. Sitten joku menetelmä antaa veikkaukset Q(kruuna) + Q(klaava) = 1 ja pitäisi tutkia, ovatko Q:t lähellä P:tä. Odotusarvo Q:n keskiarvolle olisi P(kruuna) Q(kruuna) + P(klaava) Q(klaava), eli tässä tapauksessa 0,7 Q(kruuna) + 0,3 [1-Q(kruuna)] = 0,3 + 0,4 Q(kruuna). Se maksimoituu kun Q(kruuna) = 1, mikä siis ei ollut toivottavaa. Sen sijaan P(kruuna) log Q(kruuna) + P(klaava) log Q(klaava) maksimoituu, kun Q(kruuna) = 0,7.

Veikkauksessa voittoja saa yleensä tehtyä sillä, että löytää joitain liian suuriksi arvoituja kertoimia (siis voiton todennäköisyys on arvoitu liian pieneksi), ei sillä, että veikkaa sitä, jonka uskoo todennäköisimmin voittavan. Siksi on tärkeää, että mitta palkitsee pientenkin todennäköisyyksien saamisesta oikein.

Vierailija

Nordicbet tarjoaa kertoimia pressavaaleihin.

Tarja 1.45
Sauli 2.65

Eli palautusprosentti luokkaa 93,72% mikä on aika korkea.

Noilla kertoimilla Tarja olisi siis 64,63-35,37 suosikki voittamaan, vaikka tuore gallup kertoo Tarjan suokkiuden olevan vain 51-49, ja tuokin ero piiloutuu helposti virhemarginaaliin. Jo 40% niinistölle puhuisi sen puolesta, että kannattaisi pelata Saulin voittoa. Halosen pitäisi sen sijaan voittaa yli 65% todennäköisyydellä, jotta pelaaminen kannattaisi.

Vierailija
Lance
Noilla kertoimilla Tarja olisi siis 64,63-35,37 suosikki voittamaan, vaikka tuore gallup kertoo Tarjan suokkiuden olevan vain 51-49, ja tuokin ero piiloutuu helposti virhemarginaaliin.

Se gallup ei paljon kerro, koska iso osa äänestäjistä ei kerro kantaansa. Jos gallupin tuloksiin voisi luottaa, silloinhan Halosen voitto olisi 100 % varma, koska enemmän ääniä saanut voittaa riippumatta siitä, kuinka tiukaksi kamppailu on mennyt. Eri asia olisi, jos äänestysliput kerättäisiin isoon laariin, josta sitten nostettaisiin voittoarpa. Halpa ja hauska äänestystapa, mutta eihän meille tätä hupia ole suotu.

Halosen voiton todennäköisyydeksi pitää uskoa yli 69 %, että kannattaisi veikata.

Vierailija
Päivystävä dosentti
Muppetti
Kokeileppas vaikka laskea keskiarvo niistä prosenteista, miten pelit ovat päättyneet. Sen luulisi olevan tarpeeks hyvä keino arvioida malleja.

Voi toimiakin. Teoreettisesti tuossa mitassa on kuitenkin se ongelma, että se suosii suurimman todennäköisyyden korostamista. Ajatellaan vaikka, että on painotettu kolikko, joka antaa 70 % todennäköisyydellä kruunan ja 30 % todennäköisyydellä klaavan. Nämä siis olisivat "oikeita" todennäköisyyksiä P(kruuna) = 0,7 ja P(klaava) = 0,3. Sitten joku menetelmä antaa veikkaukset Q(kruuna) + Q(klaava) = 1 ja pitäisi tutkia, ovatko Q:t lähellä P:tä. Odotusarvo Q:n keskiarvolle olisi P(kruuna) Q(kruuna) + P(klaava) Q(klaava), eli tässä tapauksessa 0,7 Q(kruuna) + 0,3 [1-Q(kruuna)] = 0,3 + 0,4 Q(kruuna). Se maksimoituu kun Q(kruuna) = 1, mikä siis ei ollut toivottavaa. Sen sijaan P(kruuna) log Q(kruuna) + P(klaava) log Q(klaava) maksimoituu, kun Q(kruuna) = 0,7.

Veikkauksessa voittoja saa yleensä tehtyä sillä, että löytää joitain liian suuriksi arvoituja kertoimia (siis voiton todennäköisyys on arvoitu liian pieneksi), ei sillä, että veikkaa sitä, jonka uskoo todennäköisimmin voittavan. Siksi on tärkeää, että mitta palkitsee pientenkin todennäköisyyksien saamisesta oikein.

Aivan. Ajattelin vain kun kysyjä haluaa verrata malliensa toimivuuksia todellisiin tulokseen, eikä mainitse käyttävänsä sitä vedonlyöntiin (jota kyllä vahvasti epäilen..), niin siihen riittäisi ihan tavallinen keskiarvo. Tietysti asia mutkistuu kun mukaan otetaan vedonlyönti kertoimineen.

Vierailija

testiaineistosta Sinulla on siis joukko statistiikkaa vanhoista otteluista. Ongelmana on se, että olet voinut ylisovittaa mallisi käytössä olleeseen dataan. Nyt sinun täytyy kerätä joukko pelituloksia (esim. seuraavan kuukauden ajan), joita et ole käyttänyt mallia muodostettaessa. Tämän jälkeen testaat malliasi (ilman muutoksia) uuteen dataan. Näin saat selville mallin todellisen suorituskyvyn Jos teet muutoksia malliin, sinun täytyy taas kerätä uutta dataa jota et ole aikaisemmin nähnyt ja tehdä tämä testi uudestaan.

testimenetelmä Voit tulkita mallisi antamat todennäköisyydet suoraan kustannusfunktion yms. arvoiksi. Yksi tapa vertailla on seuraava. Laske kaikki oikein osuneet todennäköisyysarvot yhteen koko ainneistostasi. Laske kaikki väärin osuneet todennäköisyydet yhteen. Vähennä väärät oikeista. Suurimman arvon saanut on paras. Tämä ei kerro paljoakaan siitä miten sinulle kävisi pelatessasi. Parempi olisi ottaa testaukseen mukaan päätökset joita mallin antamien todennäköisyyksien pohjalta tehdään (ja itse rahasummat myös).

vertailu Vertaa mallisi suorituskykykyjä myös ns. tyhmään malliin jonka todennäköisyydet saada 1, X ja 2 ovat joka pelissä samat kuin niinden todennäköisyydet aineistossasi. Saat selville onko malleistasi yhtään mihinkään.

Uusimmat

Suosituimmat