15. 6. 2004: world wide webin isä Tim Berners-Lee pokkaa Millennium-palkinnon ja miljoona euroa koko maailman valloittaneesta keksinnöstään. Hänen innovaationsa on myös semanttinen web, joka kykenee hyödyntämään merkityksiä.



TEKSTI:Jukka Nortio

Sisältö jatkuu mainoksen jälkeen

Sisältö jatkuu mainoksen alla

15. 6. 2004: world wide webin isä Tim Berners-Lee pokkaa
Millennium-palkinnon ja miljoona euroa koko maailman valloittaneesta
keksinnöstään. Hänen innovaationsa on myös semanttinen web,
joka kykenee hyödyntämään merkityksiä.

Julkaistu Tiede-lehden numerossa 5/2004

Tavanomaisen runsas tulos internet-hausta: sanalla Elvis löytyy suomen kielellä noin 13 100 osumaa. Sama tulos ilmestyy ruutuun riippumatta siitä, etsinkö tietoa laulajasta, säveltäjien ja sanoittajien Elvis-yhdistyksestä vai suomalaisista Elvis-imitaattoreista.

Hakua tarkentamalla pääsen toki parempaan tulokseen, mutta perusongelma pysyy: olennaisen tiedon löytäminen yli neljän miljardin www-sivun viidakosta on hankalaa.

Kone alkaa ymmärtää

Valtaosa internetissä olevasta tiedosta on tuotettu jollakin maailman sadoista luonnollista kielistä. Näitä inhimillisiä kieliä tietokoneet eivät ymmärrä. Ne käsittelevät sanojamme pelkkinä merkkien yhdistelminä, kirjainrimpsuina, joten tiedon sisältö ei niille avaudu. Tästä syystä joudun itse tulkitsemaan, onko hakukoneen tarjoamassa osumassa relevanttia tietoa vai ei.

Nyt tästä vaivannäöstä hankkiudutaan eroon. Www-sivuista ja muista webin sisällöistä kehitetään sellaisia, että tietokoneet kykenevät ymmärtämään niiden asiasisältöä ja päättelemään asiayhteyksiä. Tähän tarkoitukseen sopii semanttinen web, merkitysten internet, joka osaa jäsentää ja luokitella tietoa sisällöllisin, semanttisin, perustein. Semanttisen webin tekniikoilla sivut voidaan myös koodata niin, että koneet pystyvät - toisin kuin nykykoneet - vaihtamaan tietoja keskenään.

Semanttisen webin pääarkkitehti on www:n isä Tim Berners-Lee, mutta myös suomalaisilla on tärkeä sija uuden webin kehitystyössä. Helsingin yliopiston tietojenkäsittelytieteen professori Eero Hyvönen esimerkiksi on luonut kansainvälisen uran semanttisen webin parissa ja työryhmänsä kanssa kehittänyt sen ensimmäisiä käytännön sovelluksia.






Webissä jo kolmas polvi

1. sukupolvi: 1991 esitelty world wide web mahdollisti www-sivujen luomisen, julkaisemisen ja jakelun internetissä.

2. sukupolvi: 1998 käyttöön saatu xml-kuvauskieli mahdollisti sivujen rakenteen kuvaamisen, ulkoasujen muuntelun ja lukemisen eri laitteissa, kuten pc:ssä ja matkapuhelimessa.

3. sukupolvi: 2001 käynnistynyt hanke mahdollistaa sivujen asiasisällön kuvaa-misen, jäsentämisen, luokittelun ja yhdis-telyn ja tietokoneiden välisen tiedon-vaihdon.

Webin tekniset kivijalat

www: world wide web, verkkopalvelu, joka mahdollistaa tiedostojen julkaisun ja jakelun internetissä.

uri: universal resource identifier, webissä olevan tietolähteen osoitin, yleisin malli url, uniform resource locator, on www-sivun osoite.

html: hypertext markup language, alkuperäinen www-sivujen kirjoittamis-kieli, edelleen yleisesti käytössä.

http: hypertext transfer protocol, tiedos-tojen siirtoon käytettävä tekniikka.

xml: extensible markup language, nykyi-sen, toisen polven webin yleiskieli, jolla esitetään sivujen rakenteet ja määritel-lään sovelluskohtaiset merkkikielet, kuten tekstikieli (x)html ja ulkoasukieli xsl-fo.

Semanttiset innovaatiot

owl: web ontology language, ontologia-kieli, jolla määritellään käsitteitä ja merki-tyksiä sivujen ja sisällön kuvailuun.

rdf: resource description framework, tunnetuin standardoitu merkityskieli, jolla kirjoitetaan kuvauksia, metatietoa, tiedos-tojen sisällöstä ja määritellään kuvauksis-sa käytettävä sanasto.


Palataan hetkeksi Elvis-hakuuni. Nykyisessä webissä sivu, jossa on Elvis Presleyn hitti Love Me Tender kertoo tavallisesti vain sisältämänsä tiedoston nimen: lovemetender.wav.

Semanttisessa webissä sivuun liitetään tietoa tiedoston sisällöstä. Tämä tiedosta itsestään luotu tieto, ns. metatieto, voi kertoa, kuka laulun esittää, kuka sen on säveltänyt, sanoittanut ja sovittanut, milloin ja missä se on äänitetty, mitä tyylisuuntaa se edustaa, millä kielellä se on laulettu, missä tallennusmuodossa se on tallennettu ja kuka tallennuksen on tehnyt.

Näiden metatietojen ansiosta saan helposti käsiini esimerkiksi sivut, jotka sisältävät kaikki Elviksen Love Me Tender -vuonna Mephisissä levyttämät laulut, koska sivuilla on samat metatiedot: esittäjä Elvis Presley, äänitysvuosi 1956, levy-yhtiö Sun, levytyspaikka Memphis. Minun ei edes tarvitse tehdä erillistä hakua, sillä yhteisten käsitteiden avulla alkuperäiseltä lovemetender.wav-sivulta muodostuu automaattisesti yhteys muihin sivuihin.

Vastaavasti löytyvät mitkä tahansa kaipaamani täsmätietoa sisältävät sivut. Voin hakea esimerkiksi geeniruoasta esitetyn tieteellisen tiedon niin, ettei minun tarvitse kahlata läpi mielipidekirjoituksia.

Metatietojen avulla internetissä olevaa tietoa voidaan siis tunnistaa ja koota hyödyllisiksi kokonaisuuksiksi - kunhan tiedon käsittelyssä noudatetaan yhteisiä pelisääntöjä, käytetään yhteisiä kuvaus- ja merkityskieliä ja käsitteitä.

Uuden webin vaatimia yhteisiä käytäntöjä, tekniikoita ja standardeja, kehitetään tutkimuslaitoksissa ja  yrityksissä eri puolilla maailmaa. Työtä koordinoi Tim Berners-Leen johtama W3C, World Wide Web Consortium, joka on alan tutkijoiden ja yritysten yhteistyöelin.

Semantiikka on jättiläismäinen haaste, vaikka uuden webin luojat  eivät havittelekaan metatiedon liittämistä kaikkiin nykyisiin www-sivuihin. Yksin asiasisällön luokitteluun tarvittavien käsitteiden löytäminen on iso ponnistus. Käsitteitä tarvitaan valtavasti, ja jokaisen niistä on oltava yksiselitteinen ja tietokoneen ymmärrettävissä.

Alkuun on päästy käytössä olevilla hakusanaindekseillä, ammattitermistöillä ja merkitykseen perustuvilla sanastoilla. Helpotusta tuovat myös Googlen kaltaiset kehittyneimmät hakuohjelmat, jotka jatkuvasti käyvät läpi www-sivuja ja tekevät alkeellista luokittelua merkkijonohakemistojensa avulla.

Avuksi on tullut myös Linuxin kehittämisestä tuttu menettely, vapaaehtoistyö, jota tehdään Open Directory Projectissa. Hankkeessa on jo mukana yli 28 000 webin käyttäjää, jotka käsipelillä luokittelevat muun muassa ammatteihin ja harrasteisiin liittyviä sivuja.




Käyttökohteita

• hakukoneet


• sähköinen liiketoiminta


• verkkokauppa


• viestintä


• www-portaalit


• yritysten tietohallinto


Suomessa hieno hanke

Maailmanlaajuisestikin ainutlaatuinen semanttisen webin kehityshanke on MuseoSuomi, jota johtaa Eero Hyvönen. Kunnianhimoisena tavoitteena on luoda www-sisäänkäynti, josta pääsee kaikkien tärkeiden museoiden kokoelmatietoihin.

Pilottivaiheessa on kerätty kokonaisuus, joka sisältää tiedot kolmen museon 4 500 esineestä ja muinaismuistosta. Jokaisen esineen sivulla on metatietoa, joka linkittää sivun muihin aihetta käsitteleviin sivuihin. Esimerkiksi rukinlavasta on linkki vihkisormukseen ja päinvastoin, koska molemmat esineet liittyvät hääseremonioihin.

MuseoSuomen kokoamisessa on käytetty noin kymmentätuhatta käsitettä. Nyt kun sisällöllinen perusta on luotu, kokoelmaan voidaan helposti lisätä uusia museoita.

Luotettavuuskin paranee

Eero Hyvönen näkee semanttisen webin myös pelastuksena internetin luotettavuuden ongelmiin.

- Luottamuksen verkko, Web of Trust, on semanttisen webin hanke, jossa kehitetään ratkaisuja yksityisyyden suojaamiseksi ja tiedon luotettavuuden parantamiseksi. Jos esimerkiksi tieto tiedon alkuperästä seuraa tiedon mukana, käyttäjä voi itse arvioida, pitääkö tiedon tuottajaa luotettavana vai ei, Eero, Hyvönen sanoo.

Jukka Nortio on tietotekniikan erikoistoimittaja.

Tietoa maailmalla: www.semanticweb.org/


Tietoa Suomessa: www.cs.helsinki.fi/u/eahyvone/stes/semanticweb/


Sovelluksia: museosuomi.cs.helsinki.fi, http://www.itameriportaali.fi/

Sisältö jatkuu mainoksen alla