Knowledge Asset Management Tietopalvelukoulutus

34. Tietojen hallinta - tietoasiantuntijakoulutus 2001-2002 ryhmätyön tiivistelmä

Eva Jaatinen, Timo Liimatainen, Outi Sorri

INTERNET JA TIEDON LÖYTYVYYS

Erikoistyö 51 sivua
34. Tietojen hallinta - tietoasiantuntijakoulutus 2001-2002

Teknillinen korkeakoulu, Koulutuskeskus Dipoli, Espoo 2002
Dipoli-raportit / Dipoli Reports C 2002:7
ISBN: 951-22-6006-9 ISSN: 1458-4867

Tiivistelmä

Internetissä on paljon tietoa, mutta sitä ei ole helppoa löytää. Tässä työssä tarkastelemme joitakin ratkaisuja, mitä tiedon löytyvyyden ongelmaan on kehitteillä.

Ensimmäisessä luvussa tarkastellaan lyhyesti joitakin tiedon löytyvyyteen liittyviä ongelmia ja ns. näkymättömän webin käsitettä.

Metadata on keino kuvata elektronisia resursseja. Metadatan avulla voimme edistää tiedon löytyvyyttä, tiedonhallintaa ja paikantamista verkkoympäristössä. Metadataformaatti määrittelee kuvailussa käytettävät elementit ja koodit. Maailmalla on käytössä lukuisia erilaisia ja eri tarkoituksiin luotuja formaatteja. Verkkomaailmassa tarvitaan yhteentoimivuutta sekä semantiikassa että teknisessä merkitsemisessä, jos tavoitteena on palveluiden ja tietovarantojen integroituminen. Kansainvälisissä organisaatioissa kehitetään metadataan liittyviä standardeja ja suosituksia edistämään yhtenäisiä käytäntöjä.

Luvussa kolme käydään läpi Semanttisen Webin, älykkäämmän Webin, keskeisiä ideoita.Tarkoituksena on kehittää teknologiaa, joka pystyy ymmärtämään datan merkitystä (semantiikkaa). Semanttisen Webin visiossa dataa ei pelkästään esitetä, vaan älykkäät tietokoneet pystyvät tulkitsemaan, yhdistelemään ja vaihtamaan dataa automaattisesti. Pohjana on XML-metamerkkauskieli, jonka avulla osoitetaan mitä ja minkälaista informaatiota Webistä löytyy. XML:ään perustuvan RDF(S):n avulla voidaan metadataa siirtää automaattisesti. Ontologiat määrittelevät metadatan termit ja niiden väliset suhteet. Hakutuloksia voidaan olennaisesti parantaa metadatan lisäämisellä ja sen automatisoidulla välittämisellä ja yhdistämisellä. Tiedonvälityksessä on viime kädessä kyse luottamuksesta, tietoon on voitava luottaa. Jotta datan siirrettävyys ja monikäyttöisyys olisi helpompaa sekä hakujen tarkkuus parempaa, on data rakenteistettava eli sisältö erotettava esitystavasta ja ulkomuodosta. Luvussa neljä käsitellään rakenteista dataa sekä merkkauskielten historiaa, mm. ensimmäistä metamerkkauskieltä SGML:ää, johon XML perustuu. Luvussa viisi kerrotaan XML:stä yleisesti sekä sen rakenteesta tarkemmin. XML on keino rakenteistaa dataa yhdenmukaisella ja standardoidulla tavalla. XML mahdollistaa monipuoliset haut datan sisällöstä, tiedon helpon vaihdettavuuden ja tiedon pitkän säilyvyyden. Tietoa kuvataan vain kerran, samasta tiedosta voidaan tuottaa monta erilaista esitystapaa. Luvussa kuusi käsitellään automatisoitua metadataa. RDF(S) sekä Topic Maps ovat keinoja metadatan kuvailulle ja siirtämiselle Webissä.

Kahdessa seuraavassa luvussa esitellään kahta XML-kieleen tukeutuvaa kuvailuformaattia. Luku seitsemän käsittelee Dublin Core -kuvailuformaattia, sen historiaa, asemaa standardina, käyttöä ja suhdetta RDF:ään. Luku kahdeksan käsittelee uutta DDI-formaattia, sen historiaa, tavoitteita, käyttöä Suomessa ja tulevaisuudennäkymiä.

Asiasanat: Metadata, Semanttinen Web, XML, RDF, Dublin Core, DD