tiistai 17. joulukuuta 2013

Sanat ja asiat

Olen kehno sanoissa. Juuri siksi olen varmaankin ajautunut filologian ja soveltavan kielitieteen pariin. Olen joutunut pinnistelmään, jotta ymmärtäisin millä asialla ihmiset puhuessaan oikein ovat.

Sähköisen arkistoinnin (epäilemättä arkistoinnin yleensäkin) yksi tärkeä toimenpide on kuvailla talteen otettua ja säilytettäväksi haluttua objektia luonnollisen kielen sanoilla. Tämän toimenpiteen avulla voidaan parantaa objektien löytämistä arkistosta. Osa näistä sanoista on sellaisia, että niistä on tehty luetteloita ja arkistonhoitajat sitten kuvailevat objekteja juuri niillä sanoilla, joita listoilla on. Ne ovat kontrolloituja asiasanoja.

Ihmisen kielenkäyttö näyttäisi toimivan jotakuinkin samalla tavalla. Objekteille ja näkymättömillekin ilmiöille annetaan nimi (tai nimiä) ja nimet muodostavat monenmoisia suhteita keskenään. Jotkut sanat ovat osia jostakin isommasta (vaikkapa sormi on osa kättä ja käsi on osa ihmistä ja ihminen on kädellinen nisäkäs jne.) Monet sanoista ovat siinä mielessä "kontrolloituja", että niitä on listattu sanakirjoihin ja niiden merkitys on määritelty.



Kun asioilla on nimi, voidaan asioita (tai tietoja tai objekteja jne.) etsiä, järjestää ja vaikkapa ryhmitellä näiden sanojen avulla. Sanat luovat asioihin järjestyksen. Siksi puhutaan metatiedosta. Oikeastaan voisi puhua arkiston metakielestä, jossa  kontrolloidut sanat luovat oman maailmansa, johon arkiston objektit on liitetty. Metakieli kertoo (tai yrittää kertoa) siitä, mitä arkiston objektit kertovat.

Tämä on oikein kätevää, koska tällä tavalla arkistojen sekavat ja epämääräiset objektit voidaan esittää tavalla, joka on selkeä, kontrolloitu ja ennen kaikkea se koostuu rajallisesta määrästä merkkejä. Periaatteessa kontrolloitujen asiasanojen avulla mikä tahansa objekti voidaan sijoittaa jonnekin, jota kuvataan jollakin tiedetyllä asiasanalla.

Teoriassa asia on kai niin, että jos tiedät ja ymmärrät kaikki asiasanat, jokaiselle maailman arkistoitavalle objektille löytyy asiasana tai asiasanoja.

Erityisen kiinnostavia mahdollisuuksia asiasanat tarjoavat tietokoneiden keskinäiseen vuorovaikutukseen. Jos asiasanat pystyvät kuvaamaan edes osan maailman arkistoitavista objekteista tarkasti ja kaikkien samalla tavalla ymmärtämillä asiasanoilla, voisivat koneetkin "ymmärtää" ja sen perusteella löytää ja tarjota etsivälle samankaltaisia tai muulla tavalla kiinnostaviksi oletettuja objekteja. Mahtavaa!

Siksi onkin ryhdytty luomaan tietokoneiden käyttämille kielille sopivia kontrolloituja asiasanastoja. Oikeastaan tietokonetiedemiehet puhuvat "semanttisesta webistä" tai peräti "ontologioista". Niissä kaiketi on tarkoituksena pystyä määrittämään arkistoitavia objekteja kuvailevien kontrolloitujen sanojen välisiä suhteita entistä tarkemmin, jotta näiden suhteiden avulla koneet eivät tekisi sellaisia kömmähdyksiä, joita ihmiset pystyvät välttämään sen perusteella, jota voisi sanoa tiedoksi maailmasta. Kun joku sanoo sinulle, että "Tavataan Naapurissa. Baari on Kalliossa", ymmärrät että puhe on ravitsemusliikkeestä, joka sijaitsee Helsingin kalliossa ja sinne siis pitäisi mennä. Tietokone voisi hölmöimmillään luulla, että naapurissa ta-va-taan ja baari on kallion sisällä.

*************

Tämä pitkäveteinen johdanto liittyy Raijan ja Erkin arkiston muodostamiseen liittyvään pulmaani. Miten kuvailla kotoisia ja perheen arkeen liittyviä asioita YSA:n eli yleisen suomalaisen asiasanaston avulla?

Isäni vuonna 1952 ottamassa kuvassa on vanha talo. Kuvan alareunaan isäni on kirjoittanut "syntymäkotini". Hieno kuva. Minä digitoin sen, nimeän sen, siirrän arkistoon arkistonmuodostussuunnitelmani osoittamaan oikeaan sarjaan ja lisään metatiedot. Paikka: Loppi, Maakylä, Leppäoja. Aika: 1952. Kuvaaja: Erkki Uotila. Kontrolloitu asiasana: syntymäkoti? Tarkistetaan mainiosta Onki-palvelusta kävisikö isäni käyttämä sana kodistaan asiasanaksi. Sieltä löytyvät kaikki suomalaiset asiasanat vaivatta. (Käytän "vanhaa" Onki-palvelua. Uusi http://www.finto.fi/ avataan ihan pikimiten tämän blogin julkaisemisen jälkeen tammikuussa 2014).

Mitä kertoo Onki? Syntymäkoti ei valitettavasti - vielä - ole yleinen asiasana. Kokeilen sen sijaan "kotia" perhearkistoahan tässä tehdään - "kotoisesti". Koti -sana esiintyy monessa eri ontologiassa ja sanastossa.

Alla on ruutukaappaus Onki-palvelusta. Kuvan yläreunassa on kuvattu "koti" Yleisen asiasanaston tavalla ja alla Yleisen ontologian tavalla. Ysan mukaan koti kuuluu ryhmään, jota kuvaillaan mm. sanoilla "ravitsemus", "majoitusala", "sosiologia" ja "sosiaalipsykologia". Leppäojan entinen torppa on isäni syntymäKOTI ja siis se liittyy ryhmään "ravitsemus" ja "sosiaalipsykologia". Ei paha. Ei tosin ihan ensimmäisenä tule mieleen isäni ottamaa kuvaa katsellessa sosiaalipsykologia. Asiasanat on tehty tietenkin hieman eri näkökulmasta kuin nyt tässä virnuilen. Asiasanasto liittyy tieteisiin ja instituutioihin. Ei arjen kielenkäyttäjien maailmaan. Asiasanat luovat oman instituutionsa maailmaa, sen objekteja ja sanoja, joilla luodaan teräksinen yhteys sanojen ja asioiden välille.

Yso eli yleinen suomalainen ontologia vääntää asiaa hieman seikkaperäisemmin. Kyse onkin tietokoneille tehtävästä kuvailusta. Se rakentaa kodista minun mielestäni aukottoman ja upean (tietenkin vain osittaisen) kuvailun. Koti on pysyvä ominaisuus. Koti on pysyvä ulkoinen ominaisuus. Koti on pysyvä ulkoinen ominaisuus ja paikkaan liittyvä rooli (eli tehtävä). Yksi sen vieruskäsitteistä on kotipaikka. Bingo! Tämä saa luvan käydä syntymäkodista. Mitä siitä, vaikka Ysassa "kotipaikka" kuuluu ryhmään "Oikeus, Lainsäädäntö".



Mitä tästä opin? Ensinnäkin sen, että on hyödyllistä kuvata perhearkiston objekteja kontrolloiduilla asiasanoilla tai ontologioilla, jotta tietokoneet ymmärtäisivät sitä, mitä teen. Siitä on hyötyä, jos joskus pitäisi isäni syntymäkodin kuva arkistojen universumeistä löytää.

Toiseksi opin sen, että tarkkuus silloin, kun on kyse sanoista ja asioista arkistoissa, on pikemminkin koko ajan kauemmaksi liukuva tavoite kuin pysyvä olotila.

Kolmanneksi opin sen, että kotia varten pitäisi olla oma ontologiansa. Kodin määrittely sosiaalipsykologian tai lainsäädännön kautta ei tuota sellaisia sanoja kuin "syntymäkoti", joka on jollekulle - eli tässä tapauksessa arkistonmuodostaja Erkille - juuri se sana, jolla koti kuvataan.

Neljänneksi opin sen, että sanojen ja asioiden välinen suhde ei ole yksi, eikä kaksi, vaan enemmän tai vähemmän ja jotain siltä väliltä.

Viidenneksi opin sen, että jokainen sanasto on oma maailmansa, joka on totta ja hyvässä järjestyksessä vain omassa seurasssaan.

Kuudenneksi opin sen, että kaikesta tuosta huolimatta on tavattoman hupaisaa yrittää kuvailla kontrolloiduilla sanoilla kuritonta maailmaa.

Jos haluat tietää, millaisia sanoja käytetään ontologioissa, apua saat täältä
https://wiki.helsinki.fi/pages/viewpage.action?pageId=113254258

Tutustu myös pian avattavaan Kansalliskirjaston ylläpitämään Finto -palveluun
http://www.finto.fi/

1 kommentti:

  1. Kyllähän tuo fintoto.fi-palvelu on jo käytössä. Siellä liikkuu aika paljon tavaraa, jotka olisi syytä arkistoida Saarioisen toimesta.

    VastaaPoista