Ensimmäinen oppitunti

Ensimmäisellä “oppitunnillamme” kokoonnuimme yhdessä pohtimaan Yleisradion käyttötapausta. Yleisradio on käyttänyt asiasanoituksessaan Freebaseä, joka on Googlen hallinnoima yhteisöllinen tiedonkeruuprojekti. Vuoden alkupuolella Google ilmoitti, että se ajaa Freebasen alas ja siirtää sinne kertyneet 55 miljoonaa asiasanaa Wikidataan.

Tapasimme ensin Google Hangoutissa, vaikka suurin osa osalllistujista istuikin samassa huoneessa. Vieraaksemme saimme Sebastian Schaffertin Googlen Zürichin-toimistosta. Hän on työstänyt Primary Sources -työkalua, jolla Freebasen käsitteitä käännetään Wikidataan sopiviksi. Tom Morris, myöskin Googlelta, osallistui aikaeron takia lähettämällä kommentteja sähköpostilla. Tapahtuman jälkeen kuulostelimme vielä Magnus Manskelta neuvoja hänen työkalujensa hyödyntämiseen.

Ylen tapaus

Yle on käyttänyt Freebasea (http://www.freebase.com/?lang=fi) yhtenä sanastona verkkosisältöjen asiasanoittamisessa. Freebasestä on hyödynnetty lähinnä erisnimiä (henkilöitä, paikkoja, tapahtumia, organisaatioita, kirjojen tai elokuvien nimiä ym). Kun Google ilmoitti lakkauttavansa Freebasen, Yle päätti siirtyä Wikidatan käyttöön erisnimien ensisijaisena lähteenä.

Ylelle on tärkeää, että tähän mennessä käytetyt Freebase-käsitteet löytyvät mahdollisimman kattavasti Wikidatasta, linkitettyinä Freebaseen. Suuri osa käsitteistä löytyy jo Wikidatasta: 28 000 käsitteestä vain 7 500 puuttuu. Valtaosa puuttuvistakin käsitteistä löytyy, mutta Wikidata-kohdetta ei ole linkitetty Freebase-käsitteeseen. Millä työprosessilla voidaan loput 7 500 käsitettä ja niiden suomenkieliset nimet lisätä tai linkittää?

Kysymyksiä ja vastauksia

Onko Ylen tarjoama aineisto tarpeeksi merkittävää Wikidataan?

Wikidatassa, samoin kuin muissa Wikimedian projekteissa on kriteerejä, joiden mukaan aineisto joko kuuluu Wikiprojektiin merkittävyytensä puolesta tai sitten ei. Wikipedioissa raja vedetään eri tavoin kuin Wikidatassa. Wikidatassa kohteen merkittävyydelle on kolme periaatetta:

  1. Se sisältää ainakin yhden kelvollisen kielilinkin Wikipedia, Wikivoyage, Wikiquote, Wikiuutiset, Wikikirjasto, Wikidata tai Wikimedia Commons -sivulle TAI
  2. Se viittaa esiintymään selvästi tunnistettavasta ajatuksellisesta tai materiaalisesta asiasta. Tämän asian on oltava merkittävä siinä mielessä, että sitä voidaan kuvata käyttämällä vakavia ja julkisesti saatavilla olevia lähteitä TAI
  3. Se täyttää jonkin rakenteellisen tarpeen esimerkiksi: sitä tarvitaan tekemään muiden kohteiden esityksistä hyödyllisempiä.

Monien keskustelujen tuloksena olimme vakuuttuneita siitä, että Ylen julkaisema aineisto on luonnostaan vakava ja julkisesti saatavilla oleva lähde. Lisättävien käsitteiden hyväksyminen osaksi Wikidataa on varsin todennäköistä. Ylen tavoitteena on hyödyntää avointa tietoa sekä kontribuoida takaisin rikastamalla Wikidataa omalla toiminnallaan. Toimittajat luovat uusia asiasanoja silloin, kun palvelusta ei löydy ennestään sopivia.

Miten olisi helpointa päivittää 1000 Wikidata-kohdetta?

Käsin

Wikidataa voi kuka tahansa muokata. Sen helppokäyttöisen käyttöliittymän kautta voi muokata ja lisätä tietoja. Katso oheista sivua Wikidatassa.

Näyttökuva 2015-11-09 kello 14.11.16

Käyttämällä Magnus Mansken tekemiä helppokäyttöisiä työkaluja

Kokeilimme työprosessia, jossa työkalulla Linked items etsitään tekstimuotoisille käsitteille vastaavuuksia Wikidatasta. Sen jälkeen samat käsitteet rikastetaan työkalulla Quick Statements.

This slideshow requires JavaScript.

Molemmista työkaluista tehdään myöhemmin ohjeistukset projektin työkalusivulle: Linked Items ja Quick Statements.

Käyttämällä Wikidata Reconcile -palvelua yhdessä OpenRefine -ohjelman kanssa

Magnus Mansken ohjelmoima Reconcile API OpenRefinelle on erittäin kiinnostava, mutta emme ole ehtineet kokeilla sitä. Kokeilemme sitä ja kerromme siitä erikseen.

Kirjoittamalla botin, joka lukee ja kirjoittaa Wikidatan API:n kautta

Tämä voi olla projektin myöhemmän vaiheen tavoite. Voimme järjestää Ruotsin mallin mukaisen Bottiakatemian. Taitoja tarvitaan useimmissa Wikidatan massalatauksissa.

Liittämällä puuttuvat käsitteet Mix’n’Match työkaluun

Magnus Manske ehdotti Mix’n’Matchiä aineiston käsittelemiseksi. Puuttuvat käsitteet ladataan työkaluun Magnuksen avustuksella. Sen avulla on helppoa käsitellä suuria määriä käsitteitä yksitellen. Aineisto on jo ladattu, työn voi alkaa. Tule mukaan!

This slideshow requires JavaScript.

 


From Freebase to Wikidata aineistot

Pia Virtasen esitys Ylen tapauksesta

Pilotin sivu projektiwikissä

Jaetut muistiinpanot

Google+ tapahtuma

Palaute ja ehdotukset

1 comment for “Ensimmäinen oppitunti

  1. Pia Virtanen
    09.11.2015 at 18.13

    Loistava koonti työkaluista Susanna! Kiitos tästä ja viime viikon workshopin järjestelyistä! Nyt vai hommiin!

Leave a Reply

Your email address will not be published. Required fields are marked *