keskiviikko 5. marraskuuta 2014

Wikidata

I'm starting slowly to understand the possibilities of Wikidata. First time there is a possibility to really *use* the data stored in the Wikipedia and other Wikis.

I collected some links that were useful for me while I was/am finding my way to the sources of Wikidata.

What is it all about:
http://korrekt.org/page/Wikidata:_A_Free_Collaborative_Knowledge_Base

wikidata with pretty face:
http://tools.wmflabs.org/reasonator/

Search related

Wikidata Query (WDQ for short):
http://magnusmanske.de/wordpress/?p=72
http://wdq.wmflabs.org/api_documentation.html
http://wdq.wmflabs.org/wdq/

traditional Wikidata API:
https://www.wikidata.org/w/api.php

autolist:
http://tools.wmflabs.org/autolist/autolist1.html

Queries:

How to search by an article title in certain wikipedia:
http://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&titles=Alvar%20Aalto&props=sitelinks&format=xml

Search from items:
https://www.wikidata.org/w/api.php?action=wbsearchentities&search=Ky%C3%B6sti%20Kallio&language=en

Get sitelinks for a certain item:
https://www.wikidata.org/w/api.php?action=wbgetentities&ids=Q42&props=sitelinks&format=xml

More stuff:

http://notconfusing.com/3-ways-to-access-wikidata-data-until-it-can-be-done-properly/

http://stackoverflow.com/questions/tagged/wikidata

How to see a property in Wikidata:
www.wikidata.org/wiki/Property:P610

sunnuntai 14. syyskuuta 2014

Simberg, open data ja GlamWikiToolset

Kuva:Kansallisgalleria
PÄIVITETTY 22.9.2014
Kansallisgalleria on avannut hienon kokoelman Hugo Simbergin valokuvia osana Avoin Kulttuuridata -mestarikurssia.Metadata on saatavilla useassa eri formaatissa ja kuvat ovat saatavilla yhtenä zip-pakettina.

Tässä blogikirjoituksessa selvitän mitä tarvitaan Simberg-aineiston viemiseksi Wikimedia Commonssiin GWToolsetin avulla. GWToolsetin esittelin lyhyesti edellisessä kirjoituksessani. Kirjoitus on osa Wikimedia Suomen GLAM-yhteistyötä.

Simberg-aineisto

Simberg-aineiston muodostavat noin tuhat negatiivikuvaa, joista on digitaalisesti tehty positiivit. Lisäksi metadata on saatavilla usessa eri muodossa. Metadata on XML-muodossa seuraavan näköistä:



<photograph> 
  <author> Simberg, Hugo</author>
  <title> HS Familjeliv 1907 83</title> 
  <type> mustavalkonegatiivi, filmi</type> 
  <date> 1907</date> 
  <keeper> Kokoelmienhallinta, Kansallisgalleria</keeper> 
  <material> valokuvafilmi, selluloosanitraatti</material> 
  <keyword> Simberg</keyword> 
  <keyword> Hugo</keyword> 
  <keyword> taiteilija</keyword> 
  ...
  <image type="positive"> 130617Ha018</image> 
  <image type="negative"> 130617Ha019</image> 
</photograph> 


Mitä pitää muuttaa GWToolsettiä varten?

Aineistojen vieminen Wikimedia Commonssiin GWToolsetin avulla edellyttää kahta perusasiaa. Ensinnäkin aineistojen metadatan täytyy olla saatavilla jossain muodossa. Toiseksi, itse aineistoilla täytyy olla osoite, josta yksittäiset tiedostot voi ladata kuka tahansa.

URL

Ensimmäinen korjattava asia aineiston Simberg-metadatassa on siis URL:n ja tiedostopäätteen lisääminen tiedostonimeen (image-tagi). Eli rivi
<image type="positive">130617Ha018</image>
pitää muuttaa muotoon:
<image>http://esimerkkipalvelin.fi/kuvat/130617Ha018.jpg</image> 
Myös negatiivikuvat pitää poistaa, koska niiden lataamisessa Commonssiin ei ole tarvetta. Tällä kohtaa oletan, että kaikista kuvista on positiivit.

Instituution ja instituutiomallineen yhdistäminen

Aineistojen tarjoaja ja säilyttäjä on siis Kansallisgalleria. Siksi muutamme keeper -tagin sisällön muotoon, joka voidaan yhdistää suoraan Commonssissa jo olevaan Kansallisgallerian omaan instituutiomallineeseen.

Eli rivi:
<keeper> Kokoelmienhallinta, Kansallisgalleria</keeper> 
muutetaan muotoon
<keeper> Finnish National Gallery</keeper> 

GWToolsetissä voimme sitten ruksata option "Wrap institution in the institution template", jolloin Kansallisgallerian malline liitetään kaikkiin kuviin.

Photograph > record

Tämä on vain pieni mukavuuslisä. GWToolset oletusarvoisesti arvelee yksittäisten tietueiden olevan record -nimisiä. Siksi photograph tägi kannattaa muuttaa recordiksi, jotta tätä ei tarvitse muistaa muuttaa tuontivaiheessa.

Kuinka muunnos tehdään? vastaus:XSLT

XSLT on XML-pohjainen merkintäkieli XML-tiedostojen muunnoksiin. Sen avulla on helppo tehdä juuri edellä mainitun tapaisia muutoksia XML-tiedostoihin.Alla on selitetty miten hyvin yksinkertaisella XSLT-tiedostolla voidaan tehdä tarvittavat muutokset Simberg-aineiston XML-tiedostoon.

<!-- palvelimen osoite muuttujaan -->
<xsl:variable name="servername">http://esimerkkipalvelin.fi/kuvat/</xsl:variable>

<!-- kopioidaan kaikki -->
 <xsl:template match="node()|@*">
     <xsl:copy>
       <xsl:apply-templates select="node()|@*"/>
     </xsl:copy>
 </xsl:template>

<!-- poistetaan negatiivit -->
<xsl:template match="image[@type='negative']" />

<!-- lisätään kuvaan URL ja tiedostopääte -->
<xsl:template match="image[@type='positive']" >
    <image>
    <xsl:value-of select="concat($servername,.,'.jpg')" />
    </image>
</xsl:template>
</xsl:transform>


<!-- muutetaan Kansallisgallerian nimi vastaamaan instituutiomallinetta -->
<xsl:template match="keeper[.='Kokoelmienhallinta, Kansallisgalleria']" >
    <keeper>Finnish National Gallery</keeper>
</xsl:template>

<!-- lopuksi vielä vaihdetaan photograph recordiksi -->
<xsl:template match="photograph" >
    <record>
        <xsl:apply-templates select="@*|node()" />
    </record>
</xsl:template>

Tuloksena on GWToolset-ready XML-tiedosto. Hieman se vaati nypräämistä mutta ei mitään mahdottomia. Ainut puuttuva asia on palvelin, jossa kuvat olisivat saatavissa yksittäin sekä kyseisen palvelimen saaminen GWToolsetin latauslistalle.

DEMO:

Selaimessa toimiva demo löytyy tästä.

Voit käyttää XSLT-tiedostoa myös suoraan. Esimerkiksi Linuxissa konversion voi tehdä näin xsltproc-nimisen ohjelman asennuksen jälkeen:
 xsltproc --stringparam server 'http://jokupalvelin/kuvat/' xsl/simberg_clean.xsl xml/simberg_sample.xml

Lopputulos

Avoimen kulttuuridatan ja Wikimedia Commonssin ajatuksena on osallistuminen. Siksi lähtökohdan aineistolataukselle ei tarvitse olla täydellinen. Simberg -aineiston metatiedot voisivat olla *teknisesti* paremmin eroteltuja esimerkiksi kuvissa näkyvien henkilöiden osalta. Mutta niin ne voisivat AINA olla, täydellisyyttä tällä saralla ei voi saavuttaa.

Tärkeää kuitenkin on saada aineistot liikkeellä ja antaa ihmisille mahdollisuus täydentää ja käyttää aineistoja. Jos aineistojen pitäisi olla lähtötilanteessa täydellisesti luokiteltuja, virheettömiä ja täysin jonkin standardin mukaisia, niin silloin julkaisukynnys nousisi liian ylös, varsinkin kun resursseja ei monesti ainakaan liikaa ole. Tämä taas tarkoittaisi vähemmän avointa kulttuuridataa.

sunnuntai 31. elokuuta 2014

Aineistot Wikimedia Commonssiin


Uusi syksy, uudet kuviot 

Olen juuri aloittanut Wikimedia Suomen hommissa. Tarkoitus on dokumentoida GlamWikiToolset suomeksi ja auttaa organisaatioita sen käytössä. Lisäksi työskentelen Wikimapsin parissa.

Kirjoittelen tässä blogissa kokemuksista ja opetuksista pestini ajalta.

Mikä on GlamWikiToolset?

GlamWikiToolset (GWToolset) mahdollistaa aineistojen siirtämisen metatietoineen Wikimedia Commonssiin ns. massasiirtona (batch upload). Tämä on ainoa järkevä tapa tuoda suuria määriä tiedostoja Commonssiin.

Kuinka se toimii?

Alustavien kokeilujen jälkeen voin kertoa (Commons Betassa), että itse siirto on suhteellisen simppeli, kun sen on kerran tehnyt. Metatiedot kertova XML-tiedosto ladataan palveluun, sen jälkeen kerrotaan mitkä kentät lataajan tietomallissa vastaavat Wikimedian kenttiä (mappaus) ja lopuksi Toolset lataa kuvat tietoineen Commonssiin.

Haasteita

Suurin ongelma on XML-tiedoston luominen.Tiedoston pitää siis olla XML-tiedosto ja vaikka kenttien nimillä ei sinällään ole väliä, tiedostolla pitää kuitenkin olla tietynlainen rakenne. Tällaista tiedosto ei välttämättä saa "ulos" esimerkiksi kovin monesta museojärjestelmästä. Tämä on ehkä suurin yksittäinen haaste ratkaistavaksi.

Heräsikö kysymyksiä?

Minut tavoittaa sähköpostilla tai Twitterissä.
posti: ari.hayrinen@gmail.com
Twitterissä: https://twitter.com/opendimension




keskiviikko 14. toukokuuta 2014

ELY-keskus ja suora pyörätie


Kuinka monta Keski-Suomen ELY-keskuksen suunnittelijaa tarvitaan suunnitelemaan suora pyörätie?

Ei yhtään, sillä pyörätiehän ei voi olla suora!

On se kaunista kun ammattilaiset tekee!
kuva: Teemu Tenhunen

Lisää aiheesta: http://jkl.kaupunkifillari.fi/blog/2014/05/07/uusi-laukaantienjyvaskylantien-pyoratie

lauantai 1. helmikuuta 2014

Jolla and Aldiko permission fix

Jolla is able to run Android apps. However, this functionality is not perfect in all cases. On of those not-so-perfect-cases is Aldiko ebook reader. It is a very good reader and it can be used to download public domain books.

In Jolla, downloading public domain books with Aldiko is not fully functional. It downloads the book (by using the browser) in the Downloads directory but the book does not appear to the Aldiko's book self. If one tries to import that file directory to the Aldiko, the app says it cant read the file.

The fix for this is simple. Just give more permissions to the file. Adding read access for the group seems to be enough. If you have enabled the developer mode, then just go to the Downloads directory (/home/nemo/Downloads) and type:

chmod g+r the_ebook_name.epub

I tried also Nautilus for setting permission and that worked well also.

torstai 30. tammikuuta 2014

Jolla - se kaunein vaihtoehto

Jolla on esteettisesti erittäin miellyttävä. Tai oikeastaan voisi käyttää myös sanaa kaunis.

Jolla on mustavalkea pinta, jossa ei ole logoja eikä tyyppinumeroita. Jollan ei tarvitse kertoa kuka se on.


Kun Jollan käynnistää ensimmäisen kerran, yksi ensimmäisistä kysymyksistä on lempiväri. Se on koneelta aika hyvä iskurepliikki.

Voiko puhelin olla lempeä? Voiko hektiseen informaation vaihtoon suunniteltu laite olla rauhoittava? Jolla tuntuu pystyvän siihen.

Informaatioähky ei tunnu niin pahalta, kun siinä voi navigoida pehmeästi sivellen.

Sähköposti? Ei from, to tai cc-kenttiä. Ei klemmarin kuvia tai mainoksia. Vain lähettäjän nimi ja teksti. Ne kaksi asiaa, jotka ovat tärkeitä.

Yksityiskohdat löytyvät sipaisemalla vasemmalle.

Herätyskello? Ympyrä, kehä ja kaksi planeettaa. Aika ei ole digitaalisia numeroita, aika on positioita.

Erilainen.
Kaunis puhelin, joka on teknisesti (sangen) avoin. 
Humanistinörtti kiittää.