Teknologi

Datahåndteringsplan i skyen

En av konsekvensene av at Forskningsrådet innfører en politikk for tilgjengelighet av forskningsdata er at forskeren skal lage en datahåndteringsplan. I USA og Storbritannia er det laget nettbaserte verktøy for å lage datahåndteringsplaner. Kan verktøyet DMP Online kan brukes i en nasjonal skyløsning? Dette har Danmarks Elektroniske Fag- og forskningsbibliotek [DEFF] testet.

Digital Curation Center står bak DMP Online (UK). DMP Online består av nettbasert skjema som forskerne fyller ut. Forskjellige forskningsfinansiører og universiteter har ulike retningslinjer. Dette resulterer i ulike ønsker om informasjon fra forskeren om forskningsdataene. Informasjonen er knyttet til hvordan forskningsdata lagres, bevares og deles, som for eks. DMP i Horizon 2020. En datahånteringsplan vil minst inneholde en beskrivelse av forskningsprosjektets data. Hvordan data oppbevares under og etter prosjektet og hvem som skal ha tilgang til data er også vanlige spørsmål.

Forskjellene ivaretas i DMP Online ved at det lages maler som er tilrettelagt for ulike typer forskningsfinansiører og/eller eget universitet.  Malene, som er tilgjengelig i systemet i dag, er hovedsakelig tilpasset britiske og amerikanske forskningsfinansører og universiteter.

DMP Online gjør det mulig for forskeren å samarbeide med kollegaer, arbeide videre med datalagringsplanen etterhvert som forskningsprosjektet utvikler seg. Det er mulig å eksportere datahåndteringsplanen slik at den kan legges inn i søknader om forskningsmidler.

Danmarks Elektroniske Fag- og forskningsbibliotek konkluderer med at DMP Online kan relativt lett tilpasses til danske behov, og brukes som en nasjonal skyløsning.

Bakgrunnen for konklusjonen er beskrevet i rapporten FIF – Fælles Infrastruktur for Forskningsdata. Rapporten beskriver en del av de tekniske aspektene ved DMP Online og gir anbefalinger før en nasjonal skytjeneste kan realiseres.

DEFF anbefaler at utdanningsinstitusjonene og forskningsfinansiørene har utviklet sin egen politikk for forskningsdata. Grunnen er at policy er en forutsetning for funksjonaliteten i DMP Online, slik at maler kan lages. For at systemet skal fungere trengs det:  liste over utdannelsesinstitusjoner og fond, maler for datamanagement hos de enkelte fond og forskningsinstitusjoner, tekster og logoer.

I Danmark er det versjon 4 av webapplikasjonen DMP Online som er testet. DMP Online anvender åpen kildekode. Den er programmert ved bruk av Ruby on Rails, og MySQL anvendes som database. Den åpne kildekoden er tilgjengelig i GitHub. Planen kan eksporteres til forskjellige formater, eks HTML, XML, Text eller Json.

Rapporten fremhever at ved hjelp av en programmerer for Ruby on Rails vil DMP Online kunne tilpasses danske forhold relativt enkelt i løpet av noen måneder. Det er viktig å ivareta muligheter for at et eventuelt dansk system kan integreres med senere versjoner av DMP Online. Programvaren kan driftes i hvilken som helst skyløsning.

Rapporten peker på at dette er et relativt nytt system. Det finnes tilgjengelig en brukerveiledning. Likevel er det tekniske systemet dårlig dokumentert i dag, men DCC er oppmerksom på utfordringen og skal arbeide med det. Dette gjør at installasjon og konfigurering tar litt lenger tid.

DEFF ønsker en bedre integrasjon med andre tekniske systemer i fremtidig utvikling. De peker blant annet på funksjonalitet som lenking til dataarkiver og publiseringsplattform. Utveksling av informasjon gjennom uttrekk og gjenbruk av forskningsdatadokumentasjon på tvers av systemer kan videreutvikles. Dette vil være bra slik at man kan følge en datahåndteringsplan gjennom et forskningsprosjektet.

DMP Online krever pålogging før bruk. DEFF mener at i fremtiden vil det være ønskelig å ha muligheter til å koble DMP Online til single-sign-on løsning. De tenker på danske WAYF. Dette er en lignende løsning som norske Feide som gir en felles elektronisk identitet for pålogging til datasystemer i universitets- og høyskolesektoren.

Avslutningsvis mener DEFF at det er et behov for å opprette en organisasjon som kan vedlikeholde, drifte og markedsføre DMP Online.

– Therese

Kartlegging av forskningsdata ved UiO

I går fanget jeg opp den rykende ferske artikkelen om UiOs arbeidsgruppe for forskningsdata.  I tiden frem til mars 2015 skal gruppen kartlegge eksisterende praksis for lagring og deling av forskningsdata ved UiO.  Kartleggingen vil legge grunnlaget for anbefalinger omkring løsninger for lagring og deling av forskningsdata.

Forskningsrådet oppfordrer til at institusjonene lager egne retningslinjer for forskningsdata. Arbeidsgruppen vil komme med innspill til retningslinjer for UiO, og se på hvordan ansattes rettigheter på best mulig måte kan ivaretas.

Les hele artikkelen i Uniforum:

Tidemann, G. (13.10.14) Forskningsdata skal deles. Uniforum: http://www.uniforum.uio.no/nyheter/2014/10/forskningsdata-skal-deles.html

 

– Therese

The Dataverse Network

The Dataverse Network ble opprinnelig etablert av Harvard og MIT. Målet var å skape et Data Management System og publiseringsrammeverk innen samfunnsvitenskapene. The Dataverse Network har utviklet seg over tid, slik at det nå brukes på flere fagfelt. Webapplikasjonen brukes for å publisere, dele, referere, hente ut informasjon og analysere data i forskningsprosessen. Det legges vekt på alt arbeidet som skjer i selve forskningsprosessen, slik at det blir noe mer enn en ren arkivløsning

Dataverse - oppbygging

Crosas, M. (2011) The Dataverse Network®: An Open-Source Application for Sharing, Discovering and Preserving Data. D-Lib Magazine, January/February 2011, Volume 17, Number 1/2 : doi:10.1045/january2011-crosas

Strukturelt er The Dataverse Network bygget opp av flere deler. Forskningsinstitusjonen kan legge til rette for å opprette et nettverk av arkiver. Et «dataverse» er et virtuelt arkiv. En forsker eller en forskningsgruppe kan ha et «dataverse» arkiv, som igjen kan bestå av ett eller flere forskningsstudier med tilhørende data. For hvert «studium» skal det gis informasjon om datasett, dokumentasjon, kode og katalogiseringsinformasjon/metadata.

The Dataverse Network har mye funksjonalitet. Det er mange utfordringer ved lagring og deling av forskningsdata. Muligheter for backup, versjonshåndtering av data, koblinger til statistiske analyseverktøy, permanente identifikatorer og siteringer for datasett er blant utfordringer som The Dataverse network ivaretar. Interesserte kan lese flere publikasjoner på nettsidene til The Dataverse Network.

Mange forskere er redd for at datasett vil feiltolkes når data gjøres tilgjengelig. Siteringer for datasett og muligheter for å lenke til datasett hjelper å hindre dette, og gir anerkjennelse til forskeren for arbeidet som er gjort. I Dataverse legges permanente identifikatorer til studiene automatisk, og permanente lenker kan brukes ved skriving av vitenskapelige artikler. Forskeren har tilgang til lenken med en gang datasettet er lastet opp. Etter at artikkelen er publisert, så kan hun åpne for at andre kan se innholdet i datasettet.

Henvisninger til datasett skrives inn i referanselisten på en vitenskapelig artikkel. Siteringen kan se slik ut:

McGann, Anthony. 2013. Replication data for: Estimating the Political Center from Aggregate Data: An Item Response Theory Alternative to the Stimson Dyad Ratios Algorithm. http://dx.doi.org/10.7910/DVN/22861 IQSS Dataverse Network [Distributor] V1 [Version].

Dataverse er bygget på åpen kildekode, open source, og er gratis tilgjengelig. For de som driver med åpen kildekode, vil elementene som Dataverse bygger på, dvs. Red Hat Linux, Glassfish Server, PostgreSQL m.m. være gjenkjennelig.

Åpen kildekildekode gir muligheter for å velge om man vil utnytte tilgjengelig tilleggsfunksjonalitet. Det finnes blant annet en Open Journal System plug in, som lager koblinger mellom tidsskrifter produsert i verktøyet Open Journal System og Dataverse. Det er mulig å legge til Google Analytics og koblinger til Twitter.

For de mer teknisk interesserte, vil nok Installers Guide være informativ.

– Therese