Måned: oktober 2014

Datahåndteringsplan i skyen

En av konsekvensene av at Forskningsrådet innfører en politikk for tilgjengelighet av forskningsdata er at forskeren skal lage en datahåndteringsplan. I USA og Storbritannia er det laget nettbaserte verktøy for å lage datahåndteringsplaner. Kan verktøyet DMP Online kan brukes i en nasjonal skyløsning? Dette har Danmarks Elektroniske Fag- og forskningsbibliotek [DEFF] testet.

Digital Curation Center står bak DMP Online (UK). DMP Online består av nettbasert skjema som forskerne fyller ut. Forskjellige forskningsfinansiører og universiteter har ulike retningslinjer. Dette resulterer i ulike ønsker om informasjon fra forskeren om forskningsdataene. Informasjonen er knyttet til hvordan forskningsdata lagres, bevares og deles, som for eks. DMP i Horizon 2020. En datahånteringsplan vil minst inneholde en beskrivelse av forskningsprosjektets data. Hvordan data oppbevares under og etter prosjektet og hvem som skal ha tilgang til data er også vanlige spørsmål.

Forskjellene ivaretas i DMP Online ved at det lages maler som er tilrettelagt for ulike typer forskningsfinansiører og/eller eget universitet.  Malene, som er tilgjengelig i systemet i dag, er hovedsakelig tilpasset britiske og amerikanske forskningsfinansører og universiteter.

DMP Online gjør det mulig for forskeren å samarbeide med kollegaer, arbeide videre med datalagringsplanen etterhvert som forskningsprosjektet utvikler seg. Det er mulig å eksportere datahåndteringsplanen slik at den kan legges inn i søknader om forskningsmidler.

Danmarks Elektroniske Fag- og forskningsbibliotek konkluderer med at DMP Online kan relativt lett tilpasses til danske behov, og brukes som en nasjonal skyløsning.

Bakgrunnen for konklusjonen er beskrevet i rapporten FIF – Fælles Infrastruktur for Forskningsdata. Rapporten beskriver en del av de tekniske aspektene ved DMP Online og gir anbefalinger før en nasjonal skytjeneste kan realiseres.

DEFF anbefaler at utdanningsinstitusjonene og forskningsfinansiørene har utviklet sin egen politikk for forskningsdata. Grunnen er at policy er en forutsetning for funksjonaliteten i DMP Online, slik at maler kan lages. For at systemet skal fungere trengs det:  liste over utdannelsesinstitusjoner og fond, maler for datamanagement hos de enkelte fond og forskningsinstitusjoner, tekster og logoer.

I Danmark er det versjon 4 av webapplikasjonen DMP Online som er testet. DMP Online anvender åpen kildekode. Den er programmert ved bruk av Ruby on Rails, og MySQL anvendes som database. Den åpne kildekoden er tilgjengelig i GitHub. Planen kan eksporteres til forskjellige formater, eks HTML, XML, Text eller Json.

Rapporten fremhever at ved hjelp av en programmerer for Ruby on Rails vil DMP Online kunne tilpasses danske forhold relativt enkelt i løpet av noen måneder. Det er viktig å ivareta muligheter for at et eventuelt dansk system kan integreres med senere versjoner av DMP Online. Programvaren kan driftes i hvilken som helst skyløsning.

Rapporten peker på at dette er et relativt nytt system. Det finnes tilgjengelig en brukerveiledning. Likevel er det tekniske systemet dårlig dokumentert i dag, men DCC er oppmerksom på utfordringen og skal arbeide med det. Dette gjør at installasjon og konfigurering tar litt lenger tid.

DEFF ønsker en bedre integrasjon med andre tekniske systemer i fremtidig utvikling. De peker blant annet på funksjonalitet som lenking til dataarkiver og publiseringsplattform. Utveksling av informasjon gjennom uttrekk og gjenbruk av forskningsdatadokumentasjon på tvers av systemer kan videreutvikles. Dette vil være bra slik at man kan følge en datahåndteringsplan gjennom et forskningsprosjektet.

DMP Online krever pålogging før bruk. DEFF mener at i fremtiden vil det være ønskelig å ha muligheter til å koble DMP Online til single-sign-on løsning. De tenker på danske WAYF. Dette er en lignende løsning som norske Feide som gir en felles elektronisk identitet for pålogging til datasystemer i universitets- og høyskolesektoren.

Avslutningsvis mener DEFF at det er et behov for å opprette en organisasjon som kan vedlikeholde, drifte og markedsføre DMP Online.

– Therese

Hva nå? Konsekvenser av policy

Nå har flere forskningfinansiører og myndigheter lagt frem sine retningslinjene for åpen tilgjengeliggjøring av forskningsdata

Hva er de praktiske konsekvensene for den enkelte forsker og universitets- og høyskolesektoren?

Se videoen for en kortfattet oppsummering

 

Kartlegging av forskningsdata ved UiO

I går fanget jeg opp den rykende ferske artikkelen om UiOs arbeidsgruppe for forskningsdata.  I tiden frem til mars 2015 skal gruppen kartlegge eksisterende praksis for lagring og deling av forskningsdata ved UiO.  Kartleggingen vil legge grunnlaget for anbefalinger omkring løsninger for lagring og deling av forskningsdata.

Forskningsrådet oppfordrer til at institusjonene lager egne retningslinjer for forskningsdata. Arbeidsgruppen vil komme med innspill til retningslinjer for UiO, og se på hvordan ansattes rettigheter på best mulig måte kan ivaretas.

Les hele artikkelen i Uniforum:

Tidemann, G. (13.10.14) Forskningsdata skal deles. Uniforum: http://www.uniforum.uio.no/nyheter/2014/10/forskningsdata-skal-deles.html

 

– Therese

Registerdata fra Statistisk sentralbyrå

Statistisk sentralbyrå [SSB] er en av de største norske kildene til registerdata. Dette betyr at de samler ikke inn data selv, men bruker offentlige register som datagrunnlag.

Nylig hadde BI Biblioteket besøk av Jon Olav Folsland fra Informasjonstjenesten i Statistisk sentralbyrå. Han holdt en informativ presentasjon for oss. Det er klart at registerdata er et tema for Forskningsdatabloggen. Det er minst tre grunner til dette:

De fleste forskere er interessert i hvor de kan finne gode datakilder. SSB er en mulig kilde, slik at det er viktig å ha kunnskap om denne. SSB er en av kildene hvor forskere kan bestille data. Data kan benyttes sammen med data som de selv samler inn, eller henter fra andre kilder. Den siste grunnen er at registerdata fra SSB er åpne tilgjengelige data, og kan integreres i ulike tekniske løsninger.

I Norge er offentlige institusjoner pliktig til å avgi statistikk etter Statistikkloven. 25 institusjoner inngår Statistikkrådet som er en sammenslutning for de som lager offentlig statistikk. Det betyr at SSB sammenfatter statistikk fra NAV, Brønnøysundregistrene, Folkeregistrene osv.

På verdensbasis omtales data fra SBB som å ha en meget høy kvalitet. Krav til hvordan data samles inn og beskrivelser av data er blant grunnene til det høye kvalitetsnivået. Dersom det finnes internasjonale rammeverk for klassifiseringer vil disse anvendes, slik at data er i tråd med internasjonale standarder. Dette betyr at norske data kan sammenlignes med andre lands data. SBB har en egen publikasjonskategori kalt «Notater». Notater er bakgrunnsinformasjon om hvordan man har gått frem for å samle inn data og hvordan utvalg er trukket. Anonymisering er et viktig tiltak for personvernet ifølge Statistikkloven. Statistikker som gjør det mulig å identifisere enkelte bedrifter eller enkeltpersoner vil ikke gjøres tilgjengelig.

I alt finnes det ca. 420 statistikker. I SSB defineres en statistikk som en tallinnsamlinger som man kan lage tidsserier av. Statistikkene får egennavn, f.eks Konsumprisindeksen. Dette hjelper på gjenfinning av datasett.

Dersom man bare trenger faktainformasjon, er det mulig å lage sine egne tabeller. Da brukes Statistikkbanken for å ta ut de variablene som man ønsker i et tabelloppsett. Egne tabeller kan eksporteres, gjerne til Excel.

For de fleste forskere som vil benytte SSB-data sammen med egne analyser er ikke dette nok. Da kan data til forskning bestilles og betales. SSB har en egen informasjonstjeneste. Alle statistikkene og publikasjonene har sine egne kontaktpersoner som kan hjelpe ved bestilling av data.

SSB har gjort sine data åpent tilgjengelig. Dette betyr at data fra SSB kan integreres i nettsideløsninger, eller brukes inn i app’er eller data kan brukes til å lage visualiseringer. API: Tilgjenglige datasett viser oversikten over de mest populære datasettene. Data gjøres tilgjengelig med Norsk lisens for offentlige data (NLOD), som innebærer at kilden til data skal oppgis.

– Therese

MUNIN – konferansen

Det er i Tromsø det skjer i høst. Den årlige internasjonale Munin-konferansen ved UiT går av stabelen 26 og 27.november.  I år tar den 9.ende konferansen for seg temaene forskningsdata, «metrics» og forleggernes rolle.

Folkene bak UiT Dataverse Network er tilstede, så det gir muligheter for en førstehånds prat om deres erfaringer. Programmet inneholder også flere kjente navn innen områdene forskningsdata og Open Access.

Dagen før arrageres den nasjonale Open Access dagen. Absolutt av interesse for dem som er opptatt av åpen tilgang til publikasjoner og data.

Jeg ser frem til mange spennende diskusjoner og innlegg. Treffer jeg deg der?

En ekstra bonus er muligheter for å se vakkert nordlys, dersom været er riktig.

Ta en titt på årets progam, og meld deg på:

http://site.uit.no/muninconf/?page_id=2

– Therese

 

The Dataverse Network

The Dataverse Network ble opprinnelig etablert av Harvard og MIT. Målet var å skape et Data Management System og publiseringsrammeverk innen samfunnsvitenskapene. The Dataverse Network har utviklet seg over tid, slik at det nå brukes på flere fagfelt. Webapplikasjonen brukes for å publisere, dele, referere, hente ut informasjon og analysere data i forskningsprosessen. Det legges vekt på alt arbeidet som skjer i selve forskningsprosessen, slik at det blir noe mer enn en ren arkivløsning

Dataverse - oppbygging

Crosas, M. (2011) The Dataverse Network®: An Open-Source Application for Sharing, Discovering and Preserving Data. D-Lib Magazine, January/February 2011, Volume 17, Number 1/2 : doi:10.1045/january2011-crosas

Strukturelt er The Dataverse Network bygget opp av flere deler. Forskningsinstitusjonen kan legge til rette for å opprette et nettverk av arkiver. Et «dataverse» er et virtuelt arkiv. En forsker eller en forskningsgruppe kan ha et «dataverse» arkiv, som igjen kan bestå av ett eller flere forskningsstudier med tilhørende data. For hvert «studium» skal det gis informasjon om datasett, dokumentasjon, kode og katalogiseringsinformasjon/metadata.

The Dataverse Network har mye funksjonalitet. Det er mange utfordringer ved lagring og deling av forskningsdata. Muligheter for backup, versjonshåndtering av data, koblinger til statistiske analyseverktøy, permanente identifikatorer og siteringer for datasett er blant utfordringer som The Dataverse network ivaretar. Interesserte kan lese flere publikasjoner på nettsidene til The Dataverse Network.

Mange forskere er redd for at datasett vil feiltolkes når data gjøres tilgjengelig. Siteringer for datasett og muligheter for å lenke til datasett hjelper å hindre dette, og gir anerkjennelse til forskeren for arbeidet som er gjort. I Dataverse legges permanente identifikatorer til studiene automatisk, og permanente lenker kan brukes ved skriving av vitenskapelige artikler. Forskeren har tilgang til lenken med en gang datasettet er lastet opp. Etter at artikkelen er publisert, så kan hun åpne for at andre kan se innholdet i datasettet.

Henvisninger til datasett skrives inn i referanselisten på en vitenskapelig artikkel. Siteringen kan se slik ut:

McGann, Anthony. 2013. Replication data for: Estimating the Political Center from Aggregate Data: An Item Response Theory Alternative to the Stimson Dyad Ratios Algorithm. http://dx.doi.org/10.7910/DVN/22861 IQSS Dataverse Network [Distributor] V1 [Version].

Dataverse er bygget på åpen kildekode, open source, og er gratis tilgjengelig. For de som driver med åpen kildekode, vil elementene som Dataverse bygger på, dvs. Red Hat Linux, Glassfish Server, PostgreSQL m.m. være gjenkjennelig.

Åpen kildekildekode gir muligheter for å velge om man vil utnytte tilgjengelig tilleggsfunksjonalitet. Det finnes blant annet en Open Journal System plug in, som lager koblinger mellom tidsskrifter produsert i verktøyet Open Journal System og Dataverse. Det er mulig å legge til Google Analytics og koblinger til Twitter.

For de mer teknisk interesserte, vil nok Installers Guide være informativ.

– Therese