Forskningsfinansiering

Datahåndteringsplan i skyen

En av konsekvensene av at Forskningsrådet innfører en politikk for tilgjengelighet av forskningsdata er at forskeren skal lage en datahåndteringsplan. I USA og Storbritannia er det laget nettbaserte verktøy for å lage datahåndteringsplaner. Kan verktøyet DMP Online kan brukes i en nasjonal skyløsning? Dette har Danmarks Elektroniske Fag- og forskningsbibliotek [DEFF] testet.

Digital Curation Center står bak DMP Online (UK). DMP Online består av nettbasert skjema som forskerne fyller ut. Forskjellige forskningsfinansiører og universiteter har ulike retningslinjer. Dette resulterer i ulike ønsker om informasjon fra forskeren om forskningsdataene. Informasjonen er knyttet til hvordan forskningsdata lagres, bevares og deles, som for eks. DMP i Horizon 2020. En datahånteringsplan vil minst inneholde en beskrivelse av forskningsprosjektets data. Hvordan data oppbevares under og etter prosjektet og hvem som skal ha tilgang til data er også vanlige spørsmål.

Forskjellene ivaretas i DMP Online ved at det lages maler som er tilrettelagt for ulike typer forskningsfinansiører og/eller eget universitet.  Malene, som er tilgjengelig i systemet i dag, er hovedsakelig tilpasset britiske og amerikanske forskningsfinansører og universiteter.

DMP Online gjør det mulig for forskeren å samarbeide med kollegaer, arbeide videre med datalagringsplanen etterhvert som forskningsprosjektet utvikler seg. Det er mulig å eksportere datahåndteringsplanen slik at den kan legges inn i søknader om forskningsmidler.

Danmarks Elektroniske Fag- og forskningsbibliotek konkluderer med at DMP Online kan relativt lett tilpasses til danske behov, og brukes som en nasjonal skyløsning.

Bakgrunnen for konklusjonen er beskrevet i rapporten FIF – Fælles Infrastruktur for Forskningsdata. Rapporten beskriver en del av de tekniske aspektene ved DMP Online og gir anbefalinger før en nasjonal skytjeneste kan realiseres.

DEFF anbefaler at utdanningsinstitusjonene og forskningsfinansiørene har utviklet sin egen politikk for forskningsdata. Grunnen er at policy er en forutsetning for funksjonaliteten i DMP Online, slik at maler kan lages. For at systemet skal fungere trengs det:  liste over utdannelsesinstitusjoner og fond, maler for datamanagement hos de enkelte fond og forskningsinstitusjoner, tekster og logoer.

I Danmark er det versjon 4 av webapplikasjonen DMP Online som er testet. DMP Online anvender åpen kildekode. Den er programmert ved bruk av Ruby on Rails, og MySQL anvendes som database. Den åpne kildekoden er tilgjengelig i GitHub. Planen kan eksporteres til forskjellige formater, eks HTML, XML, Text eller Json.

Rapporten fremhever at ved hjelp av en programmerer for Ruby on Rails vil DMP Online kunne tilpasses danske forhold relativt enkelt i løpet av noen måneder. Det er viktig å ivareta muligheter for at et eventuelt dansk system kan integreres med senere versjoner av DMP Online. Programvaren kan driftes i hvilken som helst skyløsning.

Rapporten peker på at dette er et relativt nytt system. Det finnes tilgjengelig en brukerveiledning. Likevel er det tekniske systemet dårlig dokumentert i dag, men DCC er oppmerksom på utfordringen og skal arbeide med det. Dette gjør at installasjon og konfigurering tar litt lenger tid.

DEFF ønsker en bedre integrasjon med andre tekniske systemer i fremtidig utvikling. De peker blant annet på funksjonalitet som lenking til dataarkiver og publiseringsplattform. Utveksling av informasjon gjennom uttrekk og gjenbruk av forskningsdatadokumentasjon på tvers av systemer kan videreutvikles. Dette vil være bra slik at man kan følge en datahåndteringsplan gjennom et forskningsprosjektet.

DMP Online krever pålogging før bruk. DEFF mener at i fremtiden vil det være ønskelig å ha muligheter til å koble DMP Online til single-sign-on løsning. De tenker på danske WAYF. Dette er en lignende løsning som norske Feide som gir en felles elektronisk identitet for pålogging til datasystemer i universitets- og høyskolesektoren.

Avslutningsvis mener DEFF at det er et behov for å opprette en organisasjon som kan vedlikeholde, drifte og markedsføre DMP Online.

– Therese

Advertisements

Hva nå? Konsekvenser av policy

Nå har flere forskningfinansiører og myndigheter lagt frem sine retningslinjene for åpen tilgjengeliggjøring av forskningsdata

Hva er de praktiske konsekvensene for den enkelte forsker og universitets- og høyskolesektoren?

Se videoen for en kortfattet oppsummering

 

Norsk policy for forskningsdata

Forskningsdata skal være åpent tilgjengelig, når data er helt eller delvis finansiert med offentlige midler. Dette er Forskningsrådets policy for tilgjengeliggjøring av forskningsdata.

Data kan unndras tilgjengeliggjøring på grunnlag av sikkerhet, personvern, juridiske eller kommersielle forhold. Andre forhold kan komme i betraktning, men da må det ha store konsekvenser av økonomisk eller praktisk art.

Forskningsdata defineres som registeringer, nedtegnelser eller rapporteringer i form av tall, tekster, bilder og lyder som genereres eller oppstår i forskningsprosjektet. Kildedata, slik som kliniske data, værdata eller tekstkorpus, faller utenfor definisjonen. Grunnen er at data er innsamlet eller bearbeidet av andre.

Tilgjengeliggjøring av forskningsdata

Tilgjengliggjøring av forskningsdata

Forskningsrådets policy «Tilgjengeliggjøring av forskningsdata» blir supplert av retningslinjer. Retningslinjene gir flere detaljer omkring hvordan data bør behandles.

Data bør legges i sikre arkiver, med standardiserte metadata og ha internasjonale lisenser for bruk knyttet til seg.

Når forskeren publiserer en vitenskapelig artikkel, så bør tilhørende data være publisert. Andre data skal gjøres tilgjengelig senest 3 år etter endt prosjekt. Forskeren må ta stilling til en plan for bevaring av data, slik at data som vurderes å ha verdi på lang sikt forvaltes. Dersom data ikke har langvarig verdi, så må tidspunkt for destruering etter en viss tid vurderes.

Forskningsrådet forklarer at de forventer at policy og retningslinjer vil revideres etterhvert. De er klar over at det gjenstår en del arbeid på feltet lagring og deling av forskningsdata. Det legges vekt på at Forskningsrådet skal bidra til arbeidet fremover, blant annet ved å investere i infrastruktur og verktøy. De vil bistå med å tilrettelegge for arbeidsdeling gjennom å skape møteplasser og rådgivningsvirksomhet. Planer for datahåndtering vil inkluderes i søknadsprosessen, og ved oppfølgingen av prosjekter. De vil opprettholde krav i kontrakter om minimum 10 års arkivering av data, og lage en oversikt over godkjente infrastrukturer for lagring, arkivering og tilgjengeliggjøring av data.

Å lagre og dele forskningsdata kan innebære kostnader. Dersom man vil gjenbruke data som er delt, så kan dette innebære en kostnad for brukeren. Forskningsrådet anbefaler at tilgang til data skal gis til en lavest mulig kostnad. Når man søker om forskningsmidler kan kostnader til arkivering, tilgjengeliggjøring og deling inkluderes i søknadssummen.

Forskningsrådet oppfordrer til at forskningsinstitusjonene utformer sine egne policyer og retningslinjer for tilgjengeliggjøring av forskningsdata.

Grunnen til at Forskningsrådet etablerer sin policy er å følge opp OECD og EUs policyer og retningslinjer. For at forskningen skal kunne flytte grenser er det viktig at den bygger på tidligere arbeider, mulighet for etterprøving av forskningsresultater og legger grunnlag for samarbeid og innovasjon.

Mer om bakgrunn, andre policyer og datahåndteringsplan kan leses i tidligere poster:

– Therese

DMP i Horizon 2020

Forrige post tok for seg EUs policy for data, og krav om Data Management Plan [DMP] i Horizon 2020. Jeg håper flere detaljer vil gi et bedre inntrykk av hva en DMP er. Legg merke til at andre forskningsfinansiører eller universiteteter kan ha andre krav til innhold i en DMP.

Vedleggene, Annex 1 og 2, i Guidelines on Data Management oppramser elementer i en Data Mangement Plan. Dette er mine egne forklaringer og en forkortet oversettelse av innholdet i de to vedleggene. Jeg anbefaler hele beskrivelsen, dersom man skal lage en Data Management Plan til Horizon 2020.

Felles for elementene som inngår i Annex 1 og Annex 2 i en DMP til Horizon 2020 et at de skal omfatte alle datasett som lages av forskningsprosjektet.

Annex 1 tar for seg elementer som skal inngå i den første versjonen av planen. Planen skal være klar innen de 6 første månedene av prosjektet. Den skal vise til tankene forskningsgruppen har om data som skal produseres.

Innledningsvis bør det oppgis en referanse til datasettet og navn, slik at man kan ha en identifikator for datasettet.

Videre må datasettet beskrives. Dette innebærer at forskeren forteller mer om følgende:

  • Hvilke data genereres eller samles inn?
  • Hvem kan ha nytte av et slikt datasett (målgruppen)?
  • Er datasettet grunnlaget for en vitenskapelig publikasjon?
  • Finnes det lignende data fra tidligere (eller ikke?)
  • Hvilke muligheter vil det finnes for integrasjon med andre lignende data?
  • Finnes det muligheter for gjenbruk av de innsamlede data?

Standarder og metadata er det neste som skal beskrives. Det oppfordres til at det brukes metadatastandarder innen fagområdet. Hvis en standard for metadata ikke finnes, må man skissere en oversikt over hvordan og hvilke metadata som vil lages.

Målet for EU er at data i størst mulig grad skal deles, derfor må man beskrive hvilke muligheter eller begrensninger som datasettene har for datadeling. Dette innebærer at man må oppgi:

  • Tilgangsprosedyrer
  • Har data en embargoperiode før de kan gjøres tilgjengelig?
  • Hvilke tekniske forutsetninger er det for deling av data med andre? Er det behov for programvare eller andre verktøy for at andre skal kunne gjenbruke data?
  • Vil andre ha tilgang til data? Vil data ligge åpent tilgjengelig, eller er det bare enkelte brukergrupper som skal ha tilgang? Dersom datasettet ikke kan deles, må årsakene til dette oppgis. Er det personvern, opphavsrett, kommersiell, etiske  eller sikkerhetsrelaterte hensyn som er årsaken?
  • Hvilket arkiv vil data lagres i? Hva slags arkiv er dette (institusjonelt arkiv, arkiv innen fagområdet osv.)?

Under temaet arkivering og oppbevaring skal man belyse lagring og back-up av data. En beskrivelse av prosedyrene som vil benyttes ved langtidslagring av data skal med. Videre skal forskningsgruppen ha tanker om hvor lenge data bør lagres, og hvor stor datamengde dette kommer til å utgjøre på slutten av prosjektet.

Å lagre data er ikke gratis. Forskergruppen forventes å estimere hvilke kostnader datalagring vil medføre, og hvordan man planlegger å dekke kostnadene.

Annex 2 handler om oppdatering av planen på et senere tidspunkt i prosjektet. Vedlegget berører mange av de samme temaene som finnes i Annex 1.Etterhvert som et forskningsprosjekt utvikler seg kan dette ha innvirkning på datalagring og -deling.

Forskningsdata skal være lett gjennfinnbare. Dette innebærer i praksis å fortelle om man har brukt standard programvare eller egenutviklet programvare. I tillegg skal man se på det om de enkelte datasettet kan identifiseres med en standardisert identifikasjonsmekanisme (slik som DOI) .

Tilgjengeligheten av data revurderes. Er data og programvare tilgjengelig? I hvilket omfang er data tilgjenglig? Hvilke begrensninger finnes det eventuelt på data? (Lisensbetydning, embargo, kommersiell utnyttelse)

Etterprøvbarhet av data regnes som en av styrkene ved å dele forskningsdata. Noen av spørsmålene i DMP reflekterer dette:

  • Er data og anvendt programvare tilgjengelig for en tredjepart for innsyn og etterprøvbarhet for datasett?
  • Finnes det koblinger mellom datasett til øvrige vitenskapelige publikasjoner?
  • Vil tilgjengelighet av data gjøre det mulig å si noe om reliabiliteten til data? Eller kan man si noe om kompetansen til de som utarbeidet undersøkelsen eller utført datainnsamlingen?

Andre spørsmål som berører gjenbruk av lagrede data stilles:

  • Kan data og programvaren brukes av en tredjepart lenge etter at den var innsamlet?
  • Er det brukt standarder for dataannotering eller datautveksling?
  • Kan dataformatet brukes i annen programvare enn den som ble brukt opprinnelig? Er data lagret i sertifiserte arkiver for langtidsoppbevaring og bevaring ?
  • Er data lagret sammen med programvare, metadata og dokumentasjon, slik at data kan brukes lenge etter innsamling?
  • Kan data brukes av allmennheten (ikke-spesialister). Dette viser tilbake til anonymisering av data og lisens for bruk.

For en fullstendig oversikt, se Guidelines on Data Management in Horizon 2020.

GuidelinesOnDataManagement

– Therese

Guidelines for Data Management in Horizon 2020

EUs søknadsmidler i Horizon 2020 er ettertraktet. Etterhvert kommer søknaden til kreve en Data Management Plan. Datahåndteringsplan, eller DMP, er en plan for hvordan data fra prosjektet skal oppbevares og eventuelt deles.  EU-publikasjonen utgitt i desember 2013 er et policy notat og inneholder noen retningslinjer:

Guidelines On Data Management

European Commission. 2013. Guidelines on Data Management in Horizon 2020: The EU Framework Programme for Research and Innovation.

 

 

 

 

 

 

 

 

 

 

Føringene er som følger:

Regarding the digital research data generated in the action (‘data’), the beneficiaries must:

(a) deposit in a research data repository and take measures to make it possible for third parties to access, mine, exploit, reproduce and disseminate — free of charge for any user — the following:

(i) the data, including associated metadata, needed to validate the results presented in scientific publications as soon as possible;

(ii) other data, including associated metadata, as specified and within the deadlines laid down in the data management plan (see Annex I);

Min oppsummering av hovedpoengene er:

Policyen er at det må avgis en plan, samt at forskerne forpliktet til å lagre data.
Forskerne er ikke forpliktet til å gjøre data åpent tilgjengelig.
Dersom man ikke er villig til å gjøre data åpent tilgjengelig, så må det begrunnes.

Til å begynne med vil EU ha et pilotprosjekt for lagring av forskningsdata og Data Management Plan. Dette omtales som Open Research Data Pilot. Open Research Data Pilot skal tas i bruk fra 2014-2015, hvor man skal levere et førsteutkast av en DMP innen de første 6 månedene av prosjektet. Det blir sagt at DMP forventes å utvikles i løpet av prosjektet, slik at man kan regne mer å få en videreutvikling av planen senere.

Programmene som berøres av Open Research Data Pilot er:

  • Future and Emerging Technologies
  • Research infrastructures – part e-Infrastructures
  • Leadership in enabling and industrial technologies – Information and Communication Technologies
  • Societal Challenge: ‘Secure, Clean and Efficient Energy’ – part Smart cities and communities
  • Societal Challenge: ‘Climate Action, Environment, Resource Efficiency and Raw materials’ – except raw materials
  • Societal Challenge: ‘Europe in a changing world – inclusive, innovative and reflective Societies’
  • Science with and for Society

Søkere til andre programmer kan bidra, men det frivillig.

Detaljene for skriving av DMP i søknaden skal finnes i Participant Portal innen utgangen av 2014, og støttetjenester forventes å være på plass i løpet av 2015. I skrivende stund vises det kun retningslinjene, Guidelines in Data Management in Horizon 2020.

Følg med! Mer om Data Management Plans i senere poster.

– Therese