DMP i Horizon 2020

Forrige post tok for seg EUs policy for data, og krav om Data Management Plan [DMP] i Horizon 2020. Jeg håper flere detaljer vil gi et bedre inntrykk av hva en DMP er. Legg merke til at andre forskningsfinansiører eller universiteteter kan ha andre krav til innhold i en DMP.

Vedleggene, Annex 1 og 2, i Guidelines on Data Management oppramser elementer i en Data Mangement Plan. Dette er mine egne forklaringer og en forkortet oversettelse av innholdet i de to vedleggene. Jeg anbefaler hele beskrivelsen, dersom man skal lage en Data Management Plan til Horizon 2020.

Felles for elementene som inngår i Annex 1 og Annex 2 i en DMP til Horizon 2020 et at de skal omfatte alle datasett som lages av forskningsprosjektet.

Annex 1 tar for seg elementer som skal inngå i den første versjonen av planen. Planen skal være klar innen de 6 første månedene av prosjektet. Den skal vise til tankene forskningsgruppen har om data som skal produseres.

Innledningsvis bør det oppgis en referanse til datasettet og navn, slik at man kan ha en identifikator for datasettet.

Videre må datasettet beskrives. Dette innebærer at forskeren forteller mer om følgende:

  • Hvilke data genereres eller samles inn?
  • Hvem kan ha nytte av et slikt datasett (målgruppen)?
  • Er datasettet grunnlaget for en vitenskapelig publikasjon?
  • Finnes det lignende data fra tidligere (eller ikke?)
  • Hvilke muligheter vil det finnes for integrasjon med andre lignende data?
  • Finnes det muligheter for gjenbruk av de innsamlede data?

Standarder og metadata er det neste som skal beskrives. Det oppfordres til at det brukes metadatastandarder innen fagområdet. Hvis en standard for metadata ikke finnes, må man skissere en oversikt over hvordan og hvilke metadata som vil lages.

Målet for EU er at data i størst mulig grad skal deles, derfor må man beskrive hvilke muligheter eller begrensninger som datasettene har for datadeling. Dette innebærer at man må oppgi:

  • Tilgangsprosedyrer
  • Har data en embargoperiode før de kan gjøres tilgjengelig?
  • Hvilke tekniske forutsetninger er det for deling av data med andre? Er det behov for programvare eller andre verktøy for at andre skal kunne gjenbruke data?
  • Vil andre ha tilgang til data? Vil data ligge åpent tilgjengelig, eller er det bare enkelte brukergrupper som skal ha tilgang? Dersom datasettet ikke kan deles, må årsakene til dette oppgis. Er det personvern, opphavsrett, kommersiell, etiske  eller sikkerhetsrelaterte hensyn som er årsaken?
  • Hvilket arkiv vil data lagres i? Hva slags arkiv er dette (institusjonelt arkiv, arkiv innen fagområdet osv.)?

Under temaet arkivering og oppbevaring skal man belyse lagring og back-up av data. En beskrivelse av prosedyrene som vil benyttes ved langtidslagring av data skal med. Videre skal forskningsgruppen ha tanker om hvor lenge data bør lagres, og hvor stor datamengde dette kommer til å utgjøre på slutten av prosjektet.

Å lagre data er ikke gratis. Forskergruppen forventes å estimere hvilke kostnader datalagring vil medføre, og hvordan man planlegger å dekke kostnadene.

Annex 2 handler om oppdatering av planen på et senere tidspunkt i prosjektet. Vedlegget berører mange av de samme temaene som finnes i Annex 1.Etterhvert som et forskningsprosjekt utvikler seg kan dette ha innvirkning på datalagring og -deling.

Forskningsdata skal være lett gjennfinnbare. Dette innebærer i praksis å fortelle om man har brukt standard programvare eller egenutviklet programvare. I tillegg skal man se på det om de enkelte datasettet kan identifiseres med en standardisert identifikasjonsmekanisme (slik som DOI) .

Tilgjengeligheten av data revurderes. Er data og programvare tilgjengelig? I hvilket omfang er data tilgjenglig? Hvilke begrensninger finnes det eventuelt på data? (Lisensbetydning, embargo, kommersiell utnyttelse)

Etterprøvbarhet av data regnes som en av styrkene ved å dele forskningsdata. Noen av spørsmålene i DMP reflekterer dette:

  • Er data og anvendt programvare tilgjengelig for en tredjepart for innsyn og etterprøvbarhet for datasett?
  • Finnes det koblinger mellom datasett til øvrige vitenskapelige publikasjoner?
  • Vil tilgjengelighet av data gjøre det mulig å si noe om reliabiliteten til data? Eller kan man si noe om kompetansen til de som utarbeidet undersøkelsen eller utført datainnsamlingen?

Andre spørsmål som berører gjenbruk av lagrede data stilles:

  • Kan data og programvaren brukes av en tredjepart lenge etter at den var innsamlet?
  • Er det brukt standarder for dataannotering eller datautveksling?
  • Kan dataformatet brukes i annen programvare enn den som ble brukt opprinnelig? Er data lagret i sertifiserte arkiver for langtidsoppbevaring og bevaring ?
  • Er data lagret sammen med programvare, metadata og dokumentasjon, slik at data kan brukes lenge etter innsamling?
  • Kan data brukes av allmennheten (ikke-spesialister). Dette viser tilbake til anonymisering av data og lisens for bruk.

For en fullstendig oversikt, se Guidelines on Data Management in Horizon 2020.

GuidelinesOnDataManagement

– Therese

Advertisements

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s