Forskere

Forskningsdata på BI – Hvilke behov har forskerne?

Forskernes behov i sitt arbeid med forskningsdata er tema for min masteroppgave.  I løpet av de siste 3 årene som jeg har arbeidet i bibliotek, så er det blitt stor fokus på hva som skal være bibliotekets oppgaver fremover. Internasjonalt har forskningsdata blitt omfavnet av biblioteksektoren for sin relevans for lagring av digitale ressurser og behovet for støttetjenester som råd og veiledning til forskerne. I Norge har temaet vært beskjedent omtalt.

For forskerne har det internasjonalt og nasjonalt blitt stilt flere krav til lagring og deling av forskningsdata i forbindelse med publisering av vitenskapelige arbeider og søknader om forskningsmidler, for eksempel fra Forskningsrådet og EU. Dette innebærer en utfordring for forskningsinstitusjonene ved at de skal bistå med tilrettelegging for en god forskningsinfrastruktur og vurdere opprettelse av retningslinjer for egen forskningsinstitusjon i arbeidet med forskningsdata.

Forståelse for forskernes behov ved egen forskningsinstitusjon er et viktig utgangspunkt for arbeid med lagring og bevaring av forskningsdata.

Formålet med studien er å kartlegge forskningsdata som finnes ved Handelshøyskolen BI. Målet er å finne ut hvilke dataformater og -typer som finnes, hvordan data lagres, deles og gjenbrukes. Dette vil være med på å identifisere risikomomenter slik som misbruk, tap eller manglende gjenfinning av data. Det vil gi en økt forståelse av forskeres arbeidsflyt og holdninger til data og deling. Studien vil være med på å identifisere forslag til hvordan man kan forbedre eksisterende praksis i organisasjonen, og aktuelle samarbeidspartnere utenfor organisasjonen.

Er du nysgjerrig på resultatene, så vil de første funnene presenteres på Universitets- og høyskolebibliotekkonferansen i juni. Deretter vil resultatene bli publisert som masteroppgave ved Høyskolen i Oslo og Akershus, Institutt for arkiv, bibliotek og informasjonsfag.

– Therese

Advertisements

Hvordan sitere datasett?

How to Cite Datasets and Link to Publications

How to Cite Datasets and Link to Publications

Sitering av forskningsdata er en viktig faktor ved arkivering og deling av data. De mest kjente siteringsstilene har utviklet standarder for sitering til forskningsdata. Å sitere forskningsdata er ganske likt sitering av andre publikasjonstyper.

For at sitering av forskningsdata fra et arkiv skal være mulig, bør arkivet tilby en løsning med permanente lenker. Dette er en DOI, eller tilsvarende slik som Handle, Archival Resource Key (ARK) and Persistent URL (PURL).

I tillegg kan datasett har knyttet til seg en Unique Numeric Fingerprint (UNF). Dette er en henvisning til versjonen av data, for å sikre at data ikke er endret. Da kan denne referansen hentet fra et Dataverse arkiv se slik ut:

Frederico Girosi; Gary King, 2006, ‘Cause of Death Data’, http://hdl.handle.net/1902.1/UOVMCPSWOL
UNF:3:9JU+SmVyHgwRhAKclQ85Cg== IQSS Dataverse Network [Distributor] V3 [Version].

Utfordringen for siteringer er at man gjerne har en artikkel, et datasett, en kodebok, osv. som er med på å beskrive data. Dette betyr at flere referanser kan bli relativt like. Noen siteringsstiler ber om at man oppgir materialtype, altså spesifiserer at referansen er et datasett. Dette ser man for eksempel hos APA.

Interesserte kan studere detaljer nærmere i: Ball, A. & Duke, M. (2012). ‘How to Cite Datasets and Link to Publications’. DCC How-to Guides. Edinburgh: Digital Curation Centre: http://www.dcc.ac.uk/resources/how-guides

– Therese

Hva nå? Konsekvenser av policy

Nå har flere forskningfinansiører og myndigheter lagt frem sine retningslinjene for åpen tilgjengeliggjøring av forskningsdata

Hva er de praktiske konsekvensene for den enkelte forsker og universitets- og høyskolesektoren?

Se videoen for en kortfattet oppsummering

 

Registerdata fra Statistisk sentralbyrå

Statistisk sentralbyrå [SSB] er en av de største norske kildene til registerdata. Dette betyr at de samler ikke inn data selv, men bruker offentlige register som datagrunnlag.

Nylig hadde BI Biblioteket besøk av Jon Olav Folsland fra Informasjonstjenesten i Statistisk sentralbyrå. Han holdt en informativ presentasjon for oss. Det er klart at registerdata er et tema for Forskningsdatabloggen. Det er minst tre grunner til dette:

De fleste forskere er interessert i hvor de kan finne gode datakilder. SSB er en mulig kilde, slik at det er viktig å ha kunnskap om denne. SSB er en av kildene hvor forskere kan bestille data. Data kan benyttes sammen med data som de selv samler inn, eller henter fra andre kilder. Den siste grunnen er at registerdata fra SSB er åpne tilgjengelige data, og kan integreres i ulike tekniske løsninger.

I Norge er offentlige institusjoner pliktig til å avgi statistikk etter Statistikkloven. 25 institusjoner inngår Statistikkrådet som er en sammenslutning for de som lager offentlig statistikk. Det betyr at SSB sammenfatter statistikk fra NAV, Brønnøysundregistrene, Folkeregistrene osv.

På verdensbasis omtales data fra SBB som å ha en meget høy kvalitet. Krav til hvordan data samles inn og beskrivelser av data er blant grunnene til det høye kvalitetsnivået. Dersom det finnes internasjonale rammeverk for klassifiseringer vil disse anvendes, slik at data er i tråd med internasjonale standarder. Dette betyr at norske data kan sammenlignes med andre lands data. SBB har en egen publikasjonskategori kalt «Notater». Notater er bakgrunnsinformasjon om hvordan man har gått frem for å samle inn data og hvordan utvalg er trukket. Anonymisering er et viktig tiltak for personvernet ifølge Statistikkloven. Statistikker som gjør det mulig å identifisere enkelte bedrifter eller enkeltpersoner vil ikke gjøres tilgjengelig.

I alt finnes det ca. 420 statistikker. I SSB defineres en statistikk som en tallinnsamlinger som man kan lage tidsserier av. Statistikkene får egennavn, f.eks Konsumprisindeksen. Dette hjelper på gjenfinning av datasett.

Dersom man bare trenger faktainformasjon, er det mulig å lage sine egne tabeller. Da brukes Statistikkbanken for å ta ut de variablene som man ønsker i et tabelloppsett. Egne tabeller kan eksporteres, gjerne til Excel.

For de fleste forskere som vil benytte SSB-data sammen med egne analyser er ikke dette nok. Da kan data til forskning bestilles og betales. SSB har en egen informasjonstjeneste. Alle statistikkene og publikasjonene har sine egne kontaktpersoner som kan hjelpe ved bestilling av data.

SSB har gjort sine data åpent tilgjengelig. Dette betyr at data fra SSB kan integreres i nettsideløsninger, eller brukes inn i app’er eller data kan brukes til å lage visualiseringer. API: Tilgjenglige datasett viser oversikten over de mest populære datasettene. Data gjøres tilgjengelig med Norsk lisens for offentlige data (NLOD), som innebærer at kilden til data skal oppgis.

– Therese

DMP i Horizon 2020

Forrige post tok for seg EUs policy for data, og krav om Data Management Plan [DMP] i Horizon 2020. Jeg håper flere detaljer vil gi et bedre inntrykk av hva en DMP er. Legg merke til at andre forskningsfinansiører eller universiteteter kan ha andre krav til innhold i en DMP.

Vedleggene, Annex 1 og 2, i Guidelines on Data Management oppramser elementer i en Data Mangement Plan. Dette er mine egne forklaringer og en forkortet oversettelse av innholdet i de to vedleggene. Jeg anbefaler hele beskrivelsen, dersom man skal lage en Data Management Plan til Horizon 2020.

Felles for elementene som inngår i Annex 1 og Annex 2 i en DMP til Horizon 2020 et at de skal omfatte alle datasett som lages av forskningsprosjektet.

Annex 1 tar for seg elementer som skal inngå i den første versjonen av planen. Planen skal være klar innen de 6 første månedene av prosjektet. Den skal vise til tankene forskningsgruppen har om data som skal produseres.

Innledningsvis bør det oppgis en referanse til datasettet og navn, slik at man kan ha en identifikator for datasettet.

Videre må datasettet beskrives. Dette innebærer at forskeren forteller mer om følgende:

  • Hvilke data genereres eller samles inn?
  • Hvem kan ha nytte av et slikt datasett (målgruppen)?
  • Er datasettet grunnlaget for en vitenskapelig publikasjon?
  • Finnes det lignende data fra tidligere (eller ikke?)
  • Hvilke muligheter vil det finnes for integrasjon med andre lignende data?
  • Finnes det muligheter for gjenbruk av de innsamlede data?

Standarder og metadata er det neste som skal beskrives. Det oppfordres til at det brukes metadatastandarder innen fagområdet. Hvis en standard for metadata ikke finnes, må man skissere en oversikt over hvordan og hvilke metadata som vil lages.

Målet for EU er at data i størst mulig grad skal deles, derfor må man beskrive hvilke muligheter eller begrensninger som datasettene har for datadeling. Dette innebærer at man må oppgi:

  • Tilgangsprosedyrer
  • Har data en embargoperiode før de kan gjøres tilgjengelig?
  • Hvilke tekniske forutsetninger er det for deling av data med andre? Er det behov for programvare eller andre verktøy for at andre skal kunne gjenbruke data?
  • Vil andre ha tilgang til data? Vil data ligge åpent tilgjengelig, eller er det bare enkelte brukergrupper som skal ha tilgang? Dersom datasettet ikke kan deles, må årsakene til dette oppgis. Er det personvern, opphavsrett, kommersiell, etiske  eller sikkerhetsrelaterte hensyn som er årsaken?
  • Hvilket arkiv vil data lagres i? Hva slags arkiv er dette (institusjonelt arkiv, arkiv innen fagområdet osv.)?

Under temaet arkivering og oppbevaring skal man belyse lagring og back-up av data. En beskrivelse av prosedyrene som vil benyttes ved langtidslagring av data skal med. Videre skal forskningsgruppen ha tanker om hvor lenge data bør lagres, og hvor stor datamengde dette kommer til å utgjøre på slutten av prosjektet.

Å lagre data er ikke gratis. Forskergruppen forventes å estimere hvilke kostnader datalagring vil medføre, og hvordan man planlegger å dekke kostnadene.

Annex 2 handler om oppdatering av planen på et senere tidspunkt i prosjektet. Vedlegget berører mange av de samme temaene som finnes i Annex 1.Etterhvert som et forskningsprosjekt utvikler seg kan dette ha innvirkning på datalagring og -deling.

Forskningsdata skal være lett gjennfinnbare. Dette innebærer i praksis å fortelle om man har brukt standard programvare eller egenutviklet programvare. I tillegg skal man se på det om de enkelte datasettet kan identifiseres med en standardisert identifikasjonsmekanisme (slik som DOI) .

Tilgjengeligheten av data revurderes. Er data og programvare tilgjengelig? I hvilket omfang er data tilgjenglig? Hvilke begrensninger finnes det eventuelt på data? (Lisensbetydning, embargo, kommersiell utnyttelse)

Etterprøvbarhet av data regnes som en av styrkene ved å dele forskningsdata. Noen av spørsmålene i DMP reflekterer dette:

  • Er data og anvendt programvare tilgjengelig for en tredjepart for innsyn og etterprøvbarhet for datasett?
  • Finnes det koblinger mellom datasett til øvrige vitenskapelige publikasjoner?
  • Vil tilgjengelighet av data gjøre det mulig å si noe om reliabiliteten til data? Eller kan man si noe om kompetansen til de som utarbeidet undersøkelsen eller utført datainnsamlingen?

Andre spørsmål som berører gjenbruk av lagrede data stilles:

  • Kan data og programvaren brukes av en tredjepart lenge etter at den var innsamlet?
  • Er det brukt standarder for dataannotering eller datautveksling?
  • Kan dataformatet brukes i annen programvare enn den som ble brukt opprinnelig? Er data lagret i sertifiserte arkiver for langtidsoppbevaring og bevaring ?
  • Er data lagret sammen med programvare, metadata og dokumentasjon, slik at data kan brukes lenge etter innsamling?
  • Kan data brukes av allmennheten (ikke-spesialister). Dette viser tilbake til anonymisering av data og lisens for bruk.

For en fullstendig oversikt, se Guidelines on Data Management in Horizon 2020.

GuidelinesOnDataManagement

– Therese

Guidelines for Data Management in Horizon 2020

EUs søknadsmidler i Horizon 2020 er ettertraktet. Etterhvert kommer søknaden til kreve en Data Management Plan. Datahåndteringsplan, eller DMP, er en plan for hvordan data fra prosjektet skal oppbevares og eventuelt deles.  EU-publikasjonen utgitt i desember 2013 er et policy notat og inneholder noen retningslinjer:

Guidelines On Data Management

European Commission. 2013. Guidelines on Data Management in Horizon 2020: The EU Framework Programme for Research and Innovation.

 

 

 

 

 

 

 

 

 

 

Føringene er som følger:

Regarding the digital research data generated in the action (‘data’), the beneficiaries must:

(a) deposit in a research data repository and take measures to make it possible for third parties to access, mine, exploit, reproduce and disseminate — free of charge for any user — the following:

(i) the data, including associated metadata, needed to validate the results presented in scientific publications as soon as possible;

(ii) other data, including associated metadata, as specified and within the deadlines laid down in the data management plan (see Annex I);

Min oppsummering av hovedpoengene er:

Policyen er at det må avgis en plan, samt at forskerne forpliktet til å lagre data.
Forskerne er ikke forpliktet til å gjøre data åpent tilgjengelig.
Dersom man ikke er villig til å gjøre data åpent tilgjengelig, så må det begrunnes.

Til å begynne med vil EU ha et pilotprosjekt for lagring av forskningsdata og Data Management Plan. Dette omtales som Open Research Data Pilot. Open Research Data Pilot skal tas i bruk fra 2014-2015, hvor man skal levere et førsteutkast av en DMP innen de første 6 månedene av prosjektet. Det blir sagt at DMP forventes å utvikles i løpet av prosjektet, slik at man kan regne mer å få en videreutvikling av planen senere.

Programmene som berøres av Open Research Data Pilot er:

  • Future and Emerging Technologies
  • Research infrastructures – part e-Infrastructures
  • Leadership in enabling and industrial technologies – Information and Communication Technologies
  • Societal Challenge: ‘Secure, Clean and Efficient Energy’ – part Smart cities and communities
  • Societal Challenge: ‘Climate Action, Environment, Resource Efficiency and Raw materials’ – except raw materials
  • Societal Challenge: ‘Europe in a changing world – inclusive, innovative and reflective Societies’
  • Science with and for Society

Søkere til andre programmer kan bidra, men det frivillig.

Detaljene for skriving av DMP i søknaden skal finnes i Participant Portal innen utgangen av 2014, og støttetjenester forventes å være på plass i løpet av 2015. I skrivende stund vises det kun retningslinjene, Guidelines in Data Management in Horizon 2020.

Følg med! Mer om Data Management Plans i senere poster.

– Therese

5 faser for forskningsdata i universitets- og høyskolesektoren

Høyere utdanningsinstitusjoner i Norge tilbyr noen tjenester innen forskningsdata, og flere tjenester er under planlegging.

Digital Curation Center ligger i Edinburgh, og er en av de verdensledende innen bevaring av forskningsdata. De beskriver 5 faser som forskningsdata gjennomgår fra begynnelsen til slutt i forskningsprosessen.

Research Data Management Service Cycle

Research Data Management Service Cycle

Per dags dato er det ingen høyere utdanningsinstitusjoner i Norge som tilbyr tjenester innen alle de 5 fasene som Digital Curation Center viser til:

1. Ved oppstarten av et forskningsprosjekt vil forskeren opprette og skrive en datahåndteringsplan (Data Management Plan). Dette er et krav fra utdanningsinstitusjonen eller forskningsfinansiører, og gjøres ofte ved søknad om forskningsmidler.

2. Under selve forskningsprosessen berøres forskerens håndtering av data (Managing Active Data).

3. Rett etter forskningsprosjektets avslutning blir det gjort en utvelgelse av data som skal tas vare på videre (Data Selection and Handover).

4. Lagring av data i arkivløsninger (Data Repositories) gjøres etter forskningsprosjektet. Data tilrettelegges for langtidslagring.

5. Deling av de data som er tatt vare på bør formidles. Dette kan gjøres gjennom datakataloger (Data Catalogues). Dette er en hjelp til at andre forskere kan finne tilbake til data, og data kan gjenbrukes.

Det som skjer i forskningsprosessen utgjør de 5 fasene. Universitetene og høyskolene utgjør en viktig kontekst og støttefunksjon for forskeren. Digital Curation Center fremhever viktigheten av at institusjonene har en strategi og handlingsplan for datahåndtering.

For mange høyere utdanningsinstitusjoner vil arbeidet med forskningsdata gjennom hele forskningsprosessen være en ny virksomhet. De anbefaler at det lages en egen forretningsplan for aktiviteten. De peker også at det er behov for støtte og undervisning  for forskere gjennom hele forløpet.

Figuren er hentet fra:
Jones, S., Pryor, G. & Whyte, A. (2013). ‘How to Develop Research Data Management Services – a guide for HEIs’. DCC How-to Guides. Edinburgh: Digital Curation Centre. Tilgjengelig fra: http://www.dcc.ac.uk/resources/how-guides

– Therese