Lagring av forskningsdata i Norge

Lagring av forskningsdata i NorgeNB-prosjektet på BI er omtalt tidligere på bloggen. Jeg har hatt i oppgave å se på hvilke tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata. Rapporten vektlegger hva de største, nasjonale aktørene for datalagring tilbyr til forskerne i Norge. De foreløpige resultatene ble presentert på BIBSYS-konferansen i mars. Nå er den ferdige rapporten publisert:

Skagen, Therese. (2015). Lagring av forskningsdata i Norge – Hva tilbyr de største arkivene?
Prosjektrapport.
Lastet ned fra http://hdl.handle.net/11250/283600

Rapporten legger vekt på de tekniske kravene til forskningsdataarkiver. Kravene er identifisert gjennom rapporter og anbefalinger til forskningsdataarkiver. Forordet og etterordet belyser mulige implikasjoner for bibliotekenes virksomhet. Under vises sammendraget til rapporten:

I løpet av de to siste årene er det kommet krav fra forskningsfinansiører omkring tilgjengeliggjøring av forskningsdata når prosjekter har fått økonomisk støtte (European Commission, 2013; Norges forskningsråd, 2014b). Kravene innebærer at forskeren må vurdere å gjøre informasjon om digitale forskningsdata tilgjengelig og lagre data over lengre tid. Kravene omtaler digitale resultatdata, som lagres og bevares over tid slik at det kan gjenbrukes. Kravene innebærer at forskningsdataarkiver som infrastruktur må fungere på en bestemt måte. Lagring og bevaring er en avgrenset del av forskningsdatas livssyklus (Jones, Pryor, & Whyte, 2013).

Kravene gjør det interessant å se på hvilke tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata. Internasjonalt er det identifisert funksjonalitet og støttetjenester som kan benyttes i arkiver for forskningsdata (Dillo & De Leeuw, 2014; PARADE, 2009; Reilly, Schaller, Schrimpf, Smit, & Wilkinson, 2011). Samlet utgjør funksjonaliteten og støttetjenester kriterier på en kvalitetsmessig standard som dataarkiver vurderes etter før man sier at de tilbyr gode tjenester for lagring og bevaring av forskningsdata.

Gjennom en kartlegging av aktiviteter blant norske aktører for lagring av forskningsdata vil det fokuseres på følgende forskningsspørsmål: Hvilket tilbud gir Norges største aktører for avlevering og lagring av forskningsdata som forskere knyttet til høyere utdanning og forskningsinstitutter kan benytte seg av? Hvilke planer har aktørene for videre arbeid? Denne casestudien ser på de største, nasjonale aktørene for datalagrings tilbud til forskerne i Norge, arkivet til Norsk samfunnsvitenskapelige datatjeneste og NorStore Research Data Archive.

Funksjonalitetene i arkivene er lignende, slik at dette er noe overlappende mellom de to arkivene. Forskjeller i formater og størrelse på data som arkivene kan motta og bevare over tid gjør arkivene forskjellige, slik at de utfyller hverandre. Dersom man tar høyde for utviklingen av forskningsdatainfrastrukturen i Norge som er planlagt, vil de nasjonale tjenestene fra dataarkivene gi de største brukergruppene av forskerne et tilbud for bevaring av data ved bruk av de mest vanlige filformatene.

– Therese

 

 

 

 

Forskningsdata på BI – Hvilke behov har forskerne?

Forskernes behov i sitt arbeid med forskningsdata er tema for min masteroppgave.  I løpet av de siste 3 årene som jeg har arbeidet i bibliotek, så er det blitt stor fokus på hva som skal være bibliotekets oppgaver fremover. Internasjonalt har forskningsdata blitt omfavnet av biblioteksektoren for sin relevans for lagring av digitale ressurser og behovet for støttetjenester som råd og veiledning til forskerne. I Norge har temaet vært beskjedent omtalt.

For forskerne har det internasjonalt og nasjonalt blitt stilt flere krav til lagring og deling av forskningsdata i forbindelse med publisering av vitenskapelige arbeider og søknader om forskningsmidler, for eksempel fra Forskningsrådet og EU. Dette innebærer en utfordring for forskningsinstitusjonene ved at de skal bistå med tilrettelegging for en god forskningsinfrastruktur og vurdere opprettelse av retningslinjer for egen forskningsinstitusjon i arbeidet med forskningsdata.

Forståelse for forskernes behov ved egen forskningsinstitusjon er et viktig utgangspunkt for arbeid med lagring og bevaring av forskningsdata.

Formålet med studien er å kartlegge forskningsdata som finnes ved Handelshøyskolen BI. Målet er å finne ut hvilke dataformater og -typer som finnes, hvordan data lagres, deles og gjenbrukes. Dette vil være med på å identifisere risikomomenter slik som misbruk, tap eller manglende gjenfinning av data. Det vil gi en økt forståelse av forskeres arbeidsflyt og holdninger til data og deling. Studien vil være med på å identifisere forslag til hvordan man kan forbedre eksisterende praksis i organisasjonen, og aktuelle samarbeidspartnere utenfor organisasjonen.

Er du nysgjerrig på resultatene, så vil de første funnene presenteres på Universitets- og høyskolebibliotekkonferansen i juni. Deretter vil resultatene bli publisert som masteroppgave ved Høyskolen i Oslo og Akershus, Institutt for arkiv, bibliotek og informasjonsfag.

– Therese

Siste nytt – Bibsyskonferansen

Det er gått en stund siden siste innlegg på bloggen. Det har vært en travel tid, men her kommer en liten oppdatering. I midten av mars var jeg på Bibsys-konferansen. Digitalt akademia var det overordnede temaet. Jeg var positivt overrasket over hvor mange av presentasjonene som nevnte forskningsdata som en mulig oppgave for bibliotekene fremover. På konferansen holdt jeg et av innleggene på parallellseksjonen om Forskningsdata nasjonalt og lokalt. Dette har jeg fortalt om tidligere i posten NB-prosjektet på BI. Prosjektet har som mål å skrive en rapport som beskriver hvilket tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata.

Presentasjonen med lydopptak kan finnes her:

Skagen, Therese (11.03.2015) Forskningsdata i Norge – Hva tilbyr de største aktørene? Presentasjon fra BIBSYS-konferansen, 10-11.03.15: http://www.bibsyskonferansen.no/opptak-fra-konferansen/

Først er presentasjonen til Ellen Hermanrud og Frode Bakken, som fortalte om sin dSpace installasjon for forskningsdata ved Høyskolen i Telemark. Min presentasjon finner dere halvveis etter ca. 25 min. Det var kjekt å se mange i salen, og få flere aktuelle spørsmål i etterkant.

NB-prosjektet på BI er i en avslutningsfase nå. Rapporten tar for seg i større detalj hvilke krav til funksjonalitet til forskningsdataarkiv møter, og gir et øyeblikksbilde av to av Norges forskningsdataarkiver. Rapporten kommer på bloggen om en liten stund.

Jeg skriver for øyeblikket på min masteroppgave om forskningsdata. Den har ikke vært omtalt på bloggen enda. Mer kommer…

– Therese

 

IDCC 2015 – 10th International Digital Curation Conference

IDCC 2015-konferansen gikk av stabelen 9-10. februar i London, med to påfølgende dager med workshops. Tema for konferansen var en oppsummering av de siste ti år på feltet og utfordringene framover. Interessant, utfordrende og mye å ta inn.

Keynote-speaker Tony Hey pekte på innføringer av standarder som en av de viktige tingene i løpet av de siste ti årene. Det gjelder både lagring og bevaring, men ikke minst interoperabilitet for åpne data. De nye utfordringene gjelder i stor grad det fjerde paradigmet: Data-intensiv forskning, hvor enorme mengder data som skal lagres og ikke minst bevaring. Organisering av tjenester blir like viktig som tilgjengligegjøring av data – workflow, tilgang, brukervennlighet. Hva skal lagres, og hvor lenge? Ikke minst er opphav «provenance» viktig. Hvor kommer dataene fra? Hvordan er de bearbeidet, manipulert, hvilke programmer er brukt etc.?

Kvalitetssikring av dataene er viktig for gjenbruk. Deling av data øker bruken, fremmer forskning og nytten overskrider kostnadene, iflg. JISC. Nettopp kostnader var et tema for mange. Forskningsinfrastrukturen må på plass, og hvordan skal den finansieres? Er det institusjonene, forskningsfinansiørene, det offentlige? Serverplass prises høyt, og noen steder tok institusjonen så mye for lagring at forskerne heller benyttet kommersielle tjenester.

Forskernes rolle er viktig. De må være ledende i utvikling av disse tjenestene, og forstå hva det vil si å være forsker i en digital virkelighet. Datahåndtering og bevaring må inn som en del av deres arbeidsflyt helt fra starten. Deres vilje til å dele data må utvikles der den ikke finnes, enten med pisk eller med gulrot – eller i realiteten en kombinasjon av disse. Data management plans og data policies er styringsredskaper som må på plass på nasjonalt og institusjonelt nivå. Finansiørene har sine sanksjonsmuligheter: Bevilgninger fornyes ikke, dersom forskerne ikke lagrer dataene som avtalt. Men dette blir ikke alltid fulgt opp der det er etablert som ordning.

Hva så med bibliotekenes rolle? Noen tok til orde for å flytte biblioteket tilbake til instituttene, for å integrere bibliotekarene i arbeidet med forskningsdata i større grad. Bibliotekenes kompetanse på metadata, opphavsrett og publisering ble sett på som ferdigheter som kunne transformeres over til også å gjelde forskningsdata. Og kontaktbibliotekarer ble sett som en ressurs inn mot forskerne for å etablere kontakt, informere og lære opp forskerne. Et samarbeid mellom forskere, IT og bibliotek synes naturlig for mange.

Oppsummert kan man si at det er driv og optimisme rundt dette, men hindringer i form av økonomi, infrastruktur, holdninger og tradisjoner. Videre må det forskes mer på gjenbrukbarheten til dataene og den faktiske bruken. Vi vil kanskje se nye måter å bygge og presentere kunnskap på (crowdsourcing, for eksempel) – hvordan vil den vitenskapelige kommunikasjonen endres, når vi fokuserer mer på data?

Det var flere workshoper i etterkant av konferansen. Jeg deltok på workshopen ”Training the trainers” – om undervisningsopplegg rundt forskningsdata for bibliotekarer og andre. Mange gode eksempler, men også klart at det er et krevende felt som krever mer enn et to-timers-kurs.

Konferansen samlet over 300 deltagere fra Europa og USA, men den skandinaviske kontingenten telte kun 8. Et tegn på at man er helt i startgropa med dette i vår del av verden, noe som også ble bekreftet i samtale med de andre skandinaviske deltagerne. Finland jobber med policyer og strategier – de ønsker open science inn i alle institusjonelle strategier og målet er open science som standard.

– Ellen Hermanrud

Hvordan sitere datasett?

How to Cite Datasets and Link to Publications

How to Cite Datasets and Link to Publications

Sitering av forskningsdata er en viktig faktor ved arkivering og deling av data. De mest kjente siteringsstilene har utviklet standarder for sitering til forskningsdata. Å sitere forskningsdata er ganske likt sitering av andre publikasjonstyper.

For at sitering av forskningsdata fra et arkiv skal være mulig, bør arkivet tilby en løsning med permanente lenker. Dette er en DOI, eller tilsvarende slik som Handle, Archival Resource Key (ARK) and Persistent URL (PURL).

I tillegg kan datasett har knyttet til seg en Unique Numeric Fingerprint (UNF). Dette er en henvisning til versjonen av data, for å sikre at data ikke er endret. Da kan denne referansen hentet fra et Dataverse arkiv se slik ut:

Frederico Girosi; Gary King, 2006, ‘Cause of Death Data’, http://hdl.handle.net/1902.1/UOVMCPSWOL
UNF:3:9JU+SmVyHgwRhAKclQ85Cg== IQSS Dataverse Network [Distributor] V3 [Version].

Utfordringen for siteringer er at man gjerne har en artikkel, et datasett, en kodebok, osv. som er med på å beskrive data. Dette betyr at flere referanser kan bli relativt like. Noen siteringsstiler ber om at man oppgir materialtype, altså spesifiserer at referansen er et datasett. Dette ser man for eksempel hos APA.

Interesserte kan studere detaljer nærmere i: Ball, A. & Duke, M. (2012). ‘How to Cite Datasets and Link to Publications’. DCC How-to Guides. Edinburgh: Digital Curation Centre: http://www.dcc.ac.uk/resources/how-guides

– Therese

Økt deling av forskningsdata?

I dag holdes konferansen Penger og Poeng hvor det akademiske miljøet debatterer åpen tilgjengelighet til vitenskapelig publisering. Open Access til publikasjoner er i fokus, men temaet åpen tilgjengeliggjøring av forskningsdata er på fremvekst.

Tilgjengeliggjøring av forskningsdata ble lansert som policy av Forskningsrådet i september 2014. Før etableringen av en policy, ble det gjort en undersøkelse blant forskere i Norge omkring deres holdninger til åpen tilgjengeliggjøring av forskningsdata. Undersøkelsen viste at forskere flest er positiv til å dele forskningsdata, men i praksis er det ikke mange som gjør dette. Grunnene til å ikke dele data er mange. Det ble pekt på mangel på infrastruktur for lagring og deling av data, og tidsbruk for å tilrettelegge data for deling. Frykt for at andre forskere ikke forstår data eller reduksjon i muligheten for fremtidige publikasjoner er andre usikkerhetsmomenter.

– Hva skal til for at forskere skal være motivert for å dele forskningsdata? Knowledge Exchange-rapporten «Sowing the seeds: Incentives and motivations for sharing research data, a researchers perspective» peker på en rekke tiltak for å øke deling av data. Å øke deling av data er en felles innsats blant mange aktører innen forskningen, slik som forskningsfinansiører, forskergrupper, forskningsinstitusjoner, forlag og dataarkiver.

Sowing the Seed

Her er noen foreslåtte tiltak for å øke åpen tilgjengelighet av forskningsdata:

  • Undervisning i forskningsmetode bør inkludere opplæring i hvordan forskningsdata kan deles. Dette er et viktig tiltak for at deling av data skal bli en del av forskningspraksisen.
  • Forskningsmiljøene må selv etablere en forventning i miljøet om åpenhet, og hva som de anser som «best practice» på eget fagfelt.
  • Forskningsinstitusjoner og finansiører kan kreve en plan for hvordan data fra prosjekter skal behandles, datahåndteringsplaner.
  • Det bør gis finansiering av kostnadene ved tilrettelegging og publisering av data.
  • Forskningsdata kan bli en del av vurderingskriterene ved ansettelser eller forfremmelser.
  • Det må være tilgjengelige rådgivningstjenester for hvordan tilrettelegging for lagring og deling av data kan gjøres
  • Det bør være gode, stabile koblinger mellom publikasjoner og tilhørende data.
  • Arkiver for forskningsdata bør finnes i registre for forskningsdata, og det bør være mulig å søke opp datasett integrert i litteraturdatabaser/bibliotekkataloger.

– Therese

Datatidsskrifter

Har du hørt om den nye typen tidsskrifter? I løpet av de siste 2-3 årene er det opprettet mange datatidsskrifter (Data Journals). Dette er en kategori av tidsskrifter som publiserer artikler om datasett.  Datatidsskrifter skiller seg fra de fleste andre tidsskrifter, hvor fokus er på resultatene fra forskningen eller en beskrivelse av selve forskningsmetoden.

Tidsskriftene gir andre forskere hjelp til å finne informasjon om datasett, og er et virkemiddel for å øke gjenbruk av forskningsdata. For forfatterne er dette en måte å få anerkjennelse for data som de selv har samlet inn.

En dataartikkel vil fokusere på å beskrive et datasett. Det kan inneholde informasjon omkring hvordan data er innsamlet, hvordan det er behandlet, hvilken programvare som er brukt filformater o.l. Leseren skal ha mulighet til å forstå når, hvordan og hvorfor data ble samlet inn.

Når en forsker vil publisere i et datatidsskrift, møter hun de samme kravene som ved øvrige tidsskriftpublikasjoner. Tidsskriftet kan være fagfellevurdert, open access eller abonnementsbasert.

Det kan være krav om at datasettene skal være arkivert i bestemte arkiver eller i tilknytning til arkiv fra tidsskriftforlaget.

Beskrivelser av data eller metadata må gjerne følge bestemte standarder. Det kan være krav om at data skal ha permanente lenker, som DOI eller lignende. Det er vanlig at det lenkes direkte til datasettet som omtales. I mange tilfeller fremheves det hvordan datasettet skal siteres. Koblinger til andre artikler som omtaler resultater er viktig for å gi tilleggsinformasjon om hva resultatene av forskningen viste.

Forfatteren må ta stilling til opphavsrett når de ønsker å publisere en artikkel. I tillegg kan det ved publisering i datatidsskrift være krav om at data skal ha bestemte lisenser eller bestemte muligheter for leseren for å få tilgang til data.

Datatidsskrifter finnes etterhvert innen mange fagområder. Her er noen eksempler:

Flere eksempler på datatidsskrift kan finnes hos Katrine Akers: A Growing List of Data Journal. Data@MLibrary: http://mlibrarydata.wordpress.com/2014/05/09/data-journals/

– Therese

 

NorStore Research Data Archive

NorStoreForrige uke var jeg på det første NorStore Research Data Training Seminar som ble holdt på campus ved Universitetet i Oslo.

NorStore Research Data Archive er et tilbud til forskere i hele landet ved alle fagfelt. NorStore retter seg inn mot offentlig finansiert forskning. Arkivet er for datasett knyttet til publisert forskning.

Forskeren må gi opplysninger om datasettet og hvem som skal ha råderett over data. Det garanteres tilgjengelighet av data inntil 10 år.

Informasjon om datasettene som er lagret i arkivet er offentlig tilgjengelig. Du kan søke opp datasett på nettsiden til arkivet: https://www.norstore.no/services/archive

Dersom du ønsker tilgang til forskningsdata, så må du henvende deg til forskeren/forskergruppen for å få tillatelse.

For en forsker som ønsker å laste opp data til arkivet kreves brukernavn og passord. De fleste forskere kan bruke sitt vanlige brukernavn og passord, siden dette er knyttet til brukertilgangen som universiteter og høyskoler har gjennom FEIDE.

Datasett kan lastes opp via en nettløsning. Dersom datasettet er større enn 5 GB, så kan kommandobasert opplasting brukes. Filene blir låst i den versjonen som de lastes opp i.

Research Data Archive er en av flere tjenester fra NorStore. Arkivet ble lansert i mars 2014. Arkivet skal evalueres i løpet av 2015. Andre tjenester fra NorStore er:

Project Area er en plattform hvor man kan lagre store datasett, og gi tilgang til en forskningsgruppe. Offentlig finansierte prosjekter kan søke om å få bruke prosjektområdet.

Tjenester for sensitive data (TSD) er muligheter for å lagre data som inneholder personsensitive opplysninger, både helseopplysninger og andre sensitive data. Tjenesten er utviklet ved USIT i samarbeid med Norstore. Dette er nå et nasjonalt tilbud.

– Therese

Har du talt fugler?

Dompap Opphavsrett: Eli Brager

Dompap
Opphavsrett: Eli Brager

Det nærmer seg jul. Kanskje du har hengt ut fuglenek og meiseboller?  I løpet av juledagene er det mange som nyter synet av våre små fuglevenner nær hus og hytter. Kanskje du har talt fugler? Fra hager i hele landet telles det hvor mange fugler som er på besøk og hvilken art fuglene tilhører.

Men hva har dette med forskningsdata å gjøre? Den generelle utviklingen av teknologi og økt bruk av internett i befolkningen har gjort det mulig for forskerne å operere utenfor den tradisjonelle forskningskonteksten. Dette betyr at det er mulig å samle inn data på andre måter enn tidligere. Forskerne får mulighet til å skaffe seg et annet datagrunnlag enn tidligere. Større tilgang på informasjon fører til nye måter å kommunisere ut informasjonen, organiseres og kombinere og informasjon og data.

Hagefugltellingen har foregått årlig fra 2008 i regi av Norsk ornitologisk forening. I Hagefugltellingen 2014 ble det talt 300 000 fugler i 5200 hager rundt om i landet.

Skulle du ha lyst til å teste ut selv i julen? Hvorfor ikke telle Fugler ved foringsplassen?

Ha en riktig fin julefeiring!

– Therese

 

NB-prosjektet på BI

Når vi startet bloggen nevnte jeg at vi har fått tildelt midler fra Nasjonalbiblioteket. Midlene skal brukes for å finne hvordan det lokale, institusjonelle forskningsdataarkivet BIRD forholder seg til andre aktører for avlevering og lagring av forskningsdata. Frem til nå har forberedelser vært i fokus. Nå er det snart klart for å ta steget videre. Jeg har laget en foreløpig beskrivelse:

Forskningsdata i Norge – hva tilbyr de største aktørene?

Norske forskere har pekt på en rekke forhold som hinder deling av forskningsdata. Mangel på teknisk infrastruktur og tid til å forbedre data for arkivering nevnes. Skepsis til åpne forskningsdata i frykt for at det skal hindre vitenskapelig publisering i fremtiden er en annen faktor. Er forskernes tvil begrunnet?

Internasjonalt er det identifisert funksjonalitet og støttetjenester som kan benyttes i arkiver for forskningsdata. Funksjonaliteten vil ivareta mange av forskernes bekymringer omkring lagring og deling av forskningsdata.

Dette gjør det interessant å se på hvilke tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata. Denne presentasjonen vil se på hva de største, nasjonale aktørene for datalagring tilbyr til forskerne i Norge.

Resultatene kan bidra til en begynnende avklaring om oppgaver og arbeidsfordeling mellom utdanningsinstitusjonen, fag- og forskningsbibliotekene og dataarkiv.

– Skal du på BIBSYS-konferansen 2015? Da kan du høre resultatene. Stikk gjerne innom sesjonen om forskningsdata 11. mars kl. 12.30.

– Therese