Måned: september 2014

UiT Dataverse Network

Universitetsbiblioteket i Tromsø er først ut i Norge med open source programvaren Dataverse som brukes til å lage forskningsdataarkiver. Da UiT i sommer lanserte arkivet TROLLing ble dette tatt inn som en del av UiT Dataverse network .

Leif Longva

Leif Longva

Jeg har spurt Leif Longva ved avdeling for IT, formidling og utvikling om deres erfaringer så langt og planer fremover.

– Hvorfor valgte dere Dataverse?

Det var en henvendelse fra fagmiljøet i lingvistikk som fikk fart på våre planer om å opprette et arkiv for forskningsdata. Vi ser dette som en naturlig fortsettelse av arbeidet med vårt institusjonelle arkiv, Munin, og Open Access tidsskrifter. Føringene i Horizon 2020 omkring datalagring har vært viktig.

Dataverse ble valgt fordi vi ønsket et system som var tilpasset formålet lagring av forskningsdata. Vi likte måten som organiseringen av forskningsdata var og hvordan man kan administrere data i systemet. Installasjonen er basert på Open Source, og kommer fra Harvard universitet som er anerkjent. På forhånd hadde vi en del spørsmål som vi fikk avklart med Universitetet i København. De har en Dataverse installasjon kalt DataBox. Det var også medvirkende til valget.

– Hvordan har dere organisert arbeidet med UiT Dataverse Network?

Når vi først startet arbeidet ble det det satt ned en prosjektgruppe, hvor fagmiljøet i lingvistikk kom med innspill med deres ønsker omkring et forskningsdataarkiv, og var med på å velge metadata-felt. Fra bibliotekets side har fire personer ved avdeling ved IT, formidling og utvikling, blant annet våre to systemteknikere. I tillegg har to fagreferenter som er knyttet til fagmiljøene innen lingvistikk vært koblet på. Fagreferentene har en rolle i forhold til administrering av informasjonen i systemet, hvor de ser på innholdet som legges ut, og gjør en tilpasning av metadata.

Når vi har en forskningsdatainstallasjon innomhus gir det oss en bedre kontakt mellom fagmiljøene og forskernes behov. Vi finner det veldig nyttig. I tillegg gir dette kontroll med hvilke endringer i systemet vi kan gjøre.

– Hvordan synes dere arbeidet har fungert så langt?

Totalt sett, så synes arbeidet med Dataverse og opprettelsen av arkivet TROLLing har fungert bra. Det er vanskelig å si hvor mange ressurser vi har brukt på arbeidet så langt. Installasjonen er ikke like enkel å få til som for eksempel dSpace, og vi arbeidet litt med server tilgangen. Metadata krever litt tilpasninger. Prosjektgruppen har gjort sitt arbeid. Det var viktig å få arkivet på plass, og vi ser muligheter for videreutvikling.

– Har dere noen tanker for videre arbeid?

Vi ønsker å utvikle arkivet videre. Vi åpner for at flere fagmiljø ved Universitetet i Tromsø kan legge ut sine forskningsdata.

På den mer tekniske siden er vi i forhandlinger for å kjøpe DOI. I dag bruker vi Handle, slik at vi kommer til å tilby begge lenketyper. Nye oppdateringene som er planlagt fra Dataverse innebærer at de utvider sine metadata til å omfavne fagområder som astrofysikk og biomedisin.

Det hadde vært kjekt om flere fagmiljøer og bibliotek i Norge vil etablere Dataverse-arkiver.

– Therese

TROLLing i Tromsø

Trolling

Fagmiljøet ved Lingvistikk og Universitetetsbiblioteket ved Universitetet i Tromsø utført litt magi og skapt TROLLing. TROLLing står for The Tromsø Repository of Language and Linguistics. 18. juni i år ble det nye arkivet for lagring  og deling av forskningsdata lansert.

Dette faglige forskningsdataarkivet er tilpasset lingvistiske data og statistisk kode. Arkivet inneholder søkbare metadata som identifiserer forskere, språk, fenomen, statistiske metoder og publikasjoner. Forskere innen feltet kan selv laste opp databaser og statistiske modeller. Arkivet vil være åpent for forskere som arbeidet på feltet. Dette betyr at det også er åpent for forskere som ikke er tilknyttet Universitetet i Tromsø.

TROLLing er utviklet i samarbeid med det europeiske nettverket CLARIN (Common Language Resources and Technology Infrastructure).

Arkivet er et samarbeid mellom fagmiljøet ved Insitutt for språkvitenskap og Universitetsbiblioteket. Fagmiljøet har nedsatt et internasjonalt styre som kvalitetskontrollerer innhold. Biblioteket har ansvaret for de tekniske og rettslige aspektene.

Vi håper arkivet blir populært blant språkforskerene, og får mye nyttig innhold.

Gratulerer med et nytt arkiv!

– Therese

Norsk policy for forskningsdata

Forskningsdata skal være åpent tilgjengelig, når data er helt eller delvis finansiert med offentlige midler. Dette er Forskningsrådets policy for tilgjengeliggjøring av forskningsdata.

Data kan unndras tilgjengeliggjøring på grunnlag av sikkerhet, personvern, juridiske eller kommersielle forhold. Andre forhold kan komme i betraktning, men da må det ha store konsekvenser av økonomisk eller praktisk art.

Forskningsdata defineres som registeringer, nedtegnelser eller rapporteringer i form av tall, tekster, bilder og lyder som genereres eller oppstår i forskningsprosjektet. Kildedata, slik som kliniske data, værdata eller tekstkorpus, faller utenfor definisjonen. Grunnen er at data er innsamlet eller bearbeidet av andre.

Tilgjengeliggjøring av forskningsdata

Tilgjengliggjøring av forskningsdata

Forskningsrådets policy «Tilgjengeliggjøring av forskningsdata» blir supplert av retningslinjer. Retningslinjene gir flere detaljer omkring hvordan data bør behandles.

Data bør legges i sikre arkiver, med standardiserte metadata og ha internasjonale lisenser for bruk knyttet til seg.

Når forskeren publiserer en vitenskapelig artikkel, så bør tilhørende data være publisert. Andre data skal gjøres tilgjengelig senest 3 år etter endt prosjekt. Forskeren må ta stilling til en plan for bevaring av data, slik at data som vurderes å ha verdi på lang sikt forvaltes. Dersom data ikke har langvarig verdi, så må tidspunkt for destruering etter en viss tid vurderes.

Forskningsrådet forklarer at de forventer at policy og retningslinjer vil revideres etterhvert. De er klar over at det gjenstår en del arbeid på feltet lagring og deling av forskningsdata. Det legges vekt på at Forskningsrådet skal bidra til arbeidet fremover, blant annet ved å investere i infrastruktur og verktøy. De vil bistå med å tilrettelegge for arbeidsdeling gjennom å skape møteplasser og rådgivningsvirksomhet. Planer for datahåndtering vil inkluderes i søknadsprosessen, og ved oppfølgingen av prosjekter. De vil opprettholde krav i kontrakter om minimum 10 års arkivering av data, og lage en oversikt over godkjente infrastrukturer for lagring, arkivering og tilgjengeliggjøring av data.

Å lagre og dele forskningsdata kan innebære kostnader. Dersom man vil gjenbruke data som er delt, så kan dette innebære en kostnad for brukeren. Forskningsrådet anbefaler at tilgang til data skal gis til en lavest mulig kostnad. Når man søker om forskningsmidler kan kostnader til arkivering, tilgjengeliggjøring og deling inkluderes i søknadssummen.

Forskningsrådet oppfordrer til at forskningsinstitusjonene utformer sine egne policyer og retningslinjer for tilgjengeliggjøring av forskningsdata.

Grunnen til at Forskningsrådet etablerer sin policy er å følge opp OECD og EUs policyer og retningslinjer. For at forskningen skal kunne flytte grenser er det viktig at den bygger på tidligere arbeider, mulighet for etterprøving av forskningsresultater og legger grunnlag for samarbeid og innovasjon.

Mer om bakgrunn, andre policyer og datahåndteringsplan kan leses i tidligere poster:

– Therese

DMP i Horizon 2020

Forrige post tok for seg EUs policy for data, og krav om Data Management Plan [DMP] i Horizon 2020. Jeg håper flere detaljer vil gi et bedre inntrykk av hva en DMP er. Legg merke til at andre forskningsfinansiører eller universiteteter kan ha andre krav til innhold i en DMP.

Vedleggene, Annex 1 og 2, i Guidelines on Data Management oppramser elementer i en Data Mangement Plan. Dette er mine egne forklaringer og en forkortet oversettelse av innholdet i de to vedleggene. Jeg anbefaler hele beskrivelsen, dersom man skal lage en Data Management Plan til Horizon 2020.

Felles for elementene som inngår i Annex 1 og Annex 2 i en DMP til Horizon 2020 et at de skal omfatte alle datasett som lages av forskningsprosjektet.

Annex 1 tar for seg elementer som skal inngå i den første versjonen av planen. Planen skal være klar innen de 6 første månedene av prosjektet. Den skal vise til tankene forskningsgruppen har om data som skal produseres.

Innledningsvis bør det oppgis en referanse til datasettet og navn, slik at man kan ha en identifikator for datasettet.

Videre må datasettet beskrives. Dette innebærer at forskeren forteller mer om følgende:

  • Hvilke data genereres eller samles inn?
  • Hvem kan ha nytte av et slikt datasett (målgruppen)?
  • Er datasettet grunnlaget for en vitenskapelig publikasjon?
  • Finnes det lignende data fra tidligere (eller ikke?)
  • Hvilke muligheter vil det finnes for integrasjon med andre lignende data?
  • Finnes det muligheter for gjenbruk av de innsamlede data?

Standarder og metadata er det neste som skal beskrives. Det oppfordres til at det brukes metadatastandarder innen fagområdet. Hvis en standard for metadata ikke finnes, må man skissere en oversikt over hvordan og hvilke metadata som vil lages.

Målet for EU er at data i størst mulig grad skal deles, derfor må man beskrive hvilke muligheter eller begrensninger som datasettene har for datadeling. Dette innebærer at man må oppgi:

  • Tilgangsprosedyrer
  • Har data en embargoperiode før de kan gjøres tilgjengelig?
  • Hvilke tekniske forutsetninger er det for deling av data med andre? Er det behov for programvare eller andre verktøy for at andre skal kunne gjenbruke data?
  • Vil andre ha tilgang til data? Vil data ligge åpent tilgjengelig, eller er det bare enkelte brukergrupper som skal ha tilgang? Dersom datasettet ikke kan deles, må årsakene til dette oppgis. Er det personvern, opphavsrett, kommersiell, etiske  eller sikkerhetsrelaterte hensyn som er årsaken?
  • Hvilket arkiv vil data lagres i? Hva slags arkiv er dette (institusjonelt arkiv, arkiv innen fagområdet osv.)?

Under temaet arkivering og oppbevaring skal man belyse lagring og back-up av data. En beskrivelse av prosedyrene som vil benyttes ved langtidslagring av data skal med. Videre skal forskningsgruppen ha tanker om hvor lenge data bør lagres, og hvor stor datamengde dette kommer til å utgjøre på slutten av prosjektet.

Å lagre data er ikke gratis. Forskergruppen forventes å estimere hvilke kostnader datalagring vil medføre, og hvordan man planlegger å dekke kostnadene.

Annex 2 handler om oppdatering av planen på et senere tidspunkt i prosjektet. Vedlegget berører mange av de samme temaene som finnes i Annex 1.Etterhvert som et forskningsprosjekt utvikler seg kan dette ha innvirkning på datalagring og -deling.

Forskningsdata skal være lett gjennfinnbare. Dette innebærer i praksis å fortelle om man har brukt standard programvare eller egenutviklet programvare. I tillegg skal man se på det om de enkelte datasettet kan identifiseres med en standardisert identifikasjonsmekanisme (slik som DOI) .

Tilgjengeligheten av data revurderes. Er data og programvare tilgjengelig? I hvilket omfang er data tilgjenglig? Hvilke begrensninger finnes det eventuelt på data? (Lisensbetydning, embargo, kommersiell utnyttelse)

Etterprøvbarhet av data regnes som en av styrkene ved å dele forskningsdata. Noen av spørsmålene i DMP reflekterer dette:

  • Er data og anvendt programvare tilgjengelig for en tredjepart for innsyn og etterprøvbarhet for datasett?
  • Finnes det koblinger mellom datasett til øvrige vitenskapelige publikasjoner?
  • Vil tilgjengelighet av data gjøre det mulig å si noe om reliabiliteten til data? Eller kan man si noe om kompetansen til de som utarbeidet undersøkelsen eller utført datainnsamlingen?

Andre spørsmål som berører gjenbruk av lagrede data stilles:

  • Kan data og programvaren brukes av en tredjepart lenge etter at den var innsamlet?
  • Er det brukt standarder for dataannotering eller datautveksling?
  • Kan dataformatet brukes i annen programvare enn den som ble brukt opprinnelig? Er data lagret i sertifiserte arkiver for langtidsoppbevaring og bevaring ?
  • Er data lagret sammen med programvare, metadata og dokumentasjon, slik at data kan brukes lenge etter innsamling?
  • Kan data brukes av allmennheten (ikke-spesialister). Dette viser tilbake til anonymisering av data og lisens for bruk.

For en fullstendig oversikt, se Guidelines on Data Management in Horizon 2020.

GuidelinesOnDataManagement

– Therese

Guidelines for Data Management in Horizon 2020

EUs søknadsmidler i Horizon 2020 er ettertraktet. Etterhvert kommer søknaden til kreve en Data Management Plan. Datahåndteringsplan, eller DMP, er en plan for hvordan data fra prosjektet skal oppbevares og eventuelt deles.  EU-publikasjonen utgitt i desember 2013 er et policy notat og inneholder noen retningslinjer:

Guidelines On Data Management

European Commission. 2013. Guidelines on Data Management in Horizon 2020: The EU Framework Programme for Research and Innovation.

 

 

 

 

 

 

 

 

 

 

Føringene er som følger:

Regarding the digital research data generated in the action (‘data’), the beneficiaries must:

(a) deposit in a research data repository and take measures to make it possible for third parties to access, mine, exploit, reproduce and disseminate — free of charge for any user — the following:

(i) the data, including associated metadata, needed to validate the results presented in scientific publications as soon as possible;

(ii) other data, including associated metadata, as specified and within the deadlines laid down in the data management plan (see Annex I);

Min oppsummering av hovedpoengene er:

Policyen er at det må avgis en plan, samt at forskerne forpliktet til å lagre data.
Forskerne er ikke forpliktet til å gjøre data åpent tilgjengelig.
Dersom man ikke er villig til å gjøre data åpent tilgjengelig, så må det begrunnes.

Til å begynne med vil EU ha et pilotprosjekt for lagring av forskningsdata og Data Management Plan. Dette omtales som Open Research Data Pilot. Open Research Data Pilot skal tas i bruk fra 2014-2015, hvor man skal levere et førsteutkast av en DMP innen de første 6 månedene av prosjektet. Det blir sagt at DMP forventes å utvikles i løpet av prosjektet, slik at man kan regne mer å få en videreutvikling av planen senere.

Programmene som berøres av Open Research Data Pilot er:

  • Future and Emerging Technologies
  • Research infrastructures – part e-Infrastructures
  • Leadership in enabling and industrial technologies – Information and Communication Technologies
  • Societal Challenge: ‘Secure, Clean and Efficient Energy’ – part Smart cities and communities
  • Societal Challenge: ‘Climate Action, Environment, Resource Efficiency and Raw materials’ – except raw materials
  • Societal Challenge: ‘Europe in a changing world – inclusive, innovative and reflective Societies’
  • Science with and for Society

Søkere til andre programmer kan bidra, men det frivillig.

Detaljene for skriving av DMP i søknaden skal finnes i Participant Portal innen utgangen av 2014, og støttetjenester forventes å være på plass i løpet av 2015. I skrivende stund vises det kun retningslinjene, Guidelines in Data Management in Horizon 2020.

Følg med! Mer om Data Management Plans i senere poster.

– Therese

5 faser for forskningsdata i universitets- og høyskolesektoren

Høyere utdanningsinstitusjoner i Norge tilbyr noen tjenester innen forskningsdata, og flere tjenester er under planlegging.

Digital Curation Center ligger i Edinburgh, og er en av de verdensledende innen bevaring av forskningsdata. De beskriver 5 faser som forskningsdata gjennomgår fra begynnelsen til slutt i forskningsprosessen.

Research Data Management Service Cycle

Research Data Management Service Cycle

Per dags dato er det ingen høyere utdanningsinstitusjoner i Norge som tilbyr tjenester innen alle de 5 fasene som Digital Curation Center viser til:

1. Ved oppstarten av et forskningsprosjekt vil forskeren opprette og skrive en datahåndteringsplan (Data Management Plan). Dette er et krav fra utdanningsinstitusjonen eller forskningsfinansiører, og gjøres ofte ved søknad om forskningsmidler.

2. Under selve forskningsprosessen berøres forskerens håndtering av data (Managing Active Data).

3. Rett etter forskningsprosjektets avslutning blir det gjort en utvelgelse av data som skal tas vare på videre (Data Selection and Handover).

4. Lagring av data i arkivløsninger (Data Repositories) gjøres etter forskningsprosjektet. Data tilrettelegges for langtidslagring.

5. Deling av de data som er tatt vare på bør formidles. Dette kan gjøres gjennom datakataloger (Data Catalogues). Dette er en hjelp til at andre forskere kan finne tilbake til data, og data kan gjenbrukes.

Det som skjer i forskningsprosessen utgjør de 5 fasene. Universitetene og høyskolene utgjør en viktig kontekst og støttefunksjon for forskeren. Digital Curation Center fremhever viktigheten av at institusjonene har en strategi og handlingsplan for datahåndtering.

For mange høyere utdanningsinstitusjoner vil arbeidet med forskningsdata gjennom hele forskningsprosessen være en ny virksomhet. De anbefaler at det lages en egen forretningsplan for aktiviteten. De peker også at det er behov for støtte og undervisning  for forskere gjennom hele forløpet.

Figuren er hentet fra:
Jones, S., Pryor, G. & Whyte, A. (2013). ‘How to Develop Research Data Management Services – a guide for HEIs’. DCC How-to Guides. Edinburgh: Digital Curation Centre. Tilgjengelig fra: http://www.dcc.ac.uk/resources/how-guides

– Therese

Målet er å øke forskningens samfunnsnytte

“OECD Guidelines and Principles for Access to Research Data from Public Funding” (2007) omtaler at innovasjon innen forskning er nødvendig for å løse globale utfordringer som energi, helse, klima og naturressurser. Utveksling av ideer, kunnskap og data er grunnleggende for utvikling. Hurtig utvikling av datateknologi og internett fører til nye muligheter for anvendelser av forskningskildene, dvs. forskningsdata. Med dette utgangspunktet ønsker OECD at medlemslandene skal:

  • Fremme en kultur for åpenhet, tilgang og deling av forskningsdata blant forskningssamfunnet
  • Øke oppmerksomheten omkring fordeler og ulemper ved tilgang eller deling av data, og eventuelle kostnader
  • Vise behovet for regulering og etablering av praksis for datatilgang og deling i medlemslandenes forskningspolitikk
  • Gi et felles rammeverk  av forskningsdatatilgang (operasjonalisering)
  • Gi anbefalinger om hvordan internasjonal forskingsdatadeling og formidling kan gjøres.

Dette gir en idealisme om hvordan forskningen kan utvikle seg videre, og hvordan samfunnet vil nyte godt av forskningen. Forskningsdata som OECD omtaler, er utført av offentlige etater eller er tildelt midler fra offentlige kilder. Å kunne tilgjengeliggjøre faktainformasjon er en god forvaltning av offentlige investeringer gjennom faktainformasjon.

Tilgang til forskningsdata medfører en økt «return of investment» ved offentlige midler. Tanken er å si at «flere hoder tenker bedre enn ett». Håpet er at det skal oppstå nye måter å koble tema for forskningen sammen, slik at nye områder belyses. Ved tilgang på data, kan data brukes til å teste av nye eller alternative hypoteser og analysemetoder. Dette vil være rasjonelt ved at data som er innsamlet kan resultere i flere analyser og meninger, og synliggjør nye, mulige arbeidsområder for forskningen.

For forskeren vil deling av forskningsdata bidra til synliggjøring av forskeren. Dette kan skape nye relasjoner og samarbeidsmuligheter.

På denne måten, så vil det kunne skapes sterke verdikjeder for innovasjon. Data kan kombineres fra flere kilder og gir ny kunnskap. Kunnskap som man ikke hadde muligheter til å få frem uten åpne data. Dette skaper ny forsking. Deling av data vil gi en større åpenhet omkring vitenskapelige undersøkelser, og forskningen styrkes gjennom muligheter for etterprøvbarhet.

– Therese

Norge har en «Soft Law» om forskningsdata

Forskningsrådet har varslet om at de i løpet av denne uken vil annonsere sin nye policy om tilgjengeliggjøring av forskningsdata. De neste postene vil se litt på bakgrunnen til hvorfor Forskningsrådet har satt i gang arbeidet med å lage en policy. Siden det finnes mange definisjoner på forskningsdata, blir det interessant å se hvilken definisjon av forskningsdata som legges til grunn.

Norge er medlem i en rekke internasjonale organisasjoner, slik som FN eller tilknyttet EU. Disse organisasjonerne fremsetter retningslinjer for hvor det internasjonale samfunnet er på vei. Norge er medlem i «Organisation for Economic Co-operation and Development” [OECD]. Medlemskapet «… provides a setting where governments can compare policy experiences, seek answers to common problems, identify good practice and work to co-ordinate domestic and international policies» innen områdene miljø, økonomiske og sosiale tema.

Forskningsdata er et av temaene som OECD har tatt opp, og har blitt til en «soft law». En «soft law» er retningslinjer som inneholder anbefalinger, men det er opp til medlemsorganisasjonene om de vil gjøre den politisk forpliktende og implementere prinsippene og retningslinjene.

Norge kan derfor velge om de vil legge til grunn definisjonen omkring forskningsdata slik som den er fremstilt av OECD i «Priciples and Guidelines for Access to Research Data from Public Funding».

Research data are defined as factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings” (OECD 2007).

OECD understreker at ikke alt faller inn i definisjonen for forskingsdata. Definisjonen legger vekt på primærdata som anvendes i forbindelse med forskningsresultater, og valideringen av disse. Det som faller utenfor definisjoen på forskningsresultater er laboratorierapporter, foreløpige analyser, utkast til vitenskapelige artikler, planer for fremtidig vitenskapelig forskning, fagfellevurderinger eller personlige kommunikasjon med kollegaer eller fysiske gjenstander slik som laboratorieprøver, bakteriekulturer eller forsøksdyr. Dette betyr at faglige diskusjoner og bearbeidede opplysninger  faller utenfor.

Det er gått en del år siden definisjonen og «soft law» kom. Bare noen få dager nå, så får vi klarhet i hva Forskningsrådet legger til grunn.

– Therese

Hva er forskningsdata?

Forskningsdata er et tema som kan være vanskelig å få tak på. Det brukes mange ulike begreper som kan være ukjent for mange. Forskningsdata omtales på mange ulike nivåer. Det er mange aktører med i diskusjonene.

Dessverre finnes det ingen klar og entydig definisjon på hva forskningsdata er. En tydelig definisjon hadde vært en fordel for arbeid med forskningsdata.

Den enkleste måten å få en beskrivelse av hva forskningsdata kan være, er gjerne ved å se på en bok om forskningsmetode.  «Metodebok for mediefag» av Østbye, Helland, Knapskog og Larsen (2013) viser til at forskning skal si noe om virkeligheten, hvor materialet som samles inn ofte omtales som data. Data grupperes gjerne i kvalitative data eller kvantitative data. Kvantitative data kan tallfestes eller telles, mens kvalitative data er erfaringsmateriale.

Ulike typer data er koblet til måten som informasjon er samlet inn på og behandlet. Data kan forekomme i mange ulike formater og filtyper, slik som tekstdokumenter, statistikkfiler, laboratorienotater, feltnotater, kodebøker, lydfiler, bilder, video, gensekvenser, databaseinnhold, skript, algoritmer og operasjonsprosedyrer m.m.

Det snakkes ofte om forskningsdata på ulike nivåer basert på hvor bearbeidet data er. Da omtales de for eksempel som rå (ubearbeidet), prosessert (tilrettelagt for analyser) eller publisert.

Kanskje er ikke forskningsdata er så mystisk likevel?

– Therese