Arkiver

Siste nytt – Bibsyskonferansen

Det er gått en stund siden siste innlegg på bloggen. Det har vært en travel tid, men her kommer en liten oppdatering. I midten av mars var jeg på Bibsys-konferansen. Digitalt akademia var det overordnede temaet. Jeg var positivt overrasket over hvor mange av presentasjonene som nevnte forskningsdata som en mulig oppgave for bibliotekene fremover. På konferansen holdt jeg et av innleggene på parallellseksjonen om Forskningsdata nasjonalt og lokalt. Dette har jeg fortalt om tidligere i posten NB-prosjektet på BI. Prosjektet har som mål å skrive en rapport som beskriver hvilket tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata.

Presentasjonen med lydopptak kan finnes her:

Skagen, Therese (11.03.2015) Forskningsdata i Norge – Hva tilbyr de største aktørene? Presentasjon fra BIBSYS-konferansen, 10-11.03.15: http://www.bibsyskonferansen.no/opptak-fra-konferansen/

Først er presentasjonen til Ellen Hermanrud og Frode Bakken, som fortalte om sin dSpace installasjon for forskningsdata ved Høyskolen i Telemark. Min presentasjon finner dere halvveis etter ca. 25 min. Det var kjekt å se mange i salen, og få flere aktuelle spørsmål i etterkant.

NB-prosjektet på BI er i en avslutningsfase nå. Rapporten tar for seg i større detalj hvilke krav til funksjonalitet til forskningsdataarkiv møter, og gir et øyeblikksbilde av to av Norges forskningsdataarkiver. Rapporten kommer på bloggen om en liten stund.

Jeg skriver for øyeblikket på min masteroppgave om forskningsdata. Den har ikke vært omtalt på bloggen enda. Mer kommer…

– Therese

Datatidsskrifter

Har du hørt om den nye typen tidsskrifter? I løpet av de siste 2-3 årene er det opprettet mange datatidsskrifter (Data Journals). Dette er en kategori av tidsskrifter som publiserer artikler om datasett. Datatidsskrifter skiller seg fra de fleste andre tidsskrifter, hvor fokus er på resultatene fra forskningen eller en beskrivelse av selve forskningsmetoden.

Tidsskriftene gir andre forskere hjelp til å finne informasjon om datasett, og er et virkemiddel for å øke gjenbruk av forskningsdata. For forfatterne er dette en måte å få anerkjennelse for data som de selv har samlet inn.

En dataartikkel vil fokusere på å beskrive et datasett. Det kan inneholde informasjon omkring hvordan data er innsamlet, hvordan det er behandlet, hvilken programvare som er brukt filformater o.l. Leseren skal ha mulighet til å forstå når, hvordan og hvorfor data ble samlet inn.

Når en forsker vil publisere i et datatidsskrift, møter hun de samme kravene som ved øvrige tidsskriftpublikasjoner. Tidsskriftet kan være fagfellevurdert, open access eller abonnementsbasert.

Det kan være krav om at datasettene skal være arkivert i bestemte arkiver eller i tilknytning til arkiv fra tidsskriftforlaget.

Beskrivelser av data eller metadata må gjerne følge bestemte standarder. Det kan være krav om at data skal ha permanente lenker, som DOI eller lignende. Det er vanlig at det lenkes direkte til datasettet som omtales. I mange tilfeller fremheves det hvordan datasettet skal siteres. Koblinger til andre artikler som omtaler resultater er viktig for å gi tilleggsinformasjon om hva resultatene av forskningen viste.

Forfatteren må ta stilling til opphavsrett når de ønsker å publisere en artikkel. I tillegg kan det ved publisering i datatidsskrift være krav om at data skal ha bestemte lisenser eller bestemte muligheter for leseren for å få tilgang til data.

Datatidsskrifter finnes etterhvert innen mange fagområder. Her er noen eksempler:

Flere eksempler på datatidsskrift kan finnes hos Katrine Akers: A Growing List of Data Journal. Data@MLibrary: http://mlibrarydata.wordpress.com/2014/05/09/data-journals/

– Therese

NorStore Research Data Archive

Forrige uke var jeg på det første NorStore Research Data Training Seminar som ble holdt på campus ved Universitetet i Oslo.

NorStore Research Data Archive er et tilbud til forskere i hele landet ved alle fagfelt. NorStore retter seg inn mot offentlig finansiert forskning. Arkivet er for datasett knyttet til publisert forskning.

Forskeren må gi opplysninger om datasettet og hvem som skal ha råderett over data. Det garanteres tilgjengelighet av data inntil 10 år.

Informasjon om datasettene som er lagret i arkivet er offentlig tilgjengelig. Du kan søke opp datasett på nettsiden til arkivet: https://www.norstore.no/services/archive

Dersom du ønsker tilgang til forskningsdata, så må du henvende deg til forskeren/forskergruppen for å få tillatelse.

For en forsker som ønsker å laste opp data til arkivet kreves brukernavn og passord. De fleste forskere kan bruke sitt vanlige brukernavn og passord, siden dette er knyttet til brukertilgangen som universiteter og høyskoler har gjennom FEIDE.

Datasett kan lastes opp via en nettløsning. Dersom datasettet er større enn 5 GB, så kan kommandobasert opplasting brukes. Filene blir låst i den versjonen som de lastes opp i.

Research Data Archive er en av flere tjenester fra NorStore. Arkivet ble lansert i mars 2014. Arkivet skal evalueres i løpet av 2015. Andre tjenester fra NorStore er:

Project Area er en plattform hvor man kan lagre store datasett, og gi tilgang til en forskningsgruppe. Offentlig finansierte prosjekter kan søke om å få bruke prosjektområdet.

Tjenester for sensitive data (TSD) er muligheter for å lagre data som inneholder personsensitive opplysninger, både helseopplysninger og andre sensitive data. Tjenesten er utviklet ved USIT i samarbeid med Norstore. Dette er nå et nasjonalt tilbud.

– Therese

NB-prosjektet på BI

Når vi startet bloggen nevnte jeg at vi har fått tildelt midler fra Nasjonalbiblioteket. Midlene skal brukes for å finne hvordan det lokale, institusjonelle forskningsdataarkivet BIRD forholder seg til andre aktører for avlevering og lagring av forskningsdata. Frem til nå har forberedelser vært i fokus. Nå er det snart klart for å ta steget videre. Jeg har laget en foreløpig beskrivelse:

Forskningsdata i Norge – hva tilbyr de største aktørene?

Norske forskere har pekt på en rekke forhold som hinder deling av forskningsdata. Mangel på teknisk infrastruktur og tid til å forbedre data for arkivering nevnes. Skepsis til åpne forskningsdata i frykt for at det skal hindre vitenskapelig publisering i fremtiden er en annen faktor. Er forskernes tvil begrunnet?

Internasjonalt er det identifisert funksjonalitet og støttetjenester som kan benyttes i arkiver for forskningsdata. Funksjonaliteten vil ivareta mange av forskernes bekymringer omkring lagring og deling av forskningsdata.

Dette gjør det interessant å se på hvilke tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata. Denne presentasjonen vil se på hva de største, nasjonale aktørene for datalagring tilbyr til forskerne i Norge.

Resultatene kan bidra til en begynnende avklaring om oppgaver og arbeidsfordeling mellom utdanningsinstitusjonen, fag- og forskningsbibliotekene og dataarkiv.

– Skal du på BIBSYS-konferansen 2015? Da kan du høre resultatene. Stikk gjerne innom sesjonen om forskningsdata 11. mars kl. 12.30.

– Therese

Arkivene – en ny kilde til forskningsdata

Historikere har lange tradisjoner i bruk av arkivmateriale som forskningsdata. Digitaliseringen åpner for at arkivverket kan være en aktuell samarbeidsparter også for fagdisipliner som i dag arbeider mest med tall (empirisk)..

Norsk olje- og gassarkiv har en visjon om «å sikre de mest sentrale arkivene fra denne samfunnssektoren for framtiden, både med tanke på forskning og kulturformidling. At denne type arkiv bevares og tilgjengeliggjøres, er avgjørende for å kunne studere den innvirkning næringen har hatt og har på samfunnsutviklingen.» Mulighetene til forskningsprosjekt er mange. Materialet åpner opp for studier av alt fra plattform- og rørledningskonstruksjoner, migrasjon (arbeidsinnvandring fra USA, Storbritannia, Canada, Frankrike etc.), kulturmøter, språkbruk, organisasjonsutvikling, teknologi, samfunnsviten, arbeidsmiljø og helsemessige forhold, beredskap, samfunnssikkerhet, historie osv. Kort sagt, arkivene speiler alle de aktiviteter som har foregått i selskapene og er autentiske og samtidige kilder til hendelser i nær og fjern fortid.

Alle de store oljeselskapene, leverandørindustrien, arbeidstaker- og bransjeorganisasjonene, foruten de statlige myndighetene er representert. Arkivene omfatter blant annet styredokumenter, komité- og ledermøtereferater/dokumenter, personal- og helsemapper, skade- og ulykkesrapporter, korrespondanse, tekniske dokumenter, tegninger osv. (se http://www.oljearkivet.no (søk i arkivene)). Her ligger grunnlagsmateriale for mange interessante forskningsprosjekter både for veletablerte forskere og studenter. De deltar i et europeisk arkivnettverk (EOGAN) og prosjekt (Erasmus 2), og samarbeider med bl. a. NB gjennom kulturminneprosjekt eks. kulturminne Statfjord, Ekofisk, Frigg).

Norsk olje- og gassarkiv reiser i disse dager rundt til alle de sentrale forsknings- og utdanningsinstitusjoner med invitasjon til samarbeid rundt temaene:

digitalisering og nettpublisering av primærkilder, prioriteringer. De ønsker innspill til hvordan materialet kan gjøre tilgjengelig og anvendbart for forskere og studenter.
identifisere hvilke arkivtyper som er særlig forskningsrelevante og derfor bør bevares og tilgjengeliggjøres
sikre relevant beskrivelse av arkivene i nettkataloger
forenklede prosedyrer for innsyn i taushetsbelagte arkiver
stipendordninger

Så langt har de kun fått napp hos NTNU og BI. Derfor denne lille markedsføringen på arkiverkets vegne.

Registerdata fra Statistisk sentralbyrå

Statistisk sentralbyrå [SSB] er en av de største norske kildene til registerdata. Dette betyr at de samler ikke inn data selv, men bruker offentlige register som datagrunnlag.

Nylig hadde BI Biblioteket besøk av Jon Olav Folsland fra Informasjonstjenesten i Statistisk sentralbyrå. Han holdt en informativ presentasjon for oss. Det er klart at registerdata er et tema for Forskningsdatabloggen. Det er minst tre grunner til dette:

De fleste forskere er interessert i hvor de kan finne gode datakilder. SSB er en mulig kilde, slik at det er viktig å ha kunnskap om denne. SSB er en av kildene hvor forskere kan bestille data. Data kan benyttes sammen med data som de selv samler inn, eller henter fra andre kilder. Den siste grunnen er at registerdata fra SSB er åpne tilgjengelige data, og kan integreres i ulike tekniske løsninger.

I Norge er offentlige institusjoner pliktig til å avgi statistikk etter Statistikkloven. 25 institusjoner inngår Statistikkrådet som er en sammenslutning for de som lager offentlig statistikk. Det betyr at SSB sammenfatter statistikk fra NAV, Brønnøysundregistrene, Folkeregistrene osv.

På verdensbasis omtales data fra SBB som å ha en meget høy kvalitet. Krav til hvordan data samles inn og beskrivelser av data er blant grunnene til det høye kvalitetsnivået. Dersom det finnes internasjonale rammeverk for klassifiseringer vil disse anvendes, slik at data er i tråd med internasjonale standarder. Dette betyr at norske data kan sammenlignes med andre lands data. SBB har en egen publikasjonskategori kalt «Notater». Notater er bakgrunnsinformasjon om hvordan man har gått frem for å samle inn data og hvordan utvalg er trukket. Anonymisering er et viktig tiltak for personvernet ifølge Statistikkloven. Statistikker som gjør det mulig å identifisere enkelte bedrifter eller enkeltpersoner vil ikke gjøres tilgjengelig.

I alt finnes det ca. 420 statistikker. I SSB defineres en statistikk som en tallinnsamlinger som man kan lage tidsserier av. Statistikkene får egennavn, f.eks Konsumprisindeksen. Dette hjelper på gjenfinning av datasett.

Dersom man bare trenger faktainformasjon, er det mulig å lage sine egne tabeller. Da brukes Statistikkbanken for å ta ut de variablene som man ønsker i et tabelloppsett. Egne tabeller kan eksporteres, gjerne til Excel.

For de fleste forskere som vil benytte SSB-data sammen med egne analyser er ikke dette nok. Da kan data til forskning bestilles og betales. SSB har en egen informasjonstjeneste. Alle statistikkene og publikasjonene har sine egne kontaktpersoner som kan hjelpe ved bestilling av data.

SSB har gjort sine data åpent tilgjengelig. Dette betyr at data fra SSB kan integreres i nettsideløsninger, eller brukes inn i app’er eller data kan brukes til å lage visualiseringer. API: Tilgjenglige datasett viser oversikten over de mest populære datasettene. Data gjøres tilgjengelig med Norsk lisens for offentlige data (NLOD), som innebærer at kilden til data skal oppgis.

– Therese

The Dataverse Network

The Dataverse Network ble opprinnelig etablert av Harvard og MIT. Målet var å skape et Data Management System og publiseringsrammeverk innen samfunnsvitenskapene. The Dataverse Network har utviklet seg over tid, slik at det nå brukes på flere fagfelt. Webapplikasjonen brukes for å publisere, dele, referere, hente ut informasjon og analysere data i forskningsprosessen. Det legges vekt på alt arbeidet som skjer i selve forskningsprosessen, slik at det blir noe mer enn en ren arkivløsning

Crosas, M. (2011) The Dataverse Network®: An Open-Source Application for Sharing, Discovering and Preserving Data. D-Lib Magazine, January/February 2011, Volume 17, Number 1/2 : doi:10.1045/january2011-crosas

Strukturelt er The Dataverse Network bygget opp av flere deler. Forskningsinstitusjonen kan legge til rette for å opprette et nettverk av arkiver. Et «dataverse» er et virtuelt arkiv. En forsker eller en forskningsgruppe kan ha et «dataverse» arkiv, som igjen kan bestå av ett eller flere forskningsstudier med tilhørende data. For hvert «studium» skal det gis informasjon om datasett, dokumentasjon, kode og katalogiseringsinformasjon/metadata.

The Dataverse Network har mye funksjonalitet. Det er mange utfordringer ved lagring og deling av forskningsdata. Muligheter for backup, versjonshåndtering av data, koblinger til statistiske analyseverktøy, permanente identifikatorer og siteringer for datasett er blant utfordringer som The Dataverse network ivaretar. Interesserte kan lese flere publikasjoner på nettsidene til The Dataverse Network.

Mange forskere er redd for at datasett vil feiltolkes når data gjøres tilgjengelig. Siteringer for datasett og muligheter for å lenke til datasett hjelper å hindre dette, og gir anerkjennelse til forskeren for arbeidet som er gjort. I Dataverse legges permanente identifikatorer til studiene automatisk, og permanente lenker kan brukes ved skriving av vitenskapelige artikler. Forskeren har tilgang til lenken med en gang datasettet er lastet opp. Etter at artikkelen er publisert, så kan hun åpne for at andre kan se innholdet i datasettet.

Henvisninger til datasett skrives inn i referanselisten på en vitenskapelig artikkel. Siteringen kan se slik ut:

McGann, Anthony. 2013. Replication data for: Estimating the Political Center from Aggregate Data: An Item Response Theory Alternative to the Stimson Dyad Ratios Algorithm. http://dx.doi.org/10.7910/DVN/22861 IQSS Dataverse Network [Distributor] V1 [Version].

Dataverse er bygget på åpen kildekode, open source, og er gratis tilgjengelig. For de som driver med åpen kildekode, vil elementene som Dataverse bygger på, dvs. Red Hat Linux, Glassfish Server, PostgreSQL m.m. være gjenkjennelig.

Åpen kildekildekode gir muligheter for å velge om man vil utnytte tilgjengelig tilleggsfunksjonalitet. Det finnes blant annet en Open Journal System plug in, som lager koblinger mellom tidsskrifter produsert i verktøyet Open Journal System og Dataverse. Det er mulig å legge til Google Analytics og koblinger til Twitter.

For de mer teknisk interesserte, vil nok Installers Guide være informativ.

– Therese

UiT Dataverse Network

Universitetsbiblioteket i Tromsø er først ut i Norge med open source programvaren Dataverse som brukes til å lage forskningsdataarkiver. Da UiT i sommer lanserte arkivet TROLLing ble dette tatt inn som en del av UiT Dataverse network .

Leif Longva

Jeg har spurt Leif Longva ved avdeling for IT, formidling og utvikling om deres erfaringer så langt og planer fremover.

– Hvorfor valgte dere Dataverse?

Det var en henvendelse fra fagmiljøet i lingvistikk som fikk fart på våre planer om å opprette et arkiv for forskningsdata. Vi ser dette som en naturlig fortsettelse av arbeidet med vårt institusjonelle arkiv, Munin, og Open Access tidsskrifter. Føringene i Horizon 2020 omkring datalagring har vært viktig.

Dataverse ble valgt fordi vi ønsket et system som var tilpasset formålet lagring av forskningsdata. Vi likte måten som organiseringen av forskningsdata var og hvordan man kan administrere data i systemet. Installasjonen er basert på Open Source, og kommer fra Harvard universitet som er anerkjent. På forhånd hadde vi en del spørsmål som vi fikk avklart med Universitetet i København. De har en Dataverse installasjon kalt DataBox. Det var også medvirkende til valget.

– Hvordan har dere organisert arbeidet med UiT Dataverse Network?

Når vi først startet arbeidet ble det det satt ned en prosjektgruppe, hvor fagmiljøet i lingvistikk kom med innspill med deres ønsker omkring et forskningsdataarkiv, og var med på å velge metadata-felt. Fra bibliotekets side har fire personer ved avdeling ved IT, formidling og utvikling, blant annet våre to systemteknikere. I tillegg har to fagreferenter som er knyttet til fagmiljøene innen lingvistikk vært koblet på. Fagreferentene har en rolle i forhold til administrering av informasjonen i systemet, hvor de ser på innholdet som legges ut, og gjør en tilpasning av metadata.

Når vi har en forskningsdatainstallasjon innomhus gir det oss en bedre kontakt mellom fagmiljøene og forskernes behov. Vi finner det veldig nyttig. I tillegg gir dette kontroll med hvilke endringer i systemet vi kan gjøre.

– Hvordan synes dere arbeidet har fungert så langt?

Totalt sett, så synes arbeidet med Dataverse og opprettelsen av arkivet TROLLing har fungert bra. Det er vanskelig å si hvor mange ressurser vi har brukt på arbeidet så langt. Installasjonen er ikke like enkel å få til som for eksempel dSpace, og vi arbeidet litt med server tilgangen. Metadata krever litt tilpasninger. Prosjektgruppen har gjort sitt arbeid. Det var viktig å få arkivet på plass, og vi ser muligheter for videreutvikling.

– Har dere noen tanker for videre arbeid?

Vi ønsker å utvikle arkivet videre. Vi åpner for at flere fagmiljø ved Universitetet i Tromsø kan legge ut sine forskningsdata.

På den mer tekniske siden er vi i forhandlinger for å kjøpe DOI. I dag bruker vi Handle, slik at vi kommer til å tilby begge lenketyper. Nye oppdateringene som er planlagt fra Dataverse innebærer at de utvider sine metadata til å omfavne fagområder som astrofysikk og biomedisin.

Det hadde vært kjekt om flere fagmiljøer og bibliotek i Norge vil etablere Dataverse-arkiver.

– Therese

TROLLing i Tromsø

Fagmiljøet ved Lingvistikk og Universitetetsbiblioteket ved Universitetet i Tromsø utført litt magi og skapt TROLLing. TROLLing står for The Tromsø Repository of Language and Linguistics. 18. juni i år ble det nye arkivet for lagring og deling av forskningsdata lansert.

Dette faglige forskningsdataarkivet er tilpasset lingvistiske data og statistisk kode. Arkivet inneholder søkbare metadata som identifiserer forskere, språk, fenomen, statistiske metoder og publikasjoner. Forskere innen feltet kan selv laste opp databaser og statistiske modeller. Arkivet vil være åpent for forskere som arbeidet på feltet. Dette betyr at det også er åpent for forskere som ikke er tilknyttet Universitetet i Tromsø.

TROLLing er utviklet i samarbeid med det europeiske nettverket CLARIN (Common Language Resources and Technology Infrastructure).

Arkivet er et samarbeid mellom fagmiljøet ved Insitutt for språkvitenskap og Universitetsbiblioteket. Fagmiljøet har nedsatt et internasjonalt styre som kvalitetskontrollerer innhold. Biblioteket har ansvaret for de tekniske og rettslige aspektene.

Vi håper arkivet blir populært blant språkforskerene, og får mye nyttig innhold.

Gratulerer med et nytt arkiv!

– Therese