Drukner i data

Forskerforum 10/14I går kom siste nummer i Forskerforum i postkassen min.

Datadrevet vitenskap med store datasett og tungregnemaskiner er fokus i artikkelen. Bruk av store datasett er i ferd med å innta mange fagområder. Det nevnes biologi, medisin og helsevitenskap, fysikk, klima, språk- og samfunnsvitenskapene.

Dette er en ny måte å drive vitenskap på. Utfordringer er knyttet til personvern og sensitive data dersom man skal dele data. Behov for kompetanse på feltet er stor, både innen statistikk, dataprogrammering, standarder og kunnskap om hvordan man skal dokumentere data.

Kjersti Gjengedal: I petabytens tid. Forskerforum, 10, 2014,s.12-17: http://www.forskerforum.no/uploads/forskerforum/pdf/Forskerforum_nett_10__2014_pdf.pdf

I løpet av det siste året har det vært skrevet en del om forskere og deres bruk av data i forskningen.

–  Hva synes du er en interessant artikkel om bruk av data i forskningen? Har du et tips til oss?

Skriv gjerne i kommentarfeltet eller send meg et hint.

– Therese

Forskningsdata på Muninkonferansen

Denne uken har jeg truffet mange kollegaer fra nær og fjern på Muninkonferansen i Tromsø. Det var mye interessant på konferansen: open access, ulike typer målinger som impact factor og altmetric. Torsdag handlet flere av presentasjonene om forskningsdata. Her kommer en liten kortversjon:

Geoffrey Boulton, University of Edinburgh, gav en meget bra presentasjon om «Open Data and the Future of Science«. Bakgrunnen for hvorfor man trenger åpne data og hva det betyr for forskningen var tema. Han trakk frem muligheter for å etterprøve forskningen. Innsamling av data på en annen måte enn i dag, gjerne ved at allmennheten deltar i innsamling av data, ble vektlagt. Muligheten for å løse vitenskapelige problemer i fellesskap ble også trukket frem. Han mener at innen de neste 10 årene vil open data være en driver til å endre måten som vi tenker om forskning og skape andre modeller for hvordan forskning foregår.

Vi fikk høre om 2 store prosjekter om forskningsdata i Tyskland og Østerrike. Det er virkelig imponerende hvor mye arbeid som investeres, og fellesnevneren er samarbeid mellom mange aktører.

Pappenberger fortalte om de 9 universitetene i regionen Baden – Wüerttemberg i Tyskland, hvor målet er å finne ut hvilke infrastruktur og tjenester som er nødvendig for å gjøre regionen ledende innen forskning og utvikling.

I prosjektet, bwFDM, vil de bruke 3.7, mill. euro. til å lage handlingsplaner. Det er 9 fulltidsansatte ved alle universitetene og 1 prosjektkoordinator. Alle bibliotekene er involvert, men det varierer mellom de forskjellige institusjonene hvordan de bidrar.

I regionen er det ca. 30 000 forskere som er igjen knyttet til ca. 3000 forskningsgrupper. De har intervjuet ca. 700 forskere omkring hvordan de jobber og hva deres behovet er. Mest kvalitativ metode er brukt, hvor  1635 brukerhistorier som er skapt ut fra intervjuene.

Vi må vente helt til juni 2015 før resultatene er klare. Rapporten skal resultere i tiltak, og foreløpig virker det som om forskerens behov og arbeidsmåter vil tyde på behov for bredde i tiltakene. Litt overraskende ser foreløpige resultater ut som om de fleste forskerne er opptatt av støttetjenester. I starten av prosjektet antok de at forskerne ville ha en sterkere fokus på den tekniske infrastrukturen.

På Pappenbergers eget universitetet, Universitet i Konstanz, har de tatt utgangpunkt i 1 av de 1635 brukerhistoriene. Dette har resultert i et arkiv, Movebank, som viser sporing av dyr. Arkivet inneholder nå ca. 50 datasett. Målet med Movebank er å knytte sammen publikasjoner og data. Arkivet vil brukes som et utgangspunkt for å kunne analysere forskernes behov bedre. I tillegg vil bibliotek og IT lage en strategi for forskningsdata og en datahåndteringspolitikk for universitetet.

Arkivet TROLLing ble presentert av Laura Janda. Arkivet er åpent for opplasting av lingvistiske studier for forskere over hele verden. Nylig har de laget videoer som forklarer hvorfor det er lurt å lagre data og praktisk instruksjon til forskere som vil laste opp data i arkivet

Budroni fortalte om hvordan det i  Østerrike arbeideres med å få på plass en e-infrastruktur for forskningsdata, «e-infrastructure Austria«. Prosjektet skal gå totalt over 3 år, og snart har prosjektet fungert sammen i 1 år. Det er 25 partnerinstitusjoner i prosjektet. I tillegg har de etablert en tankesmie med eksterne for å hjelpe med utfordring og muligheter.

Prosjektet består av 3 deler. Prosjektdel A handler om å få på plass en enkel infrastruktur for lagring av forskningsdata. Prosjektdel B er mer komplisert, hvor det legges vekt på hvordan man kan kombinere data. Prosjektdel C er knyttet til behovet for samarbeid mellom institusjoner. De har identifisert 12 arbeidsområder hvor de skal prøve å finne felles løsninger/standarder. Spredningen av tema er stort fra langtidslagring til metadata til markedsføring. En av de viktigste elementene er at de blir kjent med eksperter på de forskjellige universitetene og kan støtte seg på hverandre i etterkant. Å være informert og følge standarder og retningslinjer fra organisasjoner slik som APARSEN, OpenAire, DMP og COAR er også viktig.

Sven Vladmick snakket om «data policy and data archives». Han er knyttet til Europena Data Watch Extended, EDaWAX. De hr som mål å utvikle et dataarkiv for økonomiske tidsskrifter.  Han omtalte 2 studier:

Andreoli-Versbach, P., & Mueller-Langer, F. (2014). Open access to data: An ideal professed but not practised. Research Policy, 43(9), 1621-1633. doi: http://dx.doi.org/10.1016/j.respol.2014.04.008

Studien har sett på praksis blant 488 forskere innen økonomi og business science.  Undersøkelsen viser at 80 % ikke deler data, 16,8 % deler av og til, kun 2,46 % deler regelmessig. Årsaken til at forskerne deler data er knyttet til mulighetene for ansettelse og opparbeidelse av anerkjennelse i fagmiljøet.

Den andre studien var knyttet til «Data policy of economic journals«. Fokus ble satt på 141 økonomiske tidsskrifter som er anerkjent i fagmiljøet. De skiller mellom policy inneholder et krav om å gjøre data tilgjengelig, og policy som inneholder informasjon om kode og utregningsmetode. Dersom ikke kode og utregningsmåte er med, så mener man at det er vanskelig å etterprøve resultatene. Dette omtales som en replication policy.

Undersøkelsen fant at de fleste økonomiske tidsskriftene ikke har en policy for tilgjengeliggjøring av data. Blant studiene som har en policy er det kun et fåtall av disse som har krav om en replication policy. Ved en nærmere undersøkelse av innholdet i policy, fant studien at de fleste tidsskriftene krever at forfatteren skal arkivere data. Imidlertid varierer det om man blir bedt om å gi mer detaljerte beskrivelser av data og kode. I forskning hvor data, kode og utregning er tilgjengelig er det er varierende hvor tilrettelagt data er i praksis, slik at etterprøvbarhet kan gjennomføres.

Undersøkelsen viser at det er flere viktige intensiver for forskerne å dele data. Policy i tidsskrifter er en medvirkende årsak. Videre er forskernes mulighet for anerkjennelse når de deler data, og muligheter for å få støtte når man vil dele av data.

– Therese

Veilednings- og rådgivningstjenester

Informasjon omkring hvordan forskeren kan gå frem, og hvordan hun kan gjøre sine data tilgjengelig blir viktigere. Bibliotekene kan ta en rolle med å bistå med informasjonstjenester om tilgjengeliggjøring av data, og forståelse av datasett som er lagret.

Hjelp til tilgjengeliggjøring av data
Mange forskere vet ikke hvilke tjenester som er tilgjengelig for datalagring eller kan ha problemer mellom å velge mellom forskjellige tjenester. Biblioteket blir sett på som en aktør som kan bistå med informasjon om god dataadministrasjon, fordelene med datadeling, mulighetene som er tilgjengelig innen bestemte fagområder og hva som er de beste og mest pålitelige tjenestene. Bibliotek kan inkludere datamateriale i deres egne kataloger for lettere gjennomfinning av tilgjengelige datasett. På denne måten kan terskelen for datalagring senkes.

Bistå med tilgjengeliggjøring av informasjon omkring hvor datasett kan finnes
Informasjon omkring hvor datasett kan finnes kan integreres i bibliotekets tjenester, slik at bibliotekets discovery-tjenester høster informasjon. Eventuelt kan det utarbeides en protokollhøsting til en felles norsk plattform, etter prinsippet bak NORA som i dag administreres av CRIStin.

Bistå med tilgjengeliggjøring av informasjon som fremmer forståelse av datasett
For å kunne fortolke data er det nødvendig med gode beskrivelser av data, beskrivelser kan forekomme som datapublikasjoner eller som lenking til publikasjoner som bruker data.

Bibliotekene kan:

  • Lage oversikter over hvor datasett kan finnes (discovery services for datasets)
  • Integrere datasett i øvrige gjenfinningstjenester (bibliotekkataloger)
  • Etablere og opprettholde kunnskapsbaser om data og deres kontekst
  • Støtte krysskoblinger/crosslinks mellom publikasjoner og datasett
  • Gi støttetjenester omkring informasjon omkring standardiseringer slik som opphavsrett, lisensieringer, kvalitet på lagringstjenester basert på sertifiseringer og søknadsprosedyrer for gjenbruk av datasett.
  • Gi hjelp til forskerne for å forstå metabeskrivelser for datasett

Veilednings- og informasjonstjenester kan være en rolle for bibliotekene i arbeidet med forskningsdata.

– Therese

Lage institusjonelle lagringsløsninger for datasett (repositories)

Norske forskere har i dag muligheter til å lagre data i forskjellige typer arkiver. Dette kan være arkiver som er forbeholdt ansatte ved en bestemt forskningsinstitusjon, dvs. institusjonelle arkiver. Institusjonelle arkiver er vanligvis plassert organisatorisk i tilknytning til et bibliotek eller IT-avdelingen. Andre arkivformer kan være nasjonale eller internasjonale datalagringsarkiver eller arkiver innen faglige forskningsområder eller knyttet til bestemte forskningsmetoder.

I Norge finnes det institusjonelle arkivløsninger ved de fleste universitetene og høyskolene. De drives av bibliotekene. Arkivene inneholder publiserte tidsskriftartikler, masteroppgaver, rapportserier og annet materiale. På en del fagfelt, hvor det det ikke finnes så mange etablerte praksiser, kan et institusjonelt arkiv for forskningsdata avhjelpe situasjonen.

Bibliotekenes erfaringer med denne typen arkivløsninger er verdifullt med hensyn til opprettelser av arkiver for forskningsdata. Kjennskap til Discovery tjenester (samsøk), informasjons- og metadatastandarder regnes som viktig funksjonalitet i arkiver for forskningsdata. Når forskningsdata skal lagres vil formatene på data som anvendes vil i mange tilfeller være andre enn i dagens arkiver, slik som for eksempel bilder eller lyd. Gjenfinning vil ha andre standarder og behov enn dagens institusjonelle arkiv for publikasjoner. Det finnes egne tekniske systemer produsert for å være institusjonelle løsninger for forskningsdata, men en del av dagens systemer kan utvikles for å ta høyde for andre filformater og informasjon slik at de kan benyttes til forskningsdata.

Utvikling av institusjonelle arkiver for lagring av datasett kan inngå som roller for bibliotekene.

– Therese

 

Sikre muligheter for gjenbruk av datasett over tid

Gjenbruk av data er et vanskelig aspekt ved datalagring. Over tid vil programvare anvendt for å produsere datasett endres. Dette kan gjøre gjenbruk av data vanskelig, dersom man ikke har tilgang på riktig programvareversjon. Er data tilgjengelig i dagens versjon av statistikkprogrammet SPSS 22, så betyr ikke det at om 10 år vil det være mulig å åpne filen og bruke data. Det vil kreve at data er tilpasset nye versjoner av SPSS og det nye operativsystemet som brukes på din datamaskin, eller gamle systemer er tilgjengelig for avlesing av filer.

Det er en forutsetning for gjenbruk av forskningsdata at man har kjennskap til fagfeltets forståelse av datasett, og tilgang til programvaren som er brukt i forbindelse med datasettet, og kunnskap om bruk av programvaren.

Bibliotekene kan bistå med å tilrettelegge for gjenbruk av forskningsdata ved å:

  • Arkivere og bevare datasett
  • Arkivere programvare nødvendig for gjenbruk/etterprøvbarhet/bedre utnyttelse av data
  • Formidle til forskerne informasjon om fagspesifikke lagringsordninger/arkiver (formater for lagring, dokumentasjonsopplysninger om fremgangsmåte for datainnsamling, lisenser)
  • Å vise under hvilke betingelser datasett kan gjenbrukes (forutsetninger for at andre forskere skal kunne anvende datasett og oppbevare tilhørende programvare)

Sikre muligheter for gjenbruk av datasett over tid kan inngå som roller for bibliotekene.

– Therese

Metadatastøtte – for bedre gjenfinning av datasett

Bibliotekarer har arbeidet mye med metadata i forbindelse med katalogisering. I arbeidet med forskningsdata er det en forutsetning for gjenfinning er at gode metadatabeskrivelser legges på datasettene. I tillegg er det behov for permanente lenker som knytter sammen metadata om datasett (katalogposter) og publikasjoner om datasett (fagartikler eller datatidsskriftartikler). Det pekes på at Data Management Plans bør kunne kobles sammen med annen informasjon omkring selve lagringen av data og publikasjoner.

Bibliotekene kan bistå andre deler av organisasjonen/datalagringssenter med anbefalinger omkring metadata og tilhørende internasjonale standarder som benyttes for gjenfinning av datasett.

Bibliotekene kan:

  • Støtte arbeidet med permanente lenker og siteringsstandarder
  • Oppmuntre til utviklingen av felles metadatabeskrivelsesskjema og felles siteringspraksiser
  • Fremme bruk av felles standarder og verktøy blant forskere

Metadatastøtte til gjenfinning av data er en av aktivitene som kan inngå som roller for bibliotekene.

-Therese

Roller for bibliotekene?

Er forskningsdata et arbeid for bibliotek? Hva kan det innebære? Det er ikke mange norsk bibliotek som arbeider aktivt med forskningsdata. Dette er ikke så rart. Arbeid med tilrettelegging og deling av forskningsdata er ikke kommet langt i Norge. Internasjonalt har flere organisasjoner sett på ulike aktiviteter og roller som bibliotekene kan ta. Rapportene og føringene kan oppsummeres i 4 aktiviteter. Disse aktivitetene kan i seg selv utgjøre en rolle for bibliotekene, eller flere aktivitetene kan forekomme i en kombinasjon. På denne måten kan de utgjøre mulige roller innen forskningsdata for bibliotek i høyere utdanning:

Bloggen vil fremover komme med en utdyping av hva disse 4 aktivitetene innebærer i egne poster. Postene er basert på følgende rapporter og føringer:

– Therese

Arkivene – en ny kilde til forskningsdata

Historikere har lange tradisjoner i bruk av arkivmateriale som forskningsdata. Digitaliseringen åpner for at arkivverket kan være en aktuell samarbeidsparter også for fagdisipliner som i dag arbeider mest med tall (empirisk)..

Norsk olje- og gassarkiv har en visjon om «å sikre de mest sentrale arkivene fra denne samfunnssektoren for framtiden, både med tanke på forskning og kulturformidling. At denne type arkiv bevares og tilgjengeliggjøres, er avgjørende for å kunne studere den innvirkning næringen har hatt og har på samfunnsutviklingen.» Mulighetene til forskningsprosjekt er mange. Materialet åpner opp for studier av alt fra plattform- og rørledningskonstruksjoner, migrasjon (arbeidsinnvandring fra USA, Storbritannia, Canada, Frankrike etc.), kulturmøter, språkbruk, organisasjonsutvikling, teknologi, samfunnsviten, arbeidsmiljø og helsemessige forhold, beredskap, samfunnssikkerhet, historie osv. Kort sagt, arkivene speiler alle de aktiviteter som har foregått i selskapene og er autentiske og samtidige kilder til hendelser i nær og fjern fortid.

Alle de store oljeselskapene, leverandørindustrien, arbeidstaker- og bransjeorganisasjonene, foruten de statlige myndighetene er representert. Arkivene omfatter blant annet styredokumenter, komité- og ledermøtereferater/dokumenter, personal- og helsemapper, skade- og ulykkesrapporter, korrespondanse, tekniske dokumenter, tegninger osv. (se http://www.oljearkivet.no (søk i arkivene)). Her ligger grunnlagsmateriale for mange interessante forskningsprosjekter både for veletablerte forskere og studenter. De deltar i et europeisk arkivnettverk (EOGAN) og prosjekt (Erasmus 2), og samarbeider med bl. a. NB gjennom  kulturminneprosjekt  eks. kulturminne Statfjord, Ekofisk, Frigg).

Norsk olje- og gassarkiv reiser i disse dager rundt til alle de sentrale forsknings- og utdanningsinstitusjoner med invitasjon til samarbeid rundt temaene:

  • digitalisering og nettpublisering av primærkilder, prioriteringer. De ønsker innspill til hvordan materialet kan gjøre tilgjengelig og anvendbart  for forskere og studenter.
  • identifisere hvilke arkivtyper som er særlig forskningsrelevante og derfor bør bevares og tilgjengeliggjøres
  • sikre relevant beskrivelse av arkivene i nettkataloger
  • forenklede prosedyrer for innsyn i taushetsbelagte arkiver
  • stipendordninger

Så langt har de kun fått napp hos NTNU og BI. Derfor denne lille markedsføringen på arkiverkets vegne.

 

Datahåndteringsplan i skyen

En av konsekvensene av at Forskningsrådet innfører en politikk for tilgjengelighet av forskningsdata er at forskeren skal lage en datahåndteringsplan. I USA og Storbritannia er det laget nettbaserte verktøy for å lage datahåndteringsplaner. Kan verktøyet DMP Online kan brukes i en nasjonal skyløsning? Dette har Danmarks Elektroniske Fag- og forskningsbibliotek [DEFF] testet.

Digital Curation Center står bak DMP Online (UK). DMP Online består av nettbasert skjema som forskerne fyller ut. Forskjellige forskningsfinansiører og universiteter har ulike retningslinjer. Dette resulterer i ulike ønsker om informasjon fra forskeren om forskningsdataene. Informasjonen er knyttet til hvordan forskningsdata lagres, bevares og deles, som for eks. DMP i Horizon 2020. En datahånteringsplan vil minst inneholde en beskrivelse av forskningsprosjektets data. Hvordan data oppbevares under og etter prosjektet og hvem som skal ha tilgang til data er også vanlige spørsmål.

Forskjellene ivaretas i DMP Online ved at det lages maler som er tilrettelagt for ulike typer forskningsfinansiører og/eller eget universitet.  Malene, som er tilgjengelig i systemet i dag, er hovedsakelig tilpasset britiske og amerikanske forskningsfinansører og universiteter.

DMP Online gjør det mulig for forskeren å samarbeide med kollegaer, arbeide videre med datalagringsplanen etterhvert som forskningsprosjektet utvikler seg. Det er mulig å eksportere datahåndteringsplanen slik at den kan legges inn i søknader om forskningsmidler.

Danmarks Elektroniske Fag- og forskningsbibliotek konkluderer med at DMP Online kan relativt lett tilpasses til danske behov, og brukes som en nasjonal skyløsning.

Bakgrunnen for konklusjonen er beskrevet i rapporten FIF – Fælles Infrastruktur for Forskningsdata. Rapporten beskriver en del av de tekniske aspektene ved DMP Online og gir anbefalinger før en nasjonal skytjeneste kan realiseres.

DEFF anbefaler at utdanningsinstitusjonene og forskningsfinansiørene har utviklet sin egen politikk for forskningsdata. Grunnen er at policy er en forutsetning for funksjonaliteten i DMP Online, slik at maler kan lages. For at systemet skal fungere trengs det:  liste over utdannelsesinstitusjoner og fond, maler for datamanagement hos de enkelte fond og forskningsinstitusjoner, tekster og logoer.

I Danmark er det versjon 4 av webapplikasjonen DMP Online som er testet. DMP Online anvender åpen kildekode. Den er programmert ved bruk av Ruby on Rails, og MySQL anvendes som database. Den åpne kildekoden er tilgjengelig i GitHub. Planen kan eksporteres til forskjellige formater, eks HTML, XML, Text eller Json.

Rapporten fremhever at ved hjelp av en programmerer for Ruby on Rails vil DMP Online kunne tilpasses danske forhold relativt enkelt i løpet av noen måneder. Det er viktig å ivareta muligheter for at et eventuelt dansk system kan integreres med senere versjoner av DMP Online. Programvaren kan driftes i hvilken som helst skyløsning.

Rapporten peker på at dette er et relativt nytt system. Det finnes tilgjengelig en brukerveiledning. Likevel er det tekniske systemet dårlig dokumentert i dag, men DCC er oppmerksom på utfordringen og skal arbeide med det. Dette gjør at installasjon og konfigurering tar litt lenger tid.

DEFF ønsker en bedre integrasjon med andre tekniske systemer i fremtidig utvikling. De peker blant annet på funksjonalitet som lenking til dataarkiver og publiseringsplattform. Utveksling av informasjon gjennom uttrekk og gjenbruk av forskningsdatadokumentasjon på tvers av systemer kan videreutvikles. Dette vil være bra slik at man kan følge en datahåndteringsplan gjennom et forskningsprosjektet.

DMP Online krever pålogging før bruk. DEFF mener at i fremtiden vil det være ønskelig å ha muligheter til å koble DMP Online til single-sign-on løsning. De tenker på danske WAYF. Dette er en lignende løsning som norske Feide som gir en felles elektronisk identitet for pålogging til datasystemer i universitets- og høyskolesektoren.

Avslutningsvis mener DEFF at det er et behov for å opprette en organisasjon som kan vedlikeholde, drifte og markedsføre DMP Online.

– Therese

Hva nå? Konsekvenser av policy

Nå har flere forskningfinansiører og myndigheter lagt frem sine retningslinjene for åpen tilgjengeliggjøring av forskningsdata

Hva er de praktiske konsekvensene for den enkelte forsker og universitets- og høyskolesektoren?

Se videoen for en kortfattet oppsummering