februar | 2015 | Forskningsdata

IDCC 2015-konferansen gikk av stabelen 9-10. februar i London, med to påfølgende dager med workshops. Tema for konferansen var en oppsummering av de siste ti år på feltet og utfordringene framover. Interessant, utfordrende og mye å ta inn.

Keynote-speaker Tony Hey pekte på innføringer av standarder som en av de viktige tingene i løpet av de siste ti årene. Det gjelder både lagring og bevaring, men ikke minst interoperabilitet for åpne data. De nye utfordringene gjelder i stor grad det fjerde paradigmet: Data-intensiv forskning, hvor enorme mengder data som skal lagres og ikke minst bevaring. Organisering av tjenester blir like viktig som tilgjengligegjøring av data – workflow, tilgang, brukervennlighet. Hva skal lagres, og hvor lenge? Ikke minst er opphav «provenance» viktig. Hvor kommer dataene fra? Hvordan er de bearbeidet, manipulert, hvilke programmer er brukt etc.?

Kvalitetssikring av dataene er viktig for gjenbruk. Deling av data øker bruken, fremmer forskning og nytten overskrider kostnadene, iflg. JISC. Nettopp kostnader var et tema for mange. Forskningsinfrastrukturen må på plass, og hvordan skal den finansieres? Er det institusjonene, forskningsfinansiørene, det offentlige? Serverplass prises høyt, og noen steder tok institusjonen så mye for lagring at forskerne heller benyttet kommersielle tjenester.

Forskernes rolle er viktig. De må være ledende i utvikling av disse tjenestene, og forstå hva det vil si å være forsker i en digital virkelighet. Datahåndtering og bevaring må inn som en del av deres arbeidsflyt helt fra starten. Deres vilje til å dele data må utvikles der den ikke finnes, enten med pisk eller med gulrot – eller i realiteten en kombinasjon av disse. Data management plans og data policies er styringsredskaper som må på plass på nasjonalt og institusjonelt nivå. Finansiørene har sine sanksjonsmuligheter: Bevilgninger fornyes ikke, dersom forskerne ikke lagrer dataene som avtalt. Men dette blir ikke alltid fulgt opp der det er etablert som ordning.

Hva så med bibliotekenes rolle? Noen tok til orde for å flytte biblioteket tilbake til instituttene, for å integrere bibliotekarene i arbeidet med forskningsdata i større grad. Bibliotekenes kompetanse på metadata, opphavsrett og publisering ble sett på som ferdigheter som kunne transformeres over til også å gjelde forskningsdata. Og kontaktbibliotekarer ble sett som en ressurs inn mot forskerne for å etablere kontakt, informere og lære opp forskerne. Et samarbeid mellom forskere, IT og bibliotek synes naturlig for mange.

Oppsummert kan man si at det er driv og optimisme rundt dette, men hindringer i form av økonomi, infrastruktur, holdninger og tradisjoner. Videre må det forskes mer på gjenbrukbarheten til dataene og den faktiske bruken. Vi vil kanskje se nye måter å bygge og presentere kunnskap på (crowdsourcing, for eksempel) – hvordan vil den vitenskapelige kommunikasjonen endres, når vi fokuserer mer på data?

Det var flere workshoper i etterkant av konferansen. Jeg deltok på workshopen ”Training the trainers” – om undervisningsopplegg rundt forskningsdata for bibliotekarer og andre. Mange gode eksempler, men også klart at det er et krevende felt som krever mer enn et to-timers-kurs.

Konferansen samlet over 300 deltagere fra Europa og USA, men den skandinaviske kontingenten telte kun 8. Et tegn på at man er helt i startgropa med dette i vår del av verden, noe som også ble bekreftet i samtale med de andre skandinaviske deltagerne. Finland jobber med policyer og strategier – de ønsker open science inn i alle institusjonelle strategier og målet er open science som standard.

– Ellen Hermanrud

How to Cite Datasets and Link to Publications

Sitering av forskningsdata er en viktig faktor ved arkivering og deling av data. De mest kjente siteringsstilene har utviklet standarder for sitering til forskningsdata. Å sitere forskningsdata er ganske likt sitering av andre publikasjonstyper.

For at sitering av forskningsdata fra et arkiv skal være mulig, bør arkivet tilby en løsning med permanente lenker. Dette er en DOI, eller tilsvarende slik som Handle, Archival Resource Key (ARK) and Persistent URL (PURL).

I tillegg kan datasett har knyttet til seg en Unique Numeric Fingerprint (UNF). Dette er en henvisning til versjonen av data, for å sikre at data ikke er endret. Da kan denne referansen hentet fra et Dataverse arkiv se slik ut:

Frederico Girosi; Gary King, 2006, ‘Cause of Death Data’, http://hdl.handle.net/1902.1/UOVMCPSWOL
UNF:3:9JU+SmVyHgwRhAKclQ85Cg== IQSS Dataverse Network [Distributor] V3 [Version].

Utfordringen for siteringer er at man gjerne har en artikkel, et datasett, en kodebok, osv. som er med på å beskrive data. Dette betyr at flere referanser kan bli relativt like. Noen siteringsstiler ber om at man oppgir materialtype, altså spesifiserer at referansen er et datasett. Dette ser man for eksempel hos APA.

Interesserte kan studere detaljer nærmere i: Ball, A. & Duke, M. (2012). ‘How to Cite Datasets and Link to Publications’. DCC How-to Guides. Edinburgh: Digital Curation Centre: http://www.dcc.ac.uk/resources/how-guides

– Therese