Bibliotek

Hvordan sitere datasett?

How to Cite Datasets and Link to Publications

How to Cite Datasets and Link to Publications

Sitering av forskningsdata er en viktig faktor ved arkivering og deling av data. De mest kjente siteringsstilene har utviklet standarder for sitering til forskningsdata. Å sitere forskningsdata er ganske likt sitering av andre publikasjonstyper.

For at sitering av forskningsdata fra et arkiv skal være mulig, bør arkivet tilby en løsning med permanente lenker. Dette er en DOI, eller tilsvarende slik som Handle, Archival Resource Key (ARK) and Persistent URL (PURL).

I tillegg kan datasett har knyttet til seg en Unique Numeric Fingerprint (UNF). Dette er en henvisning til versjonen av data, for å sikre at data ikke er endret. Da kan denne referansen hentet fra et Dataverse arkiv se slik ut:

Frederico Girosi; Gary King, 2006, ‘Cause of Death Data’, http://hdl.handle.net/1902.1/UOVMCPSWOL
UNF:3:9JU+SmVyHgwRhAKclQ85Cg== IQSS Dataverse Network [Distributor] V3 [Version].

Utfordringen for siteringer er at man gjerne har en artikkel, et datasett, en kodebok, osv. som er med på å beskrive data. Dette betyr at flere referanser kan bli relativt like. Noen siteringsstiler ber om at man oppgir materialtype, altså spesifiserer at referansen er et datasett. Dette ser man for eksempel hos APA.

Interesserte kan studere detaljer nærmere i: Ball, A. & Duke, M. (2012). ‘How to Cite Datasets and Link to Publications’. DCC How-to Guides. Edinburgh: Digital Curation Centre: http://www.dcc.ac.uk/resources/how-guides

– Therese

Reklamer

NB-prosjektet på BI

Når vi startet bloggen nevnte jeg at vi har fått tildelt midler fra Nasjonalbiblioteket. Midlene skal brukes for å finne hvordan det lokale, institusjonelle forskningsdataarkivet BIRD forholder seg til andre aktører for avlevering og lagring av forskningsdata. Frem til nå har forberedelser vært i fokus. Nå er det snart klart for å ta steget videre. Jeg har laget en foreløpig beskrivelse:

Forskningsdata i Norge – hva tilbyr de største aktørene?

Norske forskere har pekt på en rekke forhold som hinder deling av forskningsdata. Mangel på teknisk infrastruktur og tid til å forbedre data for arkivering nevnes. Skepsis til åpne forskningsdata i frykt for at det skal hindre vitenskapelig publisering i fremtiden er en annen faktor. Er forskernes tvil begrunnet?

Internasjonalt er det identifisert funksjonalitet og støttetjenester som kan benyttes i arkiver for forskningsdata. Funksjonaliteten vil ivareta mange av forskernes bekymringer omkring lagring og deling av forskningsdata.

Dette gjør det interessant å se på hvilke tilbud og funksjonalitet som finnes for avlevering, lagring og deling av forskningsdata. Denne presentasjonen vil se på hva de største, nasjonale aktørene for datalagring tilbyr til forskerne i Norge.

Resultatene kan bidra til en begynnende avklaring om oppgaver og arbeidsfordeling mellom utdanningsinstitusjonen, fag- og forskningsbibliotekene og dataarkiv.

– Skal du på BIBSYS-konferansen 2015? Da kan du høre resultatene. Stikk gjerne innom sesjonen om forskningsdata 11. mars kl. 12.30.

– Therese

Veilednings- og rådgivningstjenester

Informasjon omkring hvordan forskeren kan gå frem, og hvordan hun kan gjøre sine data tilgjengelig blir viktigere. Bibliotekene kan ta en rolle med å bistå med informasjonstjenester om tilgjengeliggjøring av data, og forståelse av datasett som er lagret.

Hjelp til tilgjengeliggjøring av data
Mange forskere vet ikke hvilke tjenester som er tilgjengelig for datalagring eller kan ha problemer mellom å velge mellom forskjellige tjenester. Biblioteket blir sett på som en aktør som kan bistå med informasjon om god dataadministrasjon, fordelene med datadeling, mulighetene som er tilgjengelig innen bestemte fagområder og hva som er de beste og mest pålitelige tjenestene. Bibliotek kan inkludere datamateriale i deres egne kataloger for lettere gjennomfinning av tilgjengelige datasett. På denne måten kan terskelen for datalagring senkes.

Bistå med tilgjengeliggjøring av informasjon omkring hvor datasett kan finnes
Informasjon omkring hvor datasett kan finnes kan integreres i bibliotekets tjenester, slik at bibliotekets discovery-tjenester høster informasjon. Eventuelt kan det utarbeides en protokollhøsting til en felles norsk plattform, etter prinsippet bak NORA som i dag administreres av CRIStin.

Bistå med tilgjengeliggjøring av informasjon som fremmer forståelse av datasett
For å kunne fortolke data er det nødvendig med gode beskrivelser av data, beskrivelser kan forekomme som datapublikasjoner eller som lenking til publikasjoner som bruker data.

Bibliotekene kan:

  • Lage oversikter over hvor datasett kan finnes (discovery services for datasets)
  • Integrere datasett i øvrige gjenfinningstjenester (bibliotekkataloger)
  • Etablere og opprettholde kunnskapsbaser om data og deres kontekst
  • Støtte krysskoblinger/crosslinks mellom publikasjoner og datasett
  • Gi støttetjenester omkring informasjon omkring standardiseringer slik som opphavsrett, lisensieringer, kvalitet på lagringstjenester basert på sertifiseringer og søknadsprosedyrer for gjenbruk av datasett.
  • Gi hjelp til forskerne for å forstå metabeskrivelser for datasett

Veilednings- og informasjonstjenester kan være en rolle for bibliotekene i arbeidet med forskningsdata.

– Therese

Lage institusjonelle lagringsløsninger for datasett (repositories)

Norske forskere har i dag muligheter til å lagre data i forskjellige typer arkiver. Dette kan være arkiver som er forbeholdt ansatte ved en bestemt forskningsinstitusjon, dvs. institusjonelle arkiver. Institusjonelle arkiver er vanligvis plassert organisatorisk i tilknytning til et bibliotek eller IT-avdelingen. Andre arkivformer kan være nasjonale eller internasjonale datalagringsarkiver eller arkiver innen faglige forskningsområder eller knyttet til bestemte forskningsmetoder.

I Norge finnes det institusjonelle arkivløsninger ved de fleste universitetene og høyskolene. De drives av bibliotekene. Arkivene inneholder publiserte tidsskriftartikler, masteroppgaver, rapportserier og annet materiale. På en del fagfelt, hvor det det ikke finnes så mange etablerte praksiser, kan et institusjonelt arkiv for forskningsdata avhjelpe situasjonen.

Bibliotekenes erfaringer med denne typen arkivløsninger er verdifullt med hensyn til opprettelser av arkiver for forskningsdata. Kjennskap til Discovery tjenester (samsøk), informasjons- og metadatastandarder regnes som viktig funksjonalitet i arkiver for forskningsdata. Når forskningsdata skal lagres vil formatene på data som anvendes vil i mange tilfeller være andre enn i dagens arkiver, slik som for eksempel bilder eller lyd. Gjenfinning vil ha andre standarder og behov enn dagens institusjonelle arkiv for publikasjoner. Det finnes egne tekniske systemer produsert for å være institusjonelle løsninger for forskningsdata, men en del av dagens systemer kan utvikles for å ta høyde for andre filformater og informasjon slik at de kan benyttes til forskningsdata.

Utvikling av institusjonelle arkiver for lagring av datasett kan inngå som roller for bibliotekene.

– Therese

 

Metadatastøtte – for bedre gjenfinning av datasett

Bibliotekarer har arbeidet mye med metadata i forbindelse med katalogisering. I arbeidet med forskningsdata er det en forutsetning for gjenfinning er at gode metadatabeskrivelser legges på datasettene. I tillegg er det behov for permanente lenker som knytter sammen metadata om datasett (katalogposter) og publikasjoner om datasett (fagartikler eller datatidsskriftartikler). Det pekes på at Data Management Plans bør kunne kobles sammen med annen informasjon omkring selve lagringen av data og publikasjoner.

Bibliotekene kan bistå andre deler av organisasjonen/datalagringssenter med anbefalinger omkring metadata og tilhørende internasjonale standarder som benyttes for gjenfinning av datasett.

Bibliotekene kan:

  • Støtte arbeidet med permanente lenker og siteringsstandarder
  • Oppmuntre til utviklingen av felles metadatabeskrivelsesskjema og felles siteringspraksiser
  • Fremme bruk av felles standarder og verktøy blant forskere

Metadatastøtte til gjenfinning av data er en av aktivitene som kan inngå som roller for bibliotekene.

-Therese

Roller for bibliotekene?

Er forskningsdata et arbeid for bibliotek? Hva kan det innebære? Det er ikke mange norsk bibliotek som arbeider aktivt med forskningsdata. Dette er ikke så rart. Arbeid med tilrettelegging og deling av forskningsdata er ikke kommet langt i Norge. Internasjonalt har flere organisasjoner sett på ulike aktiviteter og roller som bibliotekene kan ta. Rapportene og føringene kan oppsummeres i 4 aktiviteter. Disse aktivitetene kan i seg selv utgjøre en rolle for bibliotekene, eller flere aktivitetene kan forekomme i en kombinasjon. På denne måten kan de utgjøre mulige roller innen forskningsdata for bibliotek i høyere utdanning:

Bloggen vil fremover komme med en utdyping av hva disse 4 aktivitetene innebærer i egne poster. Postene er basert på følgende rapporter og føringer:

– Therese

The Dataverse Network

The Dataverse Network ble opprinnelig etablert av Harvard og MIT. Målet var å skape et Data Management System og publiseringsrammeverk innen samfunnsvitenskapene. The Dataverse Network har utviklet seg over tid, slik at det nå brukes på flere fagfelt. Webapplikasjonen brukes for å publisere, dele, referere, hente ut informasjon og analysere data i forskningsprosessen. Det legges vekt på alt arbeidet som skjer i selve forskningsprosessen, slik at det blir noe mer enn en ren arkivløsning

Dataverse - oppbygging

Crosas, M. (2011) The Dataverse Network®: An Open-Source Application for Sharing, Discovering and Preserving Data. D-Lib Magazine, January/February 2011, Volume 17, Number 1/2 : doi:10.1045/january2011-crosas

Strukturelt er The Dataverse Network bygget opp av flere deler. Forskningsinstitusjonen kan legge til rette for å opprette et nettverk av arkiver. Et «dataverse» er et virtuelt arkiv. En forsker eller en forskningsgruppe kan ha et «dataverse» arkiv, som igjen kan bestå av ett eller flere forskningsstudier med tilhørende data. For hvert «studium» skal det gis informasjon om datasett, dokumentasjon, kode og katalogiseringsinformasjon/metadata.

The Dataverse Network har mye funksjonalitet. Det er mange utfordringer ved lagring og deling av forskningsdata. Muligheter for backup, versjonshåndtering av data, koblinger til statistiske analyseverktøy, permanente identifikatorer og siteringer for datasett er blant utfordringer som The Dataverse network ivaretar. Interesserte kan lese flere publikasjoner på nettsidene til The Dataverse Network.

Mange forskere er redd for at datasett vil feiltolkes når data gjøres tilgjengelig. Siteringer for datasett og muligheter for å lenke til datasett hjelper å hindre dette, og gir anerkjennelse til forskeren for arbeidet som er gjort. I Dataverse legges permanente identifikatorer til studiene automatisk, og permanente lenker kan brukes ved skriving av vitenskapelige artikler. Forskeren har tilgang til lenken med en gang datasettet er lastet opp. Etter at artikkelen er publisert, så kan hun åpne for at andre kan se innholdet i datasettet.

Henvisninger til datasett skrives inn i referanselisten på en vitenskapelig artikkel. Siteringen kan se slik ut:

McGann, Anthony. 2013. Replication data for: Estimating the Political Center from Aggregate Data: An Item Response Theory Alternative to the Stimson Dyad Ratios Algorithm. http://dx.doi.org/10.7910/DVN/22861 IQSS Dataverse Network [Distributor] V1 [Version].

Dataverse er bygget på åpen kildekode, open source, og er gratis tilgjengelig. For de som driver med åpen kildekode, vil elementene som Dataverse bygger på, dvs. Red Hat Linux, Glassfish Server, PostgreSQL m.m. være gjenkjennelig.

Åpen kildekildekode gir muligheter for å velge om man vil utnytte tilgjengelig tilleggsfunksjonalitet. Det finnes blant annet en Open Journal System plug in, som lager koblinger mellom tidsskrifter produsert i verktøyet Open Journal System og Dataverse. Det er mulig å legge til Google Analytics og koblinger til Twitter.

For de mer teknisk interesserte, vil nok Installers Guide være informativ.

– Therese

UiT Dataverse Network

Universitetsbiblioteket i Tromsø er først ut i Norge med open source programvaren Dataverse som brukes til å lage forskningsdataarkiver. Da UiT i sommer lanserte arkivet TROLLing ble dette tatt inn som en del av UiT Dataverse network .

Leif Longva

Leif Longva

Jeg har spurt Leif Longva ved avdeling for IT, formidling og utvikling om deres erfaringer så langt og planer fremover.

– Hvorfor valgte dere Dataverse?

Det var en henvendelse fra fagmiljøet i lingvistikk som fikk fart på våre planer om å opprette et arkiv for forskningsdata. Vi ser dette som en naturlig fortsettelse av arbeidet med vårt institusjonelle arkiv, Munin, og Open Access tidsskrifter. Føringene i Horizon 2020 omkring datalagring har vært viktig.

Dataverse ble valgt fordi vi ønsket et system som var tilpasset formålet lagring av forskningsdata. Vi likte måten som organiseringen av forskningsdata var og hvordan man kan administrere data i systemet. Installasjonen er basert på Open Source, og kommer fra Harvard universitet som er anerkjent. På forhånd hadde vi en del spørsmål som vi fikk avklart med Universitetet i København. De har en Dataverse installasjon kalt DataBox. Det var også medvirkende til valget.

– Hvordan har dere organisert arbeidet med UiT Dataverse Network?

Når vi først startet arbeidet ble det det satt ned en prosjektgruppe, hvor fagmiljøet i lingvistikk kom med innspill med deres ønsker omkring et forskningsdataarkiv, og var med på å velge metadata-felt. Fra bibliotekets side har fire personer ved avdeling ved IT, formidling og utvikling, blant annet våre to systemteknikere. I tillegg har to fagreferenter som er knyttet til fagmiljøene innen lingvistikk vært koblet på. Fagreferentene har en rolle i forhold til administrering av informasjonen i systemet, hvor de ser på innholdet som legges ut, og gjør en tilpasning av metadata.

Når vi har en forskningsdatainstallasjon innomhus gir det oss en bedre kontakt mellom fagmiljøene og forskernes behov. Vi finner det veldig nyttig. I tillegg gir dette kontroll med hvilke endringer i systemet vi kan gjøre.

– Hvordan synes dere arbeidet har fungert så langt?

Totalt sett, så synes arbeidet med Dataverse og opprettelsen av arkivet TROLLing har fungert bra. Det er vanskelig å si hvor mange ressurser vi har brukt på arbeidet så langt. Installasjonen er ikke like enkel å få til som for eksempel dSpace, og vi arbeidet litt med server tilgangen. Metadata krever litt tilpasninger. Prosjektgruppen har gjort sitt arbeid. Det var viktig å få arkivet på plass, og vi ser muligheter for videreutvikling.

– Har dere noen tanker for videre arbeid?

Vi ønsker å utvikle arkivet videre. Vi åpner for at flere fagmiljø ved Universitetet i Tromsø kan legge ut sine forskningsdata.

På den mer tekniske siden er vi i forhandlinger for å kjøpe DOI. I dag bruker vi Handle, slik at vi kommer til å tilby begge lenketyper. Nye oppdateringene som er planlagt fra Dataverse innebærer at de utvider sine metadata til å omfavne fagområder som astrofysikk og biomedisin.

Det hadde vært kjekt om flere fagmiljøer og bibliotek i Norge vil etablere Dataverse-arkiver.

– Therese

TROLLing i Tromsø

Trolling

Fagmiljøet ved Lingvistikk og Universitetetsbiblioteket ved Universitetet i Tromsø utført litt magi og skapt TROLLing. TROLLing står for The Tromsø Repository of Language and Linguistics. 18. juni i år ble det nye arkivet for lagring  og deling av forskningsdata lansert.

Dette faglige forskningsdataarkivet er tilpasset lingvistiske data og statistisk kode. Arkivet inneholder søkbare metadata som identifiserer forskere, språk, fenomen, statistiske metoder og publikasjoner. Forskere innen feltet kan selv laste opp databaser og statistiske modeller. Arkivet vil være åpent for forskere som arbeidet på feltet. Dette betyr at det også er åpent for forskere som ikke er tilknyttet Universitetet i Tromsø.

TROLLing er utviklet i samarbeid med det europeiske nettverket CLARIN (Common Language Resources and Technology Infrastructure).

Arkivet er et samarbeid mellom fagmiljøet ved Insitutt for språkvitenskap og Universitetsbiblioteket. Fagmiljøet har nedsatt et internasjonalt styre som kvalitetskontrollerer innhold. Biblioteket har ansvaret for de tekniske og rettslige aspektene.

Vi håper arkivet blir populært blant språkforskerene, og får mye nyttig innhold.

Gratulerer med et nytt arkiv!

– Therese

Forskningsdata – om bloggen


Forskningsdatabloggen har sitt utspring ved BI Biblioteket. Innleggene på bloggen er en del av bakgrunnsarbeidet vårt med forskningsdata. Noen av postene på bloggen kommer til å være knyttet til et prosjekt ved BI biblioteket. Prosjektet er tildelt midler fra Nasjonalbiblioteket, hvor vi blant annet skal se på norske aktører for avlevering og lagring av forskningsdata.

Målet vårt er å blogge ca. 1 gang i uken i perioden fra august 2014 til slutten av desember 2014.

Dagmar og Therese er de som vil blogge mest. Vi er knyttet til bibliotek i høyere utdanning. Litt mer om oss:

Dagmar Langeggen er bibliotekdirektør ved Handelshøyskolen BI. Hun er opptatt av utvikling av  lagring og deling av forskningsdata i Norge. Prosjektleder for utvikling av pilotprosjektet BIRD (BI Research Data) om lagring og deling av forskningsdata.

Therese Skagen er utdannet samfunnsviter med variert erfaring innen fag- og forskningsbibliotek. For øyeblikket ansatt i engasjement ved BI Biblioteket og masterstudent ved bibliotekutdanningen ved HIOA.

Kanskje det vil dukke opp noen gjestebloggere i løpet av høsten?

God lesing!

Dagmar og Therese