(OAI9) –Genève, 17:e-19:e juni, 2015
CERN Workshop har hållits nio gånger sedan 2001, med början på CERN, men sedan i samarbete med universitet i Geneve. Hålls numera vartannat år.
Första dagen inleddes med mycket tekniska seminarier – tutorials. Ett av dem handlade om hur man kommer åt olika dokument som inte finns omedelbart tillgängliga.
Memento är ett protokoll, utvecklat bland annat av Herbert van der Sompel, för att kunna komma åt tidiga versioner av ett dokument. Det finns olika versioner av webbresurser arkiverade i webbarkiv, innehållshanteringssystem (CMS) med mera. Memento ser hela webben som ett Content Management System. Mementoprotokollet integrerar den nuvarande och den gamla webben. Det skapar ingen ny databas utan gör existerande material sökbart. För att kunna komma åt olika versioner, inför Memento ett datumsystem i dokumentets header för direkt sökbarhet. Tidsmarkeringen blir den globala sökvägen för länkade data. Det finns olika versioner av ett och samma dokument på webben. För att länka mellan dess olika versioner skapar Memento broar mellan det ursprungliga dokumentet och senare versioner. Det finns en mementoextension till Chrome för att söka efter äldre versioner av olika dokument. Det plockar fram dokumentet där det bäst är representerat, närmast i tid till det datum man söker efter. Memento drivs som ett utvecklings-/forskningsprojekt och det är svårt att bedöma i vilken mån framtida webbarkiv kommer att stödja protokollet.
Efter denna tutorial (det fanns 6 stycken att välja bland) var det dags för det inledande öppningsanförandet. Michael Nielsen talade inspirerat om vad som kommer efter Open Access och fokuserade på vetenskapliga publikationer som går långt utanför en kopia av den tryckta tidskriftsartikeln. Ett väsentligt drag i denna, nya publikationstyp är dess sammansatthet (Complex Scientific Objects). Många olika format – video, program som manipulerar givna data, möjligheter att skriva egen kod för att göra undersökningar på det dataset som hör till artikeln – med mycket mera. Ett exempel som Nielsen lyfte fram var IPython Notebook, som är en mjukvara där man i ett textflöde kan inkludera beräkningar och algoritmer som läsaren direkt kan göra simuleringar på.
Det blev en fascinerande inblick i hur den framtida vetenskapliga artikeln kommer att se ut. Som en pendang till detta anförande handlade konferensens sista plenarsession om hur man skall bevara dessa sammansatta data för framtiden – ett problem som visade sig mer svårlöst än man intuitivt föreställer sig.
Michael Nielsen talar om ”läsare” som finner nya forskningsdata i en publicerad ”artikel”.
Den inledande, tekniska plenarsession som följde, handlade mycket om att återskapa länkar till olika dokument.
SPARQL är ett språk och ett protokoll, som kan ställa frågor till en databaskälla och få tillbaka resultat utan att man behöver känna till den speciella gränssnittsstrukturen hos databasen. Ruben Verborgh talade varmt om detta. Martin Klein fortsatte med referenser som saknar de ursprungliga dokumenten. (Reference Rot and Link Decoration). Det visar sig att en stor procentandel av de artiklar som skall finnas i många mycket välrenommerade arkiv, som till exempel arXiv, inte går att direkt återfinna. Högsta Domstolen i USA har en länkröta på 29% och hälften (49%) av alla referenser som domarna hänvisar till fungerar inte längre. Tobias Kuhn spann vidare om nanopublikationer och hur man skall använda dessa i stället för vanliga publikationer till att skapa ett decentraliserat nätverk för att publicera sig. Det kommer 1,5 miljoner nya publikationer varje år.
Efter lite kaffe var det dags för plenarsession två – Barriärer och sätt att ta sig förbi dem
Open Button är ett sätt att komma åt material som befinner sig bakom paywalls. När man kommer till en paywall trycker man bara på knappen Open Button, som man installerat tidigare, så letar programmet fram andra versioner, som ligger fritt tillgängliga, av den artikel man vill ha. Finns inte detta, så återkommer programmet till dig och ber om mer information. Det fungerar riktigt bra enligt några av användarna. Programidén hade utvecklats av två studenter. Joseph MacArthur ville se detta sprida sig bland forskare.
Erin McKiernan fortsatte i samma spår och talade mer om hur man finner open access-material utan att ha tillgång till betalversionen av artikeln. Efter att ha fått ett stort antal mejl från studenter hon undervisat, vilka bett henne ladda ned dokument man måste betala för, förstod hon att detta var ett verkligt problem för många forskare. Hon tog ett beslut att bara publicera sig Open Access i framtiden och uppmanar alla andra att göra likadant, även om det innebär att man inte blir publicerad i de tidskrifter som har högst impact factor. Det gäller att se förbi citeringar och impact factor av traditionell modell och använda andra mått för tidskriftsartiklars inverkan på forskning. DORA – San Francisco declaration on research assessment (dec. 2012) betyder att man förpliktigar sig att inte ta hänsyn till JIF (Journal Impact Factor) när man anställer medarbetare eller att bry sig om JIF för den tidskrift man publicerar sig i. Det viktiga är att forskningsresultatet kommer ut till forskarna för att användas i vidare forskning. Det verkar bli ett tufft arbete att kämpa mot de stora förlagen, men Erin var verkligen besjälad. Howard Ratner fortsatte med bättre sätt att komma åt Open Access-material. Han presenterade CHORUS – som gör det lättare för alla att finna den bästa versionen av OA-material, forskningsartiklar som finansierats med skattemedel. Bianca Kramer och Jeroen Bosman gick vidare på den inslagna vägen och presenterade ännu ett sätt att gå vidare med Open Access till Open Science, som bland annat inskränker de stora förlagens tidskrifters påverkansradie. Mer forskning publicerad direkt på nätet minskar behovet av att publicera sig i högstatustidskrifter. Fokus skiftar från ”tidskrifter” till individuella, ”publicerbara enheter”. Tyler Walters fortsatte med open science och behovet/nödvändigheten av att dokumentera sina arbeten, tala om att de finns och dela resultatet med andra. Walters är ledare för SHARE, som skapar ett öppet dataset om forskningsaktiviteter över dess livscykel. Denna omfattande inventering av forskning kommer att bli allmänt tillgänglig, möjligt att söka i och återanvändbar. Man bygger just nu upp en notification service i samarbete med Center for open science. Härifrån kan man utveckla sökbara forskningsdata för resten av världen.
Dagen avslutades med att deltagarna delade dryckjom med varandra. Inom kort blev alla hungriga och drog vidare mot lämplig restaurang.
Andra dagens första tema – Open peer reviewing – kvalitetssäkring
Det stora problemet med peer review är att de flesta granskare tar lång tid på sig och kvaliteten är inte så hög som man kan kräva. Det fanns flera sätt att lösa detta.
Ett program kallat Publons skulle ge credit åt den som utför recenserandet. En review skulle kunna ingå i CV:t och bedömas i sig som bra eller dåligt. Från PLOS talade Damian Pattinson om hur en öppen reviewprocedur ökar läsbarheten hos ett dokument. Jämförelser gjordes med Tripadvisor till exempel, där användare skriver recensioner av hotell och sevärdheter i en stad. Janne Thomas-Seppänen från Finland beskrev en modell som ger credit åt den som gör en peer review av en vetenskaplig artikel. Själva arbetet är ju också en vetenskaplig ansträngning. Han anbefallde https://www.peerageofscience.org där man kan anmäla sig som peer reviewer och sedan recensera de artiklar man önskar. Janne Thomas-Seppänen har startat Peerage of Science och driver nu ett företag för att sälja in tjänsten hos olika förlag.
Sex breakout sessions avslutade arbetet den andra dagen. Jan gick och lyssnade på en intensiv diskussion om hur man skall hantera APC – Article Process Charges. Det blev mycket detaljerat om hur man betalar fakturor, om de ibland höga kostnaderna för att publicera en forskningsartikel OA ($ 5.000 eller mer), om ett tyskt initiativ att publicera OA-kostnaderna på en egen sajt OpenAPC Initiative – https://github.com/OpenAPC/openapc-de – och mycket mer. Det märktes att hela konferensen besöktes av hårt specialiserade bibliotekarier, som hade fackkunskap inom just sitt område.
Andra dagens kväll avslutades på Musée Ariana med champagne och vackert utställda föremål.
Plenarsession fem – Akademia i centrum för publiceringen i stället för de renommerade förlagen
Humaniora har en långsammare forskningsprocess, förlitar sig mer på monografier och finns oftast inte representerat i Web of Science, särskilt när det gäller andra språk än engelska, vilket gör det svårt att plocka fram bibliometriska data och jämföra forskning mellan olika institutioner. Det finns emellertid ett rikhaltigt OA-landskap runt det humanistiska elfenbenstornet. Viktoria Tsoukala beskrev humanioras plats i forskningsprocessen. Hon inledde med en lång litania om den besvärliga situationen för grekisk ekonomi och forskningspengar som inte kommer att finnas i framtiden. Genom att producera publikationer på lokal basis och publicera i National Documentation Centre, kan man undkomma de dyra OA-kostnaderna för statustidskrifter och samtidigt sprida forskningen till alla intresserade parter. http://epublishing.ekt.gr är ett sådant initiativ där det finns 19 tidskrifter, böcker och peer-reviewade konferensbidrag. Initiativet är småskaligt, men ger ändå en bra tillgång till viktig forskning. Ett annat initiativ är GRISSH – Greek Reference Index in the Humanities. Institutionell samordning på Europanivå är önskvärd och det behövs internationella, gemensamma standarder för att lätt kunna arbeta med databaser.
Catriona McCallum betonade vikten av publicering på institutionsnivå. I stället för att betala dyra pengar till stora förlag kan man skapa lokala repositorier och lokala tidskriftsvarianter där man kan publicera lika kvalitativt högtstående artiklar som i förlagstidskrifter med hög impact factor. McCallum kom från PLOS och beskrev kortfattat de sju megatidskrifter man distribuerar och den mängd artiklar de innehåller. 33.000 artiklar publicerades år 2013. Koncentrationen bland de kommersiella förlagen har ökat starkt under de senaste fyrtio åren. År 1973 hade de fem största förlagen 20% av publikationerna i naturvetenskap och medicin. 2013 hade den procentandelen ökat till 53% för de fem – Elsevier, Taylor&Francis, Wiley-Blackwell, Springer och Sage. Publiceringscykeln handlar inte längre enbart om artiklar och böcker och den är inte längre en cykel utan ett nätverk! Nätverkens interkonnektivitet är ett viktigt fenomen, som i sig självt leder till förändringar. Vi bör tänka oss en forskningsinstitution som tillhandahållare av service. Det finns omfattande maskinläsbar information, DOI-nummer, ORCID-nummer med mera, som är lätt att använda. Institutionella databaser blir mer och mer utnyttjade. Vi bör sätta akademin själv i centrum för den vetenskapliga publiceringen i stället för de kommersiella förlagen.
Rupert Gatti talade om samma ämne – hur akademin i sig självt bör komma i centrum för publiceringen. En talande bild visade hur den exklusiva publiceringen i högt rankade tidskrifter hos statusförlag bör ersättas med en direkt kommunikation från den enskilda forskningsinstitutionen (Research Center) till dess tänkta publik. Problem finns. Forskningscentra brukar inte ha den typ av expertis som behövs för att publicera sig, men oftast finns det hjälp på nära håll att konsultera – IT-service, arkiv, PR-team, marknadsföringsgrupper med mera. Här kan institutionerna finna hjälp till dessa nya publiceringsfunktioner, som av tradition inte legat på de enskilda institutionerna. Ett annat, och större, problem är forskningscentras begränsade livslängd. En grupp finns kanske bara i ett par år – det vill säga så länge fondmedlen räcker. Här krävs en koordinering med existerande arkiv. University of Cambridge Conservation Research Institute är exempel på ett sådant arkiv där man koncentrerar sig på bevarandet av den biologiska mångfalden och hur det påverkar oss.
Till sist det mest framtidsinriktade av de sex plenarsessionerna – Complex Scientific Objects
Andreas Rauber beskrev svårigheten i att bevara sammansatta digitala objekt (Complex Scientific Objects). Först en definition. Ett sammansatt digitalt objekt är mer av en process än ett färdigt och statiskt dokument. Ett statiskt dokument är en typ av artiklar som efterliknar de tryckta varianterna. Processinriktade artiklar innehåller ofta flera olika typer av material. Att presentera forskningsdata – rådata – och sedan låta ”läsarna” utföra sina egna experiment på rådatat genom att skriva en kodsnutt som exekverar en egen undersökning, med utgångspunkt från beskrivningen av vad rådatat skall användas till, är exempel på ett typiskt, sammansatt vetenskapligt dokument. Det bör bevaras så att forskningsdata och resultat behålls konstant över tid.
Att detta bevarande inte är så lätt visades av en artikel i PLOS, som hade skapats i ett operativsystem, men användes i ett annat OS av en läsare. Då visade sig resultatet av undersökningen/artikeln bli annorlunda. Även när undersökningen upprepades med en annan version av samma operativsystem, blev undersökningsresultatet avvikande från det ursprungliga resultatet. Det började kännas lite skrämmande när till och med en annorlunda, uppdaterad version av ett OS kunde ge ett resultat som divergerade märkbart från den ursprungliga undersökningens. Uppdateringar sker ju regelbundet. När rådata skall bevaras måste man alltså också notera och bevara mjukvarans variant noggrant för att kunna genomföra kontrollexperiment i framtiden. Särskilt alarmerande var detta eftersom denna undersökning gällde en medicinsk artikel om hjärnans funktioner. Medicinska experiment vill vi ju gärna att de skall ge så lika resultat som möjligt över tid, för att inte äventyra vår hälsa. Rauber och hans grupp föreslog att man skulle skapa en Process Management Plan för att säkerställa att rådatat var detsamma som det ursprungliga, att forskningsprocessen var densamma och att resultatet säkerställdes. Genom en Automatic Model Generation skulle den miljö där forskningen genomfördes kunna säkerställas och återskapas. Man måste också kunna identifiera dynamiska (förändringsbara) data och kunna säkerställa att man kan återskapa data precis som det såg ut vid en viss punkt i tiden – viktigt för att kunna citera dessa dynamiska (förändringsbara) data. 14 rekommendationer grupperade i 4 olika grupper presenterades i föredraget.
P.-Y. Burgi presenterade ett projekt för universiteten i Schweiz – The DLCM Project. Projektet har inte startat ännu, men har presenterat en första studie som kan användas för en mer omfattande projektplan. Även han funderade över vad sammansatta data egentligen var för något. Sammansatt data (Complex data) karakteriserades av 1) många olika format i samma ”dokument”, 2) flera olika strukturer, 3) många källor, 4) flera modi och 5) att det finns i många olika versioner. Olika verktyg för att behandla, bevara och bearbeta dessa data presenterades.
CERN Open Data Portal är en sajt där man kan gå in och göra egna experiment (tillämpa egenskapade algoritmer) på det rådata CERN producerar. Det finns på http://opendata.cern.ch/ Det går också att ladda ned förvalda experiment till den egna datorn för att genom en visualisering kunna se hur olika typer av partiklar skapas vid partikelkollisioner. Patricia Herterich och Tibor Simko gick igenom detta och presenterade dessutom Invenio – mjukvara i öppen källkod för öppna institutionsdatabaser, Inspire – ett databassök som produceras på CERN, Zenoob och Labor Doc. Liksom de övriga presentatörerna i denna plenarsession var forskningsdatapresentationen interaktiv och kunde modifieras av användaren/”läsaren”. Här skapas möjligheter att upptäcka nya saker vid ”läsningen” av ett dokument eller en datafil, något som inte är möjligt i den traditionella vetenskapliga artikeln publicerad på papper.
Vi hann också med ett kort besök på CERN och deras bibliotek.
Jonas Gilbert
Jan Magnusson