‘Migreren maakt meer kapot dan je lief is’
‘Migreren maakt meer kapot dan je lief is’
Kennis, op Heterdaad op (digitaal) papier gezet: een sfeerverslag van de sessies. Meer inhoud staat in de presentaties.
Aankondigingen
Koninklijke Bibliotheek
.
De foto suggereert misschien dat we 31 januari 2017 een beetje hebben lopen ronddwalen door dat luilekkerland van de Koninklijke Bibliotheek - 43 Papieren Tijgers aan de hand van Curator Ad Leerintveld - en eerlijk gezegd is het nog waar ook!
Alleen... dit was maar een fractie van het programma. Maar liefst 8 experts spraken ons toe. En dat werd gewaardeerd. De evaluaties scoorden eveneens een volle, ronde 8, met als opmerkingen bijvoorbeeld: ‘Zeer sterke sessie! Deskundige sprekers!!’ of ‘Jammer dat je een keuze moet maken voor de parallelsessies’ maar ook ‘Door de hoeveelheid en nieuwe info is het lastig om door te geven aan collega’s. Sheets en/of verslag heb je dan echt nodig’ en ‘Meer inzoomen op de praktijk. Zat er maar 2x zoveel tijd in een middag :-)’
En daarmee is de positieve sfeer goed neergezet. De sprekers waren over het algemeen bere-enthousiast (bere is een veelgebruikt woord, deze dag, zie verderop) en dat werkte aanstekelijk voor sommige deelnemers. Mooi! Een verslag:
De KB
Elsbeth Kwant, de gastvrouw van vanmiddag, strategisch adviseur van de KB-directie, heeft het al meteen zwaar te verduren. Direct bij de opening dreigt voorzitter Simon haar naar IJsland te sturen als haar lovende woorden vooraf over haar collega-experts niet zouden kloppen. (Je weet het tenslotte nooit, als organisator: je spreekt alles wel helemaal door met de gastorganisatie, maar hoe dat nou uitpakt...) Ze geeft geen krimp en introduceert op wervelende wijze de KB.
Boeiend is om te zien hoe de KB zich continu ontwikkelt. Er is eerst natuurlijk heel veel expertise rond manuscripten bijvoorbeeld, maar het vakgebied groeit razendsnel evenals de hoeveelheden informatie. Vergeet niet dat het oudste manuscript van ca. 800 is en het eerste gedrukte boek van 1477. Al die digitale spullen zijn maar van de laatste paar decennia. En de KB verzamelt alles... Sinds 1974 ligt er 1 exemplaar van alles dat in Nederland verschijnt - in het Depot voor Nederlandse publicaties - en in 1994 is besloten ook een Digitaal Depot aan te leggen. 2009: Besluit om alles ‘uit Nederland’ te digitaliseren. Ga er maar aanstaan.
Inmiddels ligt 120 km bibliotheekmateriaal onder de grond, dat wil zeggen in de kelders van de KB. Twee voetbalvelden groot. Maar het gaat absoluut niet alleen om de collecties, natuurlijk ook om het gebruik. Vanaf 2015 heeft de KB zelfs een spilfunctie voor de openbare bibliotheken, naast de rol met wetenschappelijke bibliotheken. Uiteraard is daar het jaarbudget op aangepast, nu bedraagt dat € 89 miljoen, en het aantal medewerkers: ca. 500 (350 fte).
Maar er zijn meer getallen. Wat dacht je van:
๏18% bereik in Nederland
๏3 miljoen ebooks uitgeleend
๏16 miljoen sessies digitale diensten
๏50 miljoen artikelen
๏62 miljoen gedigitaliseerde pagina’s
De huidige visie is dat interactie met geschreven woord mensen slimmer, vaardiger en creatiever maakt. En juist dat wil de KB teweeg brengen, voor Nederlanders van elke levensfase, ook laaggeletterden en mensen zonder digitale vaardigheden. Dit alles vergt enorm veel aan de achterkant, onder de motorkap. Het leggen van verbindingen tussen al die mensen en informatie is het doel van de Nationale Digitale Bibliotheek. Zoveel mogelijk digitale content voor de klant: zichtbaar, bruikbaar maar ook houdbaar. Het is duidelijk dat niet 1 organisatie dat allemaal alleen kan bewerkstelligen. Daarom wordt samengewerkt in een uitgestrekt netwerk van nationale en internationale partijen. En toch moet de klant niks van die complexiteit merken.
De Toekomst: Research & Development
Martijn Kleppe, Adviseur Digital Scholarship & Internationale Samenwerking, neemt hier het stokje over. Het werkterrein van de KB is zoals beschreven continu in ontwikkeling, dus de organisatie moet bijblijven. Nee: voorop lopen, want anders sukkel je continu achter de feiten aan. Bovendien zijn er allerlei terreinen waarop het wiel nog moet worden uitgevonden. Vandaar dat veel onderzoek nodig is, maar ook veel ontwikkeling op basis van dat onderzoek.
De afdeling Onderzoek heeft daartoe 3 uitgangspunten & fases:
๏Experimenteren & verkennen
๏Samenwerken met opdrachtgevers & Uitvoeren
๏Kennis delen
Martijn geeft de Digital Humanities als voorbeeld, het op digitale wijze onderzoek doen naar de geesteswetenschappen. Je speurt bij Humanities-onderzoek in allerlei bronnen en dat zijn projecten die vele jaren kunnen duren met heel veel handwerk. Stel dat je dat digitaal kunt doen en ook nog allerlei bronnen met elkaar kunt koppelen. Dat levert enorme tijdwinst op en vele nieuwe mogelijkheden, zoals het vinden van die ene quote in een database met digitale TV-programma’s. Een voorbeeld dat hij geeft is het koppelen van informatie uit de Staten Generaal met onder andere uitgeschreven ANP-radiobulletins. Dat opent nieuwe mogelijkheden voor zoeken en verrijking.
Met 15 m/v heeft de afdeling Onderzoek veel vrijheid en tijd voor experimenteren binnen de gestelde doelen. Het is wel zo dat er altijd een opdrachtgever moet zijn voor een onderzoek. Essentieel is ook de resultaten te delen met de organisatie. Men weet natuurlijk dat er ‘supertoffe dingen gebeuren’, maar wat precies? Dat is erg belangrijk.
En voor wie doe je het allemaal? Voor die paar honderd datawetenschappers die professioneel onderzoek doen? Nee, ook voor dat miljoen andere speurders en de miljoenen OB-gebruikers. Er is namelijk ook veel te leren van die datawetenschappers. En dat wordt gestimuleerd, via een jaarlijkse Hackaton bijvoorbeeld. En door symposia te organiseren om te achterhalen wat anderen doen met de KB-data. Tip van Martijn: de expertise achter Blendle.
En dan kom je op interessante projecten zoals computers trainen om zelf artikelen te classificeren. Of historische foto’s in gescande artikelen automatisch te omschrijven, mits er tekst bij staat. En wat denk je van een Ngram Viewer die aangeeft hoevaak een specifiek woord voorkomt in de loop der jaren?
Digitale Duurzaamheid
Ik wist dat het niet simpel was, maar met een handvol URL’s op deze pagina ga ik er misschien uitkomen... Barbara Sierman introduceert ons in de wereld van het onderzoek en vooral de toepassing van Digitale Duurzaamheid. De KB is daar al 20 jaar mee bezig en zowaar inmiddels ook Google.
OAIS (Reference model fort an Open Archival Information System) is ‘onze bijbel’ zegt ze. Het bevat de basisregels voor digitale duurzaamheid, maar je moet ze wel vertalen naar je eigen mogelijkheden. Helaas geen one-size-fits-all oplossingen. Je moet jezelf de volgende drie vragen stellen:
1.Wat willen we bewaren?
2.Hoe komt het binnen?
3.Wat zijn de verwachtingen?
Vooral die derde is natuurlijk tricky. Niet voor niets heeft de KB al die onderzoekers en andere professionals in dienst. Want hoe zullen de ontwikkelingen gaan, in de bestaande materialen en wat zijn nieuw te ontwikkelen materialen? Bij deze insteek valt op dat het accent meer ligt op materiaal dat elders zijn oorsprong vindt dan op zelf geproduceerde documenten. Terzijde komt ook de rol van de overheid ter sprake als norm-oplegger (sinds 2017 moeten overheidsleveranciers hun rekeningen digitaal aanleveren als e-facturen of in pdf/a formaat).
De KB heeft heel wat verschillende digitale collecties duurzaam vast te leggen. Denk maar aan ejournals, ebooks, websites, alles wat in Delpher zit (zelf gedigitaliseerde kranten, boeken, tijdschriften) en natuurlijk ook oude gegevensdragers, van floppies en CD-Roms tot DVD’s.
Wat doet de KB aan al deze collecties? Uiteraard het genoemde monitoren van ontwikkelingen, maar ook het adviseren, het experimenteren, ontwikkelen, aanpassen van tools en het opstellen van richtlijnen (file formaten). Daarnaast worden digitaliserings-specificaties ondersteund en werkprocessen ontworpen en kwaliteitscontrole uitgevoerd. Zo zijn de risico’s per file-formaat in kaart gebracht en richtlijnen opgesteld. Complicerend is dat software vaak erg ingewikkeld is en niet alle tools 100% werken. Dus het is de moeite waard om bij waar mogelijk al in het beginstadium van digitaliseringsprojecten betrokken te zijn en invloed uit te oefenen, bijvoorbeeld op metadata, formaat, scan-instellingen. Een perfect voorbeeld daarvan is de Persistent Identifier: een permanente verwijzing en uniek label naar een digitaal object. Die identifier blijft vanaf de creatie van het materiaal ofwel vanaf de eerste registratie (denk aan museumstukken) identiek. Dat maakt het altijd en overal eenduidig terug te vinden en voorkomt dubbel werk. Voor museumregistraties is Nederland wereldwijd de eerste die dit doet.
Twee praktische bevindingen van de KB betreffen de al eerder genoemde floppies en het beeldmateriaal. Wat betreft die oude gegevensdragers: eerst slaat de KB de inhoud digitaal op, precies zoals hij is, daarna wordt verder gekeken. Stap voor stap. Immers: ‘Migreren maakt meer kapot dan je lief is’. Dat is een lering die men wel getrokken heeft inmiddels.En qua beeldmateriaal: veel is uiteraard vastgelegd - ook binnen de KB zelf - in Tiff-formaat. Dat vergt erg veel opslagruimte. Om die reden is onderzocht of het compactere JPEG2000 ook niet voldoet. En inderdaad. Dus nu is JPEG2000 de nieuwe KB-standaard voor beeld.
En zoals we weten: de KB doet het niet alleen. Sinds 2007 werken ze in de Nationale Coalitie Digitale Duurzaamheid. Dus dat is de uitgelezen plek om nadere informatie over digitale duurzaamheid te verkrijgen, vooral waar het gaat over Netwerk Digitaal Erfgoed.
Nationale Digitale Bibliotheek
Dienstenmanager & Informatiemanager Frank Bergsma leidt ons - na een inspirerend bezoek aan de Topstukken en een wandeling door diepe catacomben en moderne leeszalen - met behulp van de kenmerkende prachtige plaatjes de wereld van de Nationale Digitale Bibliotheek in. Zoveel content, zoveel eindgebruikers. Ongelooflijk. Of je nou datawetenschapper bent of ‘gewoon’ OB-klant, het is voor iedereen. Dat vergt niet alleen al die digitale objecten, maar ook een hele grote back-office voor het traject van inkoop tot en met ontsluiting en natuurlijk marketing en... intermediairs (zoals Frank).
De ambitie is fors en de roadmap weerspiegelt dat. Eerst de basis op orde krijgen en dan
Inspireren en participeren, Samen verder bouwen en... Iedereen zijn eigen bibliotheek. Ja ja, je Eigen Bibliotheek. Maar eerst de infrastructuur regelen, de metadata afstemmen op de doelgroepen, derden de kans geven hun eigen producten te maken op grond van het KB-materiaal. En die Eigen Bibliotheek? De gebruiker moet zelf kunnen bepalen hoe hij of zij de informatie krijgt. Spannend. Bere-spannend. Eind 2018 moet het zover zijn.
Welke bouwstenen kun je als KB bieden aan gebruikers zodat ze zelf hun eigen informatievoorziening kunnen inrichten? Vergelijk het met een auto: je kunt wel de wielen en carrosserie aanleveren, maar daar kan een gewone gebruiker niks mee. Geef hem de keuze uit een simpel product dat echt werkt en van waarde is voor de klant (Minimum Viable Product) of meer uitgebreide varianten.
Al met al krijg je heel veel bronnen in 1 interface. Zo zal de aanvraag van een boek worden doorgelinkt naar de leverende partij, van een ebook naar de KB zelf, van een luisterboek naar een app.
De score tot nu toe? De Nationale Digitale Bibliotheek bereikt 18% van de Nederlanders. In 2016 zijn er 16 miljoen sessies met digitale diensten geweest en voor 2017 is het doel 20 miljoen.
Textdatamining
Theo van Veen duikt met een selecte groep deelnemers - het is de eerste parallelsessie - in de data. Zijn focus: verbetering vindbaarheid en bruikbaarheid van de digitale content van de KB. Daartoe gaat hij aan de hand van 34 sheets in op de combinatie van verrijkingen, machine learning en crowd sourcing. Wat een machtig interessant onderwerp (om het woord ‘bere’ te vermijden)!
Hoe werkt dat verrijken? Het betreft met name het beter vindbaar en bruikbaar maken van content, vooral krantenartikelen, door verrijken van tekst of onderdelen van tekst met gerelateerde informatie. Die gerelateerde informatie betreft meestal linked data (bijv. namen gelinked aan DBpedia) die als contextinformatie kunnen dienen en geavanceerde zoekvragen mogelijk maken. En dat linken van namen verbetert door identificatie (beter onderscheid tussen objecten met dezelfde naam), identifiers/links (naar context informatie), mee-indexering van gerelateerde informatie als onderdeel van het object, mee-indexeren van identifiers van beschrijvingen (zodat op basis van semantisch relaties gezocht kan worden). Immers, zegt Theo: ‘Gerelateerde informatie moet niet eerst door gebruikers gezocht hoeven te worden maar moet direct aangeboden kunnen worden.’ Oftewel: ‘Onze software moet onze content integraal gelezen en geanalyseerd hebben voor de gebruiker!!’ Dat vergt het genereren van links.
En daar begint het: je moet dus namen van ‘dingen’ herkennen. Hoe weet je anders waar het om gaat? Dat noemen we Named entity recognition. Die namen moeten geïdentificeerd worden door ze te zoeken in en vervolgens te linken naar Wikipedia/DBpedia beschrijvingen. DBpedia is een hoogst gestructureerde machineleesbare versie van Wikipedia. Maar ja, die namen zijn ambigu: hoort Einstein bij Albert Einstein of Alfred Einstein? Dus moet software ontwikkeld worden om de juiste links te vinden, en wel machine learning software. En dan nog worden er veel fouten gemaakt (en niet alles zit in DBpedia) dus is gebruikers feedback nodig voor correcties, toevoegen links voor niet herkende namen en voor extra training van de software. En dat is de moeite waard, want deep learning, met name via een neuraal netwerk, is een effectievere vorm van analyse dan het meer traditionele ‘rule based’ learning.
Een voorbeeld is het eerder genoemde matchen van krantenartikelen d.m.v titel, beschrijving en datum van Polygoon videos. Er wordt gematcht op tientallen, misschien wel meer dan 100 kenmerken. Het plaatje hiernaast is maar op basis van 2 daarvan. Gelukkig zijn er trouwens ook kant-en-klare basisingrediënten voor automatische herkenning, zoals een Persoonsnamenthesaurus (Nederlandse Thesaurus van Auteursnamen), onderdeel van het Gemeenschappelijk Geautomatiseerd Catalogiseersysteem (GGC). De vraag is overigens of dat soort thesauri nog wel nodig zijn. Moet ieder zijn eigen bronbeschrijvingen maken of kunnen we ‘gewoon’ vertrouwen op Wikidata als universele thesaurus voor bibliotheken? Theo ziet dat wel zitten!
Digitalisering
‘Alles digitaal’ is het devies van Jasper Faase, Teamleider Uitgeversrelaties. En dan bedoelt hij: digitalisering van alle Nederlandse boeken, kranten en tijdschriften, zo’n 700 mln pagina’s. Maar ook toegang bieden tot zowel born digital als gedigitaliseerde publicaties. En zeker ook: opslag van alle digitale bestanden op een solide wijze, om bruikbaarheid van de bestanden voor lange termijn te kunnen garanderen (maar dat wisten we al).
Dit superproject startte in de jaren 90 met digitalisering van ‘highlights’: visueel aantrekkelijke bronnen en Geheugen van Nederland. In 2000-2010 kwamen de massadigitaliseringsprojecten. Daarmee gepaard gingen een nadruk op kwantiteit, standaard OCR kwaliteit en hoogwaardige beeldkwaliteit. Denk maar aan Staten Generaal Digitaal 1814-1995 (2.3 mln pagina’s) en Databank Digitale Dagbladen 1618-1995 (9,5 mln pagina’s/1 miljoen kranten). Sinds 2010 zijn er minder projectgelden en wordt ingezet op public-private partnerships, maar is tegelijkertijd ook het digitaliseringsprogramma opgeschaald. Samen met Google bijvoorbeeld: de UKB collectie vanaf 1550 tot 1900. Maar ook met UB’s. En Metamorfoze: het Nationaal Programma voor de conservering van papier
Welke standaarden gebruikt men zelf? Voor de massadigitalisering zijn dat:
๏Preservation Imaging (”light”); JPEG2000
๏ALTO/Mets; MPEG21 DIDL
๏Ruwe OCR
๏Kranten; artikelsegmentatie
Verder zet DBNL in op XML (100% corrected OCR) and TEI.
En nog plannen voor 2017? Ja, ja:
๏Backlist digitalisering met uitgevers (pilots)
๏Digitization on Demand
๏Fondsenwerving digitalisering na 1960
๏Artikelsegmentatie voor tijdschriften
๏Start download Googleset
Open Access
Astrid van Wesenbeeck, Open Science Officer (en Programmamanager Wetenschap voor Iedereen) praat ons bij over open access: vrije toegang tot en gebruik van met publieke middelen tot stand gekomen wetenschappelijke publicaties. Open Access is hard nodig.
Veel online wetenschappelijke publicaties zijn momenteel nog niet vrij toegankelijk te raadplegen door mensen die geen toegang hebben via dure licenties (je zal maar niet werken voor een wetenschappelijke instelling die de kosten hiervoor kan dragen). Een artikel voor 24 uur huren, kan bijvoorbeeld maar liefst €45 kosten. Mensen die in de zorgsector werken, in het onderwijs, of mensen die uit persoonlijke interesse wetenschappelijke artikelen wensen te lezen, hebben nu dus zeer beperkt toegang, waardoor veel hoogwaardige wetenschappelijke kennis voor slechts beperkte gebruikersgroepen beschikbaar is. Gelukkig is dat in verandering - in de open access transitie worden steeds meer wetenschappelijke publicaties vrij toegankelijk voor iedereen - maar helaas staat het grootste gedeelte momenteel nog achter een pay-wall.
In open access geeft de auteur van een werk middels een licentie toestemming aan de uitgever om het werk te publiceren. Dit kan gaan via een licentie van Creative Commons. De meest gewenste open access licentie is de CC BY 4.0: vrije toegang, vrij hergebruik en naamsvermelding. De uitgever ontvangt een vergoeding voor het publiceren van het werk, in plaats van voor het verlenen van toegang.
De gevestigde wetenschappelijke cultuur zorgt ervoor dat de transitie naar open access relatief langzaam verloopt. De gevestigde wetenschappelijke uitgevers hebben weinig behoefte om hun succesvolle en lucratieve business model te veranderen en de auteurs worden nog te vaak beoordeeld op het aantal publicaties in gerenommeerde tijdschriften, vaak van die gevestigde uitgevers.
Via beleid (mandaten en sancties) kan open access echter wel worden versneld. Financiers en onderzoeksinstellingen stellen steeds vaker open access publiceren verplicht, en zij stellen daar ook financiële middelen voor beschikbaar. Ook zetten zij in op andere evaluatiecriteria, zodat er minder druk komt te liggen op waar je publiceert.
Open Access is tegenwoordig ingehaald door Open Science. In open science gaat het om meer dan vrij toegang tot wetenschappelijke publicaties. In open science wordt het volledige wetenschappelijke proces opener en transparanter. Dit is een leuk onderwerp voor een volgende presentatie!
Op 9 februari 2017 wordt het Nationaal Plan Open Science gepresenteerd. De KB heeft meegeschreven aan dit plan, en de KB heeft haar eigen ambities m.b.t. het verbeteren van toegang tot wetenschappelijke publicaties uitgelijnd met dit plan. In de komende jaren zal de KB voor het brede publiek een gidsfunctie uitwerken m.b.t. het wetenschappelijke informatielandschap. Een eerste stap is gezet met de pagina www.kb.nl/wetenschapvooriedereen.
Iedereen die geïnteresseerd is in dit onderwerp, kan contact opnemen met Astrid: www.linkedin.com/in/astridvanwesenbeeck. Daar vind je ook haar mailadres.
Afronding van een super-sessie
Bijkans uitgeput door de hoeveelheid experts, woorden, enthousiasme en sheets nemen we afscheid. [Ja, ik weet het: er was nog een parallelsessies, Delpher, maar die heb ik niet gevolgd... Wie daar een verslagje van heeft mag het me geven en ik voeg het toe. Gelukkig heeft Astrid me geholpen aan een verslag over de andere sessie die ik niet kon volgen: Open Access. Ik heb dat ietsje aangepast hierboven gezet. Super, Astrid!]
Elsbeth en haar team van experts worden hartelijk bedankt. Het spant er even om of Elsbeth in haar eentje naar een hutje in IJsland wordt gestuurd of niet, maar als blijkt dat dat eigenlijk haar geheime wens is (zie haar Mens achter de Tijger profiel) staken we het stemmen. Voor de zekerheid krijgt ze toch iets om haar warm te houden in dat hutje: een Russische ijsbeer. Van chocola uiteraard. ;-)
Kennis, op Heterdaad gesnapt! Bijeenkomsten zonder hiëroglyfen. Constructief kritisch. Praktische eye-openers (met een knipoog ;-)
Nu toch op (digitaal) papier gezet: een sfeerverslag van de sessies. Meer inhoudelijke informatie staat in de presentaties en de cases.
woensdag 1 februari 2017
Reactie?
Commentaar?
Wat vind je van dit artikel?
Klik hier.
Of reageer op de LinkedIn groep van het Netwerk.
Verslag
Let wel: Een verslag is een journalistiek product, niet een publicatie van de gastorganisatie zelf. Er kunnen dus fouten in staan, al vragen we de gastorganisatie wel om een review.
De eerste digitale kranten zijn paardloze koetsen
KB: mensen slimmer, vaardiger en creatiever maken, ongeacht levensfase en kansen. Klik op plaat.
De 3 uitgangspunten & fases van afdeling Onderzoek. Klik op plaat.
Voor wie doe je het? Klik op plaat.
Had John Lennon gelijk? Hmmm... Klik op plaat. Fascinerend!
Wat gebeurt er voor de klant? Klik op de plaat.
Ook het web wil je archiveren...
Klik op plaat.
De roadmap. Klik op de plaat.
Bouwstenen waar je wat aan hebt. Klik op de plaat.
Verrijken, maar hoe? Klik op de plaat.
Einstein, maar welke? Klik op de plaat.
En dan gaat de software matchen. Is dit de goede Einstein? Klik op plaat.
Er is al echt reuzeveel gedigitaliseerd... Klik op plaat.
Welke standaarden gebruikt de KB zelf? Klik op plaat.
Chocolaterie A3 uit Hattem maakte er weer iets moois van...
Wat is Open Access? Klik op plaat.
Waarom deelt niet iedereen alles? Klik op plaat.
Wat is nu de stand in Nederland?
Klik op plaat.