Tabellen scannen...
Tabellen scannen...
Nieuwtjes Archief

Uit verschillende bronnen zoeken we nieuwtjes voor leden.






Tips
Digitalisering (CBS Bibliotheek)
Digitalisering was een ‘hot topic’ van de Heterdaadsessie van 18 januari bij het CBS.
Digitalisering
Steeds meer papieren publicaties van het CBS worden digitaal toegankelijk. Er zijn meer dan 5 miljoen pagina's te digitaliseren. Hoe doen we dat en wat zijn de mogelijkheden voor afdelingen om hierin deel te nemen?
Er zijn vier trajecten:
๏Algemene publicaties die van groot belang zijn, zoals het Statistisch Zakboek en de Jaarcijfers van het Koninkrijk der Nederlanden, digitaliseert de bibliotheek op eigen initiatief.
๏Ook zijn er in de 19e eeuw door Ministeries en Statistische Instituten statistische publicaties gestart, die het CBS heeft voortgezet, bijvoorbeeld de Statistiek van de in- uit- en doorvoer (Handelsstatistiek).
๏Speciale onderwerpen, zoals de Gemeentelijke documentatie of De Nederlandse Energiehuishouding worden op verzoek van afdelingen gedigitaliseerd.
๏Grote tellingen zoals de Volkstellingen en de Bedrijfstellingen worden in samenwerking met externe partners gedigitaliseerd door middel van scanning en data-entry.
Wat houdt digitaliseren in?
Van papieren publicaties worden scans gemaakt. Dit gebeurt door een gespecialiseerd bedrijf. De tekst of tabellen op deze images kunnen daarna doorzoekbaar worden gemaakt met behulp van OCR (optical character recognition). Een gebruiker kan dan zoeken naar de tekst in publicaties, bijvoorbeeld als een PDF bestand hiervan is gemaakt. In een webapplicatie worden de teksten meestal in XML opgeslagen, waarbij verschillende outputs mogelijk zijn. Alle publicaties zullen uiteindelijk in een externe webapplicatie voor het publiek doorzoekbaar worden. Om het zoeken te faciliteren extraheren we uit alle publicaties metadata: titels, paginanummers, de aanwezigheid van registers of inhoudsopgaven, de titels van tabellen. Hiervoor wordt elke publicatie geanalyseerd. Dit is tijdrovend werk: elke publicatie heeft een verschillende opzet. De publicaties worden ook full text zoekbaar in KennisLink. De papieren versies blijven natuurlijk bewaard.
Veel CBS publicaties bevatten voornamelijk tabellen. Het zou mooi zijn als we van die tabellen direct spreadsheets konden maken. Dit is niet makkelijk. De OCR herkent tabellen automatisch, maar is hierin niet altijd succesvol. De tabelstructuur wordt soms niet compleet (en soms compleet niet ;-) weergegeven. Handmatige correctie is mogelijk maar tijdrovend en duur. Vandaar dat dit alleen gebeurt als er vraag naar is en geld voor is. Als de publicaties eenmaal op het web staan kunnen we ook input van gebruikers opnemen bij het signaleren van fouten en kunnen zij een aanvraag doen voor het produceren van een spreadsheet van een tabel.
Resultaten
Van alle publicaties zullen we doorzoekbare publicaties op het web en downloadbare PDF's publiceren, en binnen KennisLink worden de publicaties via de zoekmachine toegankelijk.
Daarnaast geldt voor historische tabellen: De spreadsheets van de meeste tabellen zullen op aanvraag van de gebruiker geleverd worden. Alleen voor speciale projecten zullen we de correcte tabellen er direct bij leveren. Dat gebeurt dan door middel van data-entry bij een extern bedrijf (zeer correcte tabellen) of door middel van gecontroleerde OCR (met acceptabel niveau van fouten).
Ziehier voor nadere informatie over de interne bibliotheek van het CBS.
maandag 24 januari 2011
Een Papieren Tijger is...
... een klantgerichte professional rond document en kennis: iemand met oog voor visie en beleid, die zijn oor te luisteren legt bij anderen en zijn tanden zet in nieuwe dienstverlening!
Het Papieren Tijger Netwerk telt ruim 400 eigenzinnige Document-, Kennis- en Contentprofessionals met als missie: elkaar scherp houden met een knipoog; stimuleren van een persoonlijke visie en rol in het intranet- en content management-tijdperk.
Het Netwerk bevordert kennisdeling door bijeenkomsten (o.a. Heterdaadsessies), studiereizen, cursussen, publicaties, het Kenniscentrum en andere vormen van netwerken. En natuurlijk deze Nieuwsbrief...
Join de Group ‘Papieren Tijger Netwerk’ op LinkedIn!