Die Autoren stellen ein Projekt der Deutschen Fördergesellschaft vor, das mittlerweile erste Früchte trägt. Es befasst sich mit der Digitalisierung bereits vorhandener Findbücher in Textbearbeitungs-Format und Maschineschrift. Handschriftliche Findbücher werden voraussichtlich in einem Folgeprojekt unter die Lupe genommen. Bibliotheken haben schon früher mit der Retrokonversion ihrer umfangreichen Zettelkatalogen begonnen. Durch Abtippen und Imaging wurden hier interessante Resultate erzielt.
Im DFG-Projekt werden auf der Basis von TIFF-Dateien (Findmittel in Maschineschrift; schwarz-weiss, 300 dpi) und internen Drucker-Formaten (in Textdatei vorliegende Findmittel) Findbuch-Informationen durch Layoutanalyse und OCR-Erfassung strukturiert in XML-Format abgelegt. Der Vorgang erfolgt (halb)automatisch. Das mehr oder weniger feste Layout sowie das Vorhandensein immer wieder gleicher Schlüsselbegriffe (wie "enthält" usw.) zeigt sich bei der Erkennung natürlich hilfsreich. Auch wenn manuelle Nachbearbeitung sich nicht vermeiden lässt, bleibt das Vorgehen per Saldo effizienter als komplettes und vorstrukturiertes Abschreiben der Findbücher.
Die XML-Dateien können künftig in die (vorhandenen) Archivdatenbanken importiert und über Stylesheets (XLS) online zugänglich gemacht werden. Die DTD is so konzipiert, dass bestimmte Metadaten obligatorisch sind und andere optional bleiben. Dies gewährleistet archivübergreifende Interoperabilität und lässt trotzdem Freiraum für Flexibilität und Detaillierung vor Ort.
Es ist klar, dass die Schachtelstruktur von XML sich für die Abbildung hierarchischer, relationaler Zusammenhänge in archivischen Findmitteln sehr gut eignet. Das Anstreben von Offenheit in Richtung von archivisch-spezifischeren Standards, wie ISAD(G) und EAD, liegt auf der Hand und ist mit der Anwendung von XML auch gut möglich.