Der Autor stellt ein konkretes Projekt mit Scanning, OCR-Erfassung und XML-Generierung vor. Es handelt sich um eine Faksimiledatenbank mit Primärtexten (Gesetze, Verordnungen und Rechtsvorschriften auf Bundes- und Länderebene in Deutschland). Der Zugriff über das Internet ist möglich. Gedruckte Texte werden gescannt (Gruppe IV-Tiff-Dateien), während Inhaltsverzeichnisse für die Volltextsuche zur Verfügung stehen.
Es ist das weitere Ziel, hinter jedem Faksimile-Dokument ein intelligentes Textdokument für die Volltext-Suche relevanter Textstellen zu legen (darum auch der Name: Schattenvolltext). Dieses zweite Dokument ist nicht sichtbar, der Benützer erhält nur die authentische Faksimile-Seite (mit identischer Layoutnachbildung) als Suchergebnis. Der Artikel behandelt die Probleme beim OCR-Verfahren, das zwar vollautomatisch abläuft, ohne Fehlerquote bei der Zeichenerkennung jedoch nicht auskommt. Die Erkennungsfehler werden maschinell aussortiert. Die hinterzulegenden Textdokumente bleiben von diesen verschont, was andererseits eine Verringerung des Trefferraums der Faksimile-Seiten bei den Suchabfragen ergibt.
Die Umwandlung der OCR-Texte in das XML-Format macht dafür eine weitergehende Erschliessung möglich. Mittels Kodierung der zitierten Dokumente kann zum Beispiel eine Link-Sammlung nach anderen Gesetzesquellen im gleichen Bestand aufgebaut werden. Solches ist attraktiv, auch wenn Gesetzessammlungen bereits im analogen Fall über Fussnoten "autoritativ" nach relevanten Vor- und Nachtexten verweisen. Ein leichteres Auffinden der Querverweise durch Anklicken ist im WWW-Bereich vermehrt eine Voraussetzung.