Ordnen und Erschliessen


Günter Reichel:  BIT-Fraktur. OCR nicht nur für Fraktur-Dokumente

Bibliotheksdienst. Organ der Bundesvereinigung deutscher Bibliotheksverbände (BDB), 38 (2004), Heft 5 (Mai), S. 677 - 683

Der Autor stellt die ICR-/OCR-Technologie von B.I.T. (Bureau d'Ingénieur Tomasi, Toulouse/München) vor, insbesondere in Bezug auf das Scannen und Konvertieren von Fraktur-Dokumenten (Bruchschrift, alte Schreib- und Druckschrift). Die Schwierigkeiten betreffen das unregelmässige Schriftbild, z.B. qua Zeilenausrichtung, die Vielzahl von unterschiedlichen Ausprägungen mancher Zeichen, die variierte Rechtschreibung, der Schmutz und die Flecken auf dem Original und die Punkte wegen des Rauschens des Scanners. Die Software kann diese Mängel (teilweise) automatisch korrigieren und ist in der Lage, durch Trainieren eine OCR-Bibliothek aufzubauen bzw. zu erweitern. Das Ergebnis scheint beeindruckend (die gezeigte Buchseite gibt nur zwei Fehler, 682-683), die manuelle Vorarbeit oder Arbeit während des OCR-Vorgangs aber ebenfalls noch beträchtlich. Das ursprüngliche Layout bleibt grösstenteils erhalten.

Das Programm bietet zusätzlich eine interaktive Internetdarstellung an. Per Browser  kann ein Gesamttext oder eine Textstelle markiert und on-the-fly in ein intelligentes Format ausgegeben werden. Es herkennt pixelgenau die Stellen, wo Tabellen und Bilder stehen. Bearbeiten und Übertragen von (Papier-)Formularen (z.B. für Rechnungen, Lieferscheine, Schecks) und Listen/Tabellen, die in modernen Schriftzeichen vorliegen, ist auch möglich. So besehen, ist das Programm sehr vielseitig.