OCR-Tricks: Beste Ergebnisse bei der optischen Zeichenerkennung am PC

Texte aus gedruckten Vorlagen können ideal weiterverwendet werden, wenn sie per OCR in den Rechner eingelesen werden. Bei der optischen Zeichenerkennung lauern jedoch einige Hürden, sodass bei einer schlechten Erkennung eine umständliche Nachbearbeitung nötig wird. Mit den folgenden Tricks reduzieren Sie die OCR-Fehlerrate bei der Texterkennung und kommen schneller zu einem zuverlässigen Ergebnis.

OCR: Was genau ist das?

Die optische Zeichenerkennung (OCR = Optical Character Recognition, dt. optische Zeichenerkennung) ist ein Verfahren, bei dem der Text aus einer Vorlage zur Weiterverarbeitung in einen Rechner eingelesen wird. Der Scanvorgang besteht prinzipiell aus zwei Schritten: Zuerst wird ein Bild (Grafik) der Textseite gescannt. Dann "liest" sich eine OCR-Software die Seite durch und wandelt die erkannten Zeichen in einen Text und ein Textformat um, das am PC mit einem der gängigen Textverarbeitungsprogramme weiterverarbeitet werden kann.

Moderne OCR-Software wandelt nicht nur passiv die erkannten Zeichen in Text um, sondern ist auch in Grenzen zu einer Intelligent Character Recognition (ICR) fähig. Dabei werden falsch erkannte Zeichen durch Kontextanalyse korrigiert, beispielsweise ein falsch erkanntes "8oot" zu einem korrekten "Boot". Damit Sie bei OCR-Tätigkeiten mit gängigen PC-Systemen das beste Ergebnis erzielen, finden Sie nachfolgend Praxistipps für erfolgreichen OCR-Einsatz.

Das A und O des OCR: Das richtige Medien-Handling

Durchscheinende Zeichen unterdrücken: Vorlagen einscannen, die beidseitig bedruckt sind, ist bei dünnem Papier oftmals problematisch, denn die Rückseite kann mehr oder weniger stark durchscheinen. Eine gute Hilfe in solchen Fällen ist ein passendes Stück schwarze Pappe, die Sie beim Flachbettscanner zwischen Vorlage und Scannerdeckel legen.

Die schwarze Pappe erzeugt ein gleichmäßigeres Reflektionsverhalten, sodass Sie für die Bearbeitung einer Grafik oder die optische Zeichenerkennung eine brauchbare Vorlage erhalten. Schwarze Pappe ist im Schreibwarenhandel erhältlich, ein genau auf das Vorlagenglas zugeschnittenes Stück sollten Sie im persönlichen Zubehör zu Ihrem Scanner anlegen.

Medien ausrichten: Bildbearbeitungsprogramme sind heute hochleistungsfähig und bieten viele Funktionen, darunter auch das Drehen der Bilder bzw. Textvorlagen. Trotzdem sollten Sie von solchen Optionen Abstand nehmen, wenn Sie die Texterfassung eines "Bildes" planen. Richten Sie OCR-Vorlagen exakt waagerecht aus, da schräge Vorlagen oder nachträglich per Software um 180 Grad gedrehte Vorlagen die OCR-Erkennungsrate spürbar verschlechtern.

Wellige Vorlagen glätten: Nach längerer Lagerung haben viele Papiervorlagen je nach Lagerung eine mehr oder weniger starke Welligkeit, die jede Texterfassung qualitativ erheblich reduziert. Es empfiehlt sich sehr, das Papier nach Möglichkeit zu glätten. Dazu können als spontane Pannenhilfe ein paar schwere Bücher auf dem Deckel des Scanners gute Dienste tun.

OCR-Tricks für Erfassen und Nachbearbeiten der gescannten Daten

OneNote einsetzen: Wer aus dem Microsoft Office-Paket "OneNote" ab Version 2007 einsetzt, kann sich in einfachen Fällen den "Umweg" über ein OCR-Programm sparen und den Scanner direkt ansprechen und den erkannten Text einfügen. Wenn der Scanner korrekt angeschlossen und ins System eingebunden ist, öffnen Sie dazu das Register "Einfügen" und benutzen das Symbol "Scannerausdruck".

Dann wählen Sie das Gerät aus und legen die Auflösung fest. Um nur den Text auf einem bestimmten Teilbereich der Vorlage zu erfassen, benutzen Sie "Einfügen anpassen". Nach dem Durchführen des Scans wird das Bild in Ihre aktuelle OneNote-Seite eingefügt. Um den OCR-Vorgang durchzuführen, klicken Sie mit der rechten Maustaste in das gescannte Bild und benutzen aus dem Kontextmenü "Text aus Bild kopieren". Das Ergebnis können Sie dann mit [Strg] [V] in OneNote oder eine andere Textanwendungen einfügen und von in einem gewünschten Zielformat speichern.

Suchen und Ersetzen: Beim OCR ist es wie im richtigen Leben: Man bekommt nie 100%. Machen Sie sich bei der OCR bewusst, dass 99,9% richtige Erkennung eine Fehlerquote von 1 Promille (1 Fehler bei 1.000 Zeichen) bedeutet. Ganz praktisch heißt das, dass Sie bei deutschsprachigen Texten in rund jedem 150. Wort einen Fehler haben.

Wenn Sie eine Rechtschreibkorrektur benutzen, kommen Sie den Fehlern im Text recht sicher auf die Spur. Entdecken Sie Fehler, können Sie manche möglicherweise gleichartige Folgefehler schnell ausbügeln. Das geht ganz einfach mit dem "Suchen und Ersetzen"-Befehl, den Ihnen alle ernsthaften Textverarbeitungsprogramme bieten.

In Office/Word 2012 beispielsweise finden Sie den Befehl "Ersetzen" standardmäßig im Menü "Start" ganz oben rechts. Geben Sie beim Ersetzen-Befehl die falsch erkannte und die korrekte Zeichenfolge ein und bestätigen die Ausführung. Das hilft beispielsweise auch, wenn in dem erkannten Text eine Vielzahl von doppelten Leerzeichen vorkommen, die Sie mit einem einzelnen Leerzeichen ersetzen.

Vorsicht bei Tabellen: Problematisch beim OCR-Verfahren sind Zahlenlisten, beispielsweise Tabellen. Während Texte sich nach semantischen und syntaktischen Strukturen richten und über viele Redundanzen verfügen, die helfen, Fehler leichter zu entdecken und zu korrigieren, ist das bei Ziffern schwierig bis unmöglich.

Daher können sich beispielsweise in eine gescannte Liste von Euro-Beträgen oder Telefonnummern durch die OCR schwerwiegende Fehler mit möglicherweise schwerwiegendem Folgen einschleichen. Als Gegenmaßnahmen empfiehlt es sich, das Scanergebnis durch unterschiedliche Einstellungen zu optimieren und die Ergebnisse penibel zu vergleichen.

Kostenlose OCR-Software

Leistungsfähige OCR-Software für den PC wird nahezu ausschließlich in Form von kommerzieller Software angeboten. Bekannt ist insbesondere die Desktop-Texterkennungs-Software "FineReader" der Firma ABBYY für Windows-Betriebssysteme, da ältere Versionen des FineReader oft im Lieferumfang von Flachbett- oder Einzugsscannern mitgeliefert werden. Das Angebot von kostenloser OCR-Software für PC-Systeme ist dünn. Wer nur wenige Seiten erfassen möchte, kann sich mit folgenden kostenlosen Angeboten behelfen:

1. FreeOCR (online): Auf dieser Webseite wird das Online-OCR-Tool angeboten. Es ist keine Registrierung notwendig, unterstützt werden mehr als 30 Sprachen. Sie laden einfach Ihr Dokument in einem der gängigen Formate wie JPG, GIF, TIFF, BMP und PDF herauf und erhalten dann den erfassten Text. Es darf allerdings keine Bilddatei größer als 2 MB oder breiter bzw. höher als 5.000 Pixel sein. Pro Stunde dürfen maximal 10 Bilder bearbeitet werden.

2. Cognitive OpenOCR: Eine freie OCR-Software für die lokale Installation ist Cognitive OpenOCR (vormals "CuneiForm"). Neben Windows ist auch eine Linux-Portierung verfügbar. Unterstützt werden über 20 Sprachen. Die Ergebnisse können in den Formaten RTF, HTML oder als ASCII-Text gespeichert werden. Beim Export in die Textverarbeitung Word oder die Tabellenkalkulation Excel werden Dokumentstruktur und Schriftarten weitenteils erhalten. Weitere Infos und den Download erreichen Sie hier.

3. FreeOCR: Dieses OCR-Programm hat zwar denselben Namen, ansonsten aber mit dem gleichnamigen Online-Tools nichts gemein. Es läuft nur unter Windows und bedient sich der TWAIN-Schnittstelle für die Kommunikation mit dem Scanner. Zudem können PDF und TIFF-Bilddateien als Quelle für die Zeichenerkennung eingesetzt werden.

Die aktuelle Version enthält eine Unterstützung von 11 Sprachen, weitere können hinzugefügt werden. Es ist ein direkter Export ins Microsoft-Word-Format möglich. Weitere Informationen zu Installation und Betrieb (leider alles nur in Englisch) finden Sie hier.

Weitere Anwendungstipps bieten Ihnen die folgenden experto.de-Artikel