texterkennung_ocr - Jost Thome

# Texterkennung OCR in:: [[pdf|PDF]] ## Information (Im Gespräch mit anderen Usern ist aufgefallen, dass es hierzu erstaunlich viel Unkenntnis und Missverständnisse gibt.) Kurz mal zum Einstieg: (Es geht hier um eine einfache Orientierung, Spezialitäten wie geschützte oder nicht druckbare PDF-Dateien bleiben erst mal außen vor.) Wenn man z.B. mit Microsoft Word ein Dokument verfasst und dieses dann entweder als PDF-Dokument exportiert oder mit einem (virtuellen) PDF-Drucker (wie z.B. [[pdf24|PDF24]]) "druckt", dann erhält man (normalerweise) ein PDF-Dokument, das im wesentlichen aus "Text" plus Vektoren (z.B. Linien einer Tabelle) enthält. Ein solches Dokument kann mit Tools durchsucht werden. Text kann man markieren, kopieren, suchen. Wenn man den Ausdruck eines Dokuments hat, diesen scannt, dann hat man erst mal eine Bilddatei (Pixelgrafik). Meist ist es dann so eingestellt, dass der Scan als PDF-Datei gespeichert wird. Jetzt kommt der entscheidende Punkt: Ein Scan eines Dokuments kann zwei "Qualitäten" haben. 1. einfacher Scan (wie ein Bild) 2. Scan mit Texterkennung OCR (durchsuchen, markieren, kopieren möglich) Wie kann man die beiden Arten unterschieden? Auf den ersten Blick: gar nicht. Beides sind PDF-Dateien. Die Dateigröße gibt keinen Hinweis. Eigentlich fällt mir zur Unterscheidung nur ein: Im PDF-Viewer (z.B. Adobe Reader oder [[sumatra_pdf|Sumatra PDF]]) die Datei öffnen und versuchen, darin Text zu markieren. Wenn das gelingt, wurde in dem Dokument die Texterkennung durchgeführt. Technisch kann man sich das so vorstellen, dass im Dokument quasi auf einer unsichtbaren Ebene hinter dem Bild (der gescannten Seite) eine Ebene mit dem erkannten Text liegt. Weil der Text aus dem Pixelbild automatisch erkannt wurde, ist es nicht unwahrscheinlich, dass dieser Text nicht hundertprozentig dem wahren Inhalt der Vorlage entspricht, weil z.B. leicht mal eine Null als buchstabe "O" wie Oskar interpretiert werden kann. Es gibt Scanvorgänge, die in einem Zuge aus einer Papiervorlage ein durchsuchbares PDF erzeugen. (Teilweise z.B. bei Apps mit Cloud-unterstützung, teilweise bei spezieller Scan-Software) Oft werden Scans aber einfach wie Bilder (ohne OCR) erzeugt. Dann kann mal also im zweiten Schritt diese Information (quasi den Text-Layer) ergänzen (lassen). Das geht z.B. mit Acrobat pro oder [[pdf24|PDF24]]. Teilweise liegt Scannern eine Software zu dem Zweck bei (z.B. Finereader). Mit kostenfreier Open Source Software ist das auch möglich; ein Tool ist __Tesseract__. Auch die Freeware [[pdf24|PDF24]] beinhaltet das Tool "Text erkennen" (Achtung: Bei der Tool-Auswahl muss man scrollen...).