Ein gescanntes Dokument ist eine Fotografie von Wörtern – nicht die Wörter selbst. Bis diese Bilder in bearbeitbaren, durchsuchbaren Text konvertiert sind, können sie keinen Übersetzungs-Workflow durchlaufen, kein Content-Management-System befüllen und keine Barrierefreiheitsanforderungen erfüllen. Optische Zeichenerkennung ist die Technologie, die statische Dokumente in digitaler Form zum Leben erweckt.
Moderne OCR-Engines analysieren Seitenbilder, erkennen Zeichenformen und ordnen sie Unicode-Text mit überraschend hoher Genauigkeit bei sauberen Druckquellen zu. Die Ausgabe verwandelt gesperrte PDFs in DOCX-Dateien, befüllt Datenbanken mit extrahierbarem Inhalt und macht Jahrzehnte papierbasierter Archive durchsuchbar. Für Sprachdienstleister ist OCR oft der Einstiegsservice, der ganze Projektkategorien erschließt.
Nicht jede OCR ist gleichwertig. Einfache Druckdokumente in gängigen Sprachen werden schnell mit minimaler Nachbearbeitung verarbeitet. Komplexe Quellen – mehrspaltige Layouts, Tabellen, gemischte Sprachen, minderwertige Scans und Formulare mit Kontrollkästchen – erfordern erweiterte Verarbeitung und menschliche Prüfung. Der Unterschied zwischen rein automatischer und professionell bereinigter OCR beeinflusst direkt Übersetzungsqualität und nachgelagerten DTP-Aufwand.
Integration in Übersetzungs-Workflows ist entscheidend. OCR-Ausgabe sollte Dokumentenstruktur wo möglich bewahren: Überschriften, Listen, Tabellen und Absatzumbrüche. Sauberer, getaggter Text reduziert Engineering-Zeit vor der Übersetzung und verbessert CAT-Tool-Segmentierung. Schlechte OCR liefert unstrukturierten Text, dessen Korrektur mehr kostet als die OCR selbst.
Multilize bietet automatische OCR mit minimaler manueller Bearbeitung für unkomplizierte Dokumente und skaliert auf umfassende Bereinigung für komplexe Quellen. Wenn Ihre Kunden gescannte PDFs senden, beginnt das Projekt wirklich mit OCR – und professionelle Bearbeitung spart Zeit in jeder nachfolgenden Phase.