OCR = scannen und erkennen

Nur wenn ich die alten, analogen Texte digitalisiere zu einer durchsuchbaren Datei, stehen mir mehr Möglichkeiten offen:

  • Ich kann im Text nach Begriffen suchen.
  • Ich kann Suchprogramme einsetzen, um mehrere oder gar alle Dateien auf einmal zu durch suchen.

Dafür benötige ich

Hardware: Scanner und Digitalkamera

Software: Programme zur Texterkennung, am besten im Originallayout.

Hier musst Du Dir mit Deinen Mitteln einen praktikablen Workflow erarbeiten. Learning by Doing - von nichts kommt nichts.

 

Scanner und Digitalkamera

Die beste Bildqualität erreiche ich mit einem Flachbettscanner. Bei mir arbeitet seit vielen Jahren ein Canon CanoScan 9000F. Den habe ich damals angeschafft wegen seiner hohen Qualität zum Scannen von Dias, Negativen und Fotos. Für Dokumente würde ein preiswerterer Scanner reichen.

Der Nachteil von Flachbettscannern: Bücher passen oft nicht so richtig, der Buchrücken kann leiden. Heimatvereine haben dafür oft Buchscanner beschafft, die ggf. ausgeliehen werden können.

Eine Alternative sind gut auflösende Smartphones oder Digitalkameras. 

Für kleinere Scanprojekte von wenigen Seiten reichen bereits sehr gute Smartphones.

Vom Bild zum Text

Von mir genutzt:

 

1. OCR-Software

Unübertroffen, wenn Text und Layout incl. Tabellen erfasst werden soll.Aber nicht preiswert

Bei mir seit Jahren im Gebrauch: eine uralte Lizenz von Finereader.

 

2. Google

Wieso Google? Ich kenne keine bessere Möglichkeit Textstücke in Bildern, vor allem auch mit alten Schriften, erkennen zu lassen.

a) Einen Screenshot am Bildschirm o.ä. kann man in Google Notizen einfügen. Wenn das Bild hochgeladen ist, kann man über das Dreipunktmenü "Text erkennen" lassen.

Absätze oder Tabellen werden nicht erkannt. Die Texte müssen nach bearbeitet werden.

b) Smartphonefotos landen in Google Fotos, wenn die App installiert ist. So erfasse ich ganze Seiten in der Bibliothek. Man kann Fotos bei Bedarf hochladen.

Nach einiger Zeit wird "Text kopieren" angeboten. Andernfalls muss das Foto vorher zu Google Lens hochgeladen werden.

 

3. Transkribus

Mit https://www.transkribus.org/de können KI-basierte Modelle entwickelt werden, die sogar den handgeschriebenen Text alter Urkunden entziffern lernen können. Das wäre was für engagierte Teams - hier wohl  - Zukunftsmusik.