OCR Optical Character Recognition

Tesseract

Tesseract wurde zwischen 1985 und 1995 von Hewlett-Packard entwickelt, lag jedoch nach dem Ausstieg von HP aus dem OCR-Markt für 10 Jahre brach. Nach Übergabe an das Information Science Research Institute wurde der Kontakt zum ehemaligen Entwickler Ray Smith bei Google hergestellt. Dieser brachte den Standard über Google Code auf den neuesten Stand und hat ihn mit einer Apache-Lizenz über SourceForge freigegeben.

Tesseract zeichnet sich durch seine Eigenschaft als reines Zeichenerkennungsprogramm aus, als welches es sehr gute Ergebnisse liefert. Es ist jedoch nicht zur Analyse von Seitengestaltungen oder für die Verwendung statistischer Sprachmodelle geeignet. Eine grafische Benutzeroberfläche ist ebenfalls nicht zu finden.

Tesseract dient dem Programm OCRopus als kostenloses Texterkennungsmodul und wird beispielsweise für die Google Buchsuche verwendet. Durch diese Verschmelzung kann auch die Dokumentgliederung analysiert und ein statistisches Sprachmodell angeboten werden. Neben Deutsch existieren Texterkennungsdaten auch für Englisch, Französisch, Spanisch, Italienisch und Niederländisch. Auch Fraktur-Texte können in Ansätzen bereits erkannt werden.

http://code.google.com/p/tesseract-ocr/

OCR with tesserart and Ubuntu 7.04

apt-get install tesseract-ocr tesseract-ocr-data

Raining Tesserart