OCR Optical Character Recognition

Tesseract

Tesseract wurde zwischen 1985 und 1995 von Hewlett-Packard entwickelt, lag jedoch nach dem Ausstieg von HP aus dem OCR-Markt für 10 Jahre brach. Nach Übergabe an das Information Science Research Institute wurde der Kontakt zum ehemaligen Entwickler Ray Smith bei Google hergestellt. Dieser brachte den Standard über Google Code auf den neuesten Stand und hat ihn mit einer Apache-Lizenz über SourceForge freigegeben.

Tesseract zeichnet sich durch seine Eigenschaft als reines Zeichenerkennungsprogramm aus, als welches es sehr gute Ergebnisse liefert. Es ist jedoch nicht zur Analyse von Seitengestaltungen oder für die Verwendung statistischer Sprachmodelle geeignet. Eine grafische Benutzeroberfläche ist ebenfalls nicht zu finden.

Tesseract dient dem Programm OCRopus als kostenloses Texterkennungsmodul und wird beispielsweise für die Google Buchsuche verwendet. Durch diese Verschmelzung kann auch die Dokumentgliederung analysiert und ein statistisches Sprachmodell angeboten werden. Neben Deutsch existieren Texterkennungsdaten auch für Englisch, Französisch, Spanisch, Italienisch und Niederländisch. Auch Fraktur-Texte können in Ansätzen bereits erkannt werden.

http://code.google.com/p/tesseract-ocr/

OCR with tesserart and Ubuntu 7.04

apt-get install tesseract-ocr tesseract-ocr-data

Raining Tesserart

 
Nach oben
ocr.txt · Zuletzt geändert: 2024/02/29 13:36 von 127.0.0.1
chimeric.de = chi`s home Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0
DFmW2CEce3htPL1uNQuHUVu4Tk6WXigFQp   Dogecoin Donations Accepted Here    DFmW2CEce3htPL1uNQuHUVu4Tk6WXigFQp  DFmW2CEce3htPL1uNQuHUVu4Tk6WXigFQp