LOG IN Leitseite

Nach oben ] Aktuelles Lexikon ] Geschichte ] [ Software-Test ] Online ] [2000]

 


log-in_small.gif (418 Byte)


LOG IN: 19 (1999) Heft 1

OmniPage Magic

Texterkennungs-Software

Der PC als Arbeitsmittel zur Unterrichtsvorbereitung hat unbestreitbar große Vorteile und bietet – vor allem, was die Arbeitsbogen-Erstellung betrifft – im allgemeinen auch eine Fülle an Arbeitserleichterungen an. Wer zudem über einen Scanner verfügt, kann sich dann noch mehr Arbeit sparen. Lehrerinnen und Lehrer, die bereits etliche Jahre im Dienst sind, haben jedoch Arbeitsbögen, Buchvorlagen, alte Matrizen und ähnliches, die sie eigentlich weiterverwenden wollen. Da wäre es sehr hilfreich, wenn man diese alten Unterlagen nicht neu am PC konzipieren müßte, sondern zum Bearbeiten direkt einlesen könnte. Deshalb hat sich LOG IN einmal mit Texterkennungs-Software beschäftigt.

Auf der CeBIT ‘99 wurde von der amerikanischen Caere Corporation das Produkt OmniPage Magic vorgestellt. Es handelt sich dabei um eine OCR-Software (Optical Character Recognition) neuester Generation, die – nach Angaben des Herstellers – über folgende Leistungsmerkmale verfügt:

Über 99% Genauigkeit in der Texterkennung auf Seiten mit Laserqualität.
Das gesamte Layout und die ursprünglichen Wort- und Seitenformatierungen der eingescannten Seite sollen im Textverarbeitungsprogramm exakt beibehalten werden, ebenso Listen, Tabellen und Schwarzweiß-Grafiken.
Überprüfung und Korrektur der Rechtschreibung mittels OCR-Proofreader™.
Speicherung in folgenden Formaten: Microsoft Word, Microsoft Excel, WordPerfect, WordPro, Lotus 1-2-3, RTF, Nur Text, Word Pad, HTML.

Die Software wurde einer kleinen Testreihe unterzogen, wobei auch der Frage nachgegangen wurde, inwieweit mit dem Programm alte Matrizen usw. zu neuen Arbeitsblättern im PC konvertiert werden können. Dazu wurde neben dem Grundtest ein erweiterter Test mit schlechten Vorlagen durchgeführt. Die Rechtschreibprüfung wurde im Test vernachlässigt.

Beim Grundtest wurden drei verschiedene DIN-A4-Vorlagen in 600-dpi-Laserqualität (Schrifttyp: Times Roman und Courier 12 pt) verwendet:

eine einspaltige Textvorlage,
eine einspaltige Textvorlage mit einer Schwarzweiß-Grafik und
eine dreispaltige Textvorlage mit abgesetzter großer Überschrift und verschiedenen Zeichenformatierungen.

Als Ausgabeprogramm wurde eine gängige Textverarbeitungssoftware (Microsoft Word für Windows) gewählt. Beim Scanner handelte es sich um einen Single-Pass-Scanner der Firma Mustek mit 600 dpi Auflösung.

Das Programm läßt sich über einen Installationsbildschirm problemlos installieren. Die grafische Benutzeroberfläche ist einfach, bisweilen allerdings mit unnötig verspielten Applikationen ausgestattet. Unbestreitbar ist die Möglichkeit, das Programm sofort, ohne Handbuch, intuitiv zu bedienen.

Ergebnisse des Grundtests

Beim Scannen der einspaltigen Textvorlage wird der gesamte Text fast fehlerfrei übernommen. Lediglich durch die Serifen in Times-Roman wird „i“ manchmal in „l“ umgewandelt, die Kombination von „r“ und „n“ oft zum „m“ gemacht.

Ist in den Text eine Schwarzweiß-Grafik integriert, so wird auch hier der Text übernommen. Die Übernahme der Grafiken ist allerdings nicht immer unproblematisch. Als günstig hat sich erwiesen, wenn die Grafik über oder unter dem Text plaziert ist. Grafiken, die inmitten eines Textes liegen, verursachen Fehler bei der Übernahme der Textvorlage und werden oft unvollständig übernommen. Die Übernahme von Tabellen ist insgesamt nicht zufriedenstellend gewesen. Spalten- und Zeilenlinien werden nicht übernommen, die Einträge in den Spalten werden alle einzeln mit Tabstops und Absatzzeichen versehen. Dadurch ist auch die Nachbearbeitung der Tabelle (in Word: Tabelle in Text umwandeln) mit einem erheblichen Arbeitsaufwand verbunden.

Ein dreispaltiger Text mit großer Überschrift und im Text kursiv und fett formatierten Abschnitten wurde durchaus im gleichen Layout übernommen. Die Bearbeitung des Textes in Word gestaltete sich jedoch schwierig, da die Überschrift sowie jede Spalte in ein einzelnes Textfeld eingeschlossen wurde. Somit ist kein bearbeitbares Word-Format im Fließtext entstanden. Weiterhin wurde die Zeichenformatierung ignoriert, was jedoch im Textverarbeitungsprogramm mit wenig Aufwand korrigiert werden kann.

Erweiterter Test

Beim erweiterten Test wurden Zeitungsausschnitte, Buchseiten und Ormig-Matrizen eingescannt – Textvorlagen, die immer noch in jeder Schule von Bedeutung sind. Der Versuch, eine Ormig-Matrize befriedigend einzuscannen, ist im Grunde gescheitert. Die Ausbeute an korrekt übernommenem Text betrug nur noch ungefähr 10%, viele Textpassagen wurden überhaupt nicht übernommen. Buchseiten (ohne Grafik) werden mit gutem Ergebnis erkannt, gute Schriftqualität in Times Roman, Helvetica oder einer anderen Standardschrift vorausgesetzt.

Zeitungstexte lassen sich befriedigend einscannen. Grafiken und Bilder, die im Text liegen, führen allerdings zu erheblichen Schwierigkeiten bei der Texterkennung. Sie sollten vorher verdeckt werden.

Ergebnis

OmniPage Magic ist eine sehr einfach zu bedienende Texterkennungs-Software, die gute Ergebnisse beim Einscannen von ein- oder mehrspaltigen Textvorlagen liefert. Das im Textverarbeitungsprogramm übernommene Layout läßt sich dort allerdings nur umständlich weiterverarbeiten. Nicht ausgereift ist die Übernahme von Schwarzweiß-Grafiken. Je nach ihrer Komplexität und Lage im Text können jedoch auch befriedigende Ergebnisse erzielt werden. Nicht befriedigend dagegen werden Vorlagen übernommen, die Gebrauchsspuren oder ein Schriftbild geringer Qualität aufweisen.

Fazit: Zum Einscannen von Textpassagen ist OmniPage derzeit eine sehr leistungsfähige Erkennungs- software, die sich sehr begrenzt auch für den gleichzeitigen Import von Schwarzweiß-Grafiken eignet. Wer 149 Mark ausgibt, kann sich zumindest das Abtippen von längeren Texten ersparen.

René Marschall