Robotrontechnik-Forum

Registrieren || Einloggen || Hilfe/FAQ || Suche || Mitglieder || Home || Statistik || Kalender || Admins Willkommen Gast! RSS

Robotrontechnik-Forum » Sonstiges » Bücher scannen » Themenansicht

Autor Thread - Seiten: -1-
000
08.10.2009, 08:27 Uhr
marko_oette



Ich möchte in diesem Beitrag kurz illustrieren, wie ich Bücher mit Adobe Acrobat 9 Pro digitalisiere, welche Vorteile das bringt und welche Voraussetzungen dafür erfüllt sein müssen.


Ausgangsmatereal

Als Ausgangsmatereal kann entweder ein gescanntes Buch (JPEG, PNG, ...) oder ein bereits existierendes PDF mit Bilddaten dienen.

Ich habe gestern Abend das von Günter in diesem Beitrag zur Verfügung gestellte Buch neu digitalisiert. Hier gibt es die neue, optimierte Version. Leider sind einige Seiten kaum lesbar, da wie von Thomas bereits angemerkt diese Seiten mit viel geringerer Auflösung gescannt wurden.


Ergebnis

Nach dem Überarbeiten erhält man ein neues PDF mit Textinhalten und vektorisierten Schriftzeichen. Für den Leser bedeutet das: freie Skalierbarkeit, Volltextsuche und Recherche, sowie die Möglichkeit des Kopierens von Textinhalten. Die Größenreduktion durch alle angewendeten Prozesse beträgt zwischen 80% und 90% (Im Beispiel 85%: von 104 MiB auf 15,9 MiB).


Vorgehen

Durchgeführt wurden folgende Schritte mit Acrobat 9 Pro:
- Neubrechnen (Drucken als PDF) des original PDF auf 194x280mm (kleinste Seitengröße) bei 600dpi als PDF Standard 1.5 (mind Acrobat 6)
Dieser Schritt ist bei 130 Seiten äußerst Zeitaufwändig (auf einem Pentium D 3,0 GHz und 4 GiB RAM: 45Minuten) und wäre nicht notwendig wenn alle Seiten mit einer Auflösung von mind. 150 und max. ~1200 dpi gescannt werden. Das neue PDF im Beispiel war zunächst 250 MiB groß, da kleine Seiten hoch und große Seiten herunter gerechnet wurden.

- "Gescannte PDF Datei Optimieren": Korrigieren der Winkel, Raster und Kanten; Entfernen der Papiermerkmale etc. - Dauer: ca. 30 Minuten

- Automatische OCR Texterkennung: Sprache Deutsch; 300 dpi; Buchstaben mittels ClearScan ausgeben (Vektorisieren)
Der Vorgang dauert am längsten: Über eine Stunde.
Man kann auch eine andere Ausgabeart wählen (zB. "Durchsuchbares Bild": Pixeldaten bleiben erhalten) jedoch kann diese Anzeigevariante nicht skaliert werden und sieht bei hohem Zoomfaktor dann entsprechend schlecht aus.


Voraussetzungen
Das Ergebnis kann sich zwar bereits sehen lassen, kann aber noch optimiert werden, indem das Buch entsprechend anders eingescannt wird. Am einfachsten ist es für den OCR Mechanismus Texte in Bildern zu erkennen, wenn diese sehr kontrastreich sind. (Also entweder Graustufen mit hohem Kontrast oder S/W.) - Für die Texterkennung eignen sich Scans mit Auflösungen von 150 bis 600dpi am ehesten. Optimal sind 300dpi. Hier gilt auf jeden Fall nicht: Viel hilft viel - denn wenn das Bild zu groß ist, ist es auch komplizierter und Zeitaufwändiger dieses zu analysieren. - Bei zu großen Bildern verweigert des OCR Mechanismus sogar die Arbeit, dann muss neu berechnet werden. Bei zu geringer Auflösung (wie im Beispiel teilweise geschehen) kann der OCR Mechanismus keine Buchstaben erkennen. Auch verzichtet werden sollte auf Bilder die nicht in Leserichtung liegen. Diese müssen vorher gedreht werden.

Fazit
Ich denke, die erreichten Ergebnisse können sich sehen lassen. Auf diese Weise wird ein Buch dauerhaft und nachhaltig konserviert. Ich weiß, dass nicht jeder hier über die Mittel (Acrobat 9 Pro, passende Hardware) verfügt um die og. Schritte durchzuführen. Ich biete aber gern an, das für euch zu übernehmen. Damit das Ergebnis ein tolles Ergebnis wird und wir Freude an der gelsiteten Arbeit haben, muss das Ausgangsmatereal aber bestimmte Anforderungen erfüllen.
--
Bitte - wenn nötig - Kontakt via Email, ich bin selten im Forum.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
001
08.10.2009, 09:07 Uhr
Mobby5



Darf man dem OCR vertrauen? Weil, bei Romanen/Märchen usw. ist das egal, aber wenn schon einzelne Zeichen Fehlerhaft sind, kann es bei der EDV zum Problem werden.
--
und ausserdem muss in Zeile 20 der Doppelpunkt durch ein Semikolon ersetzt werden
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
002
08.10.2009, 10:12 Uhr
marko_oette



Vertrauen kannst du ihm nicht. Ich würde damit also keine HEX Listings einscannen

Für einen Großteil der Bücher ist es aber Ok.
--
Bitte - wenn nötig - Kontakt via Email, ich bin selten im Forum.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
003
08.10.2009, 12:00 Uhr
Thomas



Kann man solche OCR-Fehler eigentlich nachträglich korrigieren? In der pdf-Datei?
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
004
08.10.2009, 12:17 Uhr
Günter



das gesammte Buch wurde mit 300 dpi eingescannt, leider war das Ausgangsmaterial teilweise sehr schlecht.

Günter
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
005
08.10.2009, 12:25 Uhr
kaiOr

Avatar von kaiOr

OCR ohne Kontrolllesen und manueller Korrektur ist häufig und in diesem Bsp. absolut für die Katz. Man sucht nach einem Stichwort und findet es nicht weil man Leerzeichen dazugedichtet bekommt und einzelne Zeichen falsch erkannt wurden.

Die Bedingungen sind schlecht:
-gealterte Vorlage braun in braun (schlechter Kontrast)
-DDR-Papier (lauter Holzfaser-Pünktchen bringen die OCR aus dem Trab)
-unbekannte Schriftart
-magere Auflösung

Allein an der Auflösung zu drehen genügt meistens nicht um das gerade zu biegen. Mit dem Stichwort-und Inhaltsverzeichnis ist der Leser besser beraten oder man muss richtig viel Zeit investieren.

Ich hatte mal versucht die Jahresinhaltsverzeichnisse der Zeitschrift MP durch die OCR zu jagen, Faß ohne Boden...

Dieser Beitrag wurde am 08.10.2009 um 12:48 Uhr von kaiOr editiert.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
006
08.10.2009, 13:08 Uhr
BobCat

Avatar von BobCat

Ja Leute, macht euch desterwejen nicht heiß. Das einzig Wahre ist eine Abschrift
Elmar und Meinereiner kennen sich damit aus. OCR würde ich niemals vertrauen. Fazit, unsere Erfahrung: Ab einer fehlerfreien Quote von 95-97% kommt man mit OCR halbwegs zurecht, bezogen auf den Zeitaufwand. Liegt die Quote darunter, kann man auch gleich alles per Hand abschreiben. Der Aufwand OCR-Konvertiertes zu korrigieren ist sehr groß (Pünktchen, Komma, Sonderzeichen, usw. ... . Das hängt wesentlich von der Qualität des Ausgangsmaterials ab. Es ist immer mit tränenden und roten Augen verbunden
Bei unseren alten Dokumenten wurde ja anstatt Papier häufig "Spanplattenfolie" verwendet. Grafiken haben wir zum großen Teil handbegradigt. Wir hatten da sehr lange experimentiert. Der Scanner sollte auch mind. 1200-2400 phys. DPIes können.
Unter Umständen ist es besser sich auf eine saubere Grafik, als Scan zu konzentrieren. Diese gerade rücken und mit einer Schnittmaske zurecht stutzen und als PDF mit handgemachten Inhaltsverzeichnis abspeichern. Es wird zwar eine große Datei, ... aber die Orginalität ist gewahrt.
Ich würde das immer nach Muse, ... und von Fall zu Fall entscheiden.

Ansonsten kann ich bestätigen: Faß ohne Boden ...

Nachtrag: Konnte die verlinkte PDF nicht öffnen. Das nächste Problem wäre die Abwärtskompaltibilität. Mindestens Adobe Acrobat 5 würde ich einfordern.
Das nicht nur aus Kompatibilität, sondern wegen dem Handling. Diese Dokumente sind kleiner und deutlich schneller als der aufgeblasene Mist

gruß
götz

Dieser Beitrag wurde am 08.10.2009 um 13:59 Uhr von BobCat editiert.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
007
08.10.2009, 13:16 Uhr
Rüdiger
Administrator


Wegen ursprüglich defekter EPROMs hatte ich mal versucht, den Hexdump von PAPL (gedruckt auf SD1154) durch OCR in Dateiform zu bringen. Ich hatte verschiedene Programme probiert und zum Schluss den Abbyy Finereader als brauchbarstes herausgefiltert.

Die Voraussetzungen waren eigentlich nicht schlecht: Nur begrenzte Zeichenanzahl (0-F), konstante Schriftart (bei der ich jeden Buchstaben dem Programm einzeln angelernt hatte) und feste Buchstabenbreite.

Das Ergebnis war ernüchternd.
Eine der Schwachstellen des OCR war, dass es nur in schwarz-weiss denken konnte und nicht in Graustufen. So wurde durch ein paar zu hell geratene Druckpunkte schnell mal aus dem E ein F. Und umgekehrt duch Papierartefakte aus dem A ein B.
Helligkeitsgradienten auf dem Papier waren voll der Untergang für das Programm.
Und den Unterschied zwischen B und 8 fiel dem Programm auch außerordentlich schwer.

Und so hatte ich dann am Ende doch visuell Zeichen für Zeichen zwischen OCR-Scan und Ausdruck verglichen. Hatte 1 Monat gedauert und es kamen immer wieder Abweichungen zum Vorschein.

Mein Fazit daraus: OCR ist für ernsthafte EDV-Arbeit noch nicht zu gebrauchen.
--
Kernel panic: Out of swap space.

Dieser Beitrag wurde am 08.10.2009 um 13:18 Uhr von Rüdiger editiert.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
008
08.10.2009, 15:01 Uhr
Hans

Avatar von Hans


Zitat:
Rüdiger schrieb
Mein Fazit daraus: OCR ist für ernsthafte EDV-Arbeit noch nicht zu gebrauchen.

Das kann ich auch nur bestätigen. Als ich damals die P8000 Dokumente digitalisieren wollte ging es mir ähnlich. Die mit Omnipage 15 gescannten Seiten waren zwar am Bildschirm alle gut zu lesen, aber nach dem OCR großes Chaos. Die Formatierungen waren teilweise völlig durcheinander geraten und auch sinnentstellete Texte entstanden. Um alles von Hand zu korrigieren war mir der Aufwand einfach zu hoch, deshalb habe ich dann aufgegeben. Zumal sich das Programm dann auch noch weigerte bereits eingescannte Dokumente trotz Speicherung wieder einzulesen.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
009
08.10.2009, 17:28 Uhr
robbi
Default Group and Edit
Avatar von robbi

Da kann ich die Erfahrungen von BobCat und Rüdiger auch nur bestätigen.
Mit dem Abby Finereader hatte ich zwar die besten Ergebnisse, aber wenn's drauf ankommt, ist die Nacharbeit so aufwendig, wie neuschreiben.

Deshalb habe ich die in der "Versteigerung" von Jürgens K1520 Sachen angekündigten Scans auch nur als Bilder eingescannt. Das testweise Umwandeln in eine PDF-Datei (in Nr. 10) brachte eine Verdreifachung der Dateigröße, wenn man halbwegs lesbare Ergebnisse erzielen möchte.
Wenn dann noch Schaltungen dabei sind, sind 200 dpi mindestens erforderlich. Die Wandlung in 2Bit-Grafik und dann einbinden in PDF (wie bei holm) bringt zwar eine geringere Dateigröße, aber man ärgert sich, weil man so viele Angaben in der Schaltung nicht genau erkennen kann.

Edit:
Die restlichen fehlenden Scans folgen noch heute. Die Daten sind dann bis zum Wochenende zu sehen, danach befreie ich die "sax" von dieser Last.
--
Schreib wie du quatschst, dann schreibst du schlecht.

Dieser Beitrag wurde am 08.10.2009 um 17:36 Uhr von robbi editiert.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
010
08.10.2009, 20:17 Uhr
Olli

Avatar von Olli

Ich habe zwar nur persoenliche OCR Erfahrungen aus 1998/99, aber was ich so gesehen habe taugt das alles nichts. Und wenn man dann so doc Dateien draus bekommt (wo man dann wieder an MS gebunden wird) und sich mal anguckt wie das alles formartiert wird wird einem schon schlecht... daher sind alle meine P8000 Dokumente abgetippt - es sei denn ich hatte die Rohdaten in elektronischer Form

Und sowas kann man eh automatisiert vergessen:
http://files.pofo.de/056.png
http://files.pofo.de/066.png
(sind fuers Netz etwas runtergerechnet - scanne in der Regel mit 300dpi - max. physische Aufloesung meines Agfa SnapScan 310)
--
P8000 adventures: http://pofo.de/blog/?/categories/1-P8000

Dieser Beitrag wurde am 08.10.2009 um 20:18 Uhr von Olli editiert.
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
011
08.10.2009, 20:53 Uhr
Gerhard



So einig wie diesmal waren wir uns in dieser Runde ja schon lange nicht mehr...


Insbesondere kann ich Rüdigers Erfahrungen (007) voll bestätigen, wenn ich auch mal in einem Einzelfall (Hexdumps aus dem Kramer-Buch, 600 dpi) etwas bessere Ergebnisse bekam. Aber auch dort gab es alle 5..10 Zeilen einen Prüfsummenfehler, also eine Unmenge Nacharbeit.

Für laufende Texte, bei denen es nicht allzusehr auf Exaktheit ankommt, mag es angehen und die Nacharbeit sich in Grenzen halten. Ich habe es mal mit einigem Erfolg mit dem (in einem anderen Thread erwähnten) Mercedes-Buch probiert. (Leider ist der Upload bisher wegen meines lahmärschigen DSL und mehrerer Totalabstürze noch nicht gelungen).
Übrigens mache ich die Korrekturen in altväterlicher Weise mit WordPerfect 5.1 unter DOS, was mir viel flotter von der Hand geht als der ganze Word-Schnickschnack unter Windoofs. (Leider hat auch das WP kein Tool zum automatischen Ausblenden ideologischer Phrasen )
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
012
09.10.2009, 09:55 Uhr
frassl



Mal Abseits vom OCR. Die Nutzung eines "normalen" Scanners für so ein Vorhaben ist äußerst zeitraubend. Gute Erfahrungen habe ich mit Kopier-Scannern gemacht, also digitalen Kopiergeräten. Am besten mit Wendeeinheit und Blatteinzug. Damit sind zumindest lose Blattsammlungen (Datenblätter etc.) extrem schnell und extrem kompakt (erstellt automatisch eine gut optimierte pdf) erstellt. Bei Büchern funktioniert es natürlich nich so schnell, aber immernoch Welten schneller als mit normalen Heim-Scannern.
Falls RT mal Interesse an den Heften aus dem Applikationszentrum Berlin hat, oder gescannte Datenblattsammlungen sucht, könnte ich mit Dienen. Allerdings sollte dann ein modernes Konzept vorliegen, wie der beteiligte User das einbinden kann. Auf Dauer wird RT so nicht mehr zu administrieren sein. Ich Verweise auf den entsprechenden Thread in "Diskussion...".
Seitenanfang Seitenende
Profil || Private Nachricht || Suche Zitatantwort || Editieren || Löschen
Seiten: -1-     [ Sonstiges ]  



Robotrontechnik-Forum

powered by ThWboard 3 Beta 2.84-php5
© by Paul Baecher & Felix Gonschorek