In meinem letzten Artikel ging es um Cuneiform, hocr2pdf und das Erstellen von “Sandwich-PDFs” unter Linux. Heute will ich ein Skript vorstellen, mit dem man die Erstellung automatisieren kann.

Das Skript

Das Skript kann hier heruntergeladen werden: Download a2hocrpdf.sh.

Anpassungen müssen gegebenenfalls in den Pfadangaben der Konvertierungsprogramme vorgenommen werden (Zeilen 52-54 und 62).

Möglicherweise fehlen einige Pakete zur korrekten Ausführung, welche man nachinstallieren kann:

Cuneiform und hocr2pdf müssen compiliert werden, wie im letzten Artikel beschrieben.

Anwendung

Man kopiere das Skript in ein Verzeichnis (z.B. dort wo man es ausführen kann, in /usr/local/bin oder ~/bin, je nach Geschmack und Einstellungen im System). Man mache es dann ausführbar:

(evt. auch mit sudo und vollständigem Pfad, sollte klar sein…)

Nun kann man loslegen – ein kurzes Beispiel zur Anwendung. Typischerweise wird man Scanvorlagen haben, welche durchnummeriert sind. Nehmen wir an, wir haben die Dateien scan0001.png, scan0002.png und scan0003.png. Wir wollen daraus ein Sandwich-PDF bauen, das den verheißungsvollen Namen text.pdf trägt. Es ist im Übrigen nicht notwendig, dass die Vorlagen als png vorliegen, jedes andere von ImageMagick gelesene und in PDF integrierbare Format funktioniert auch (in der Praxis dürften das bmp, gif, jpg, tiff, u.ä. sein).

Dazu wechseln wir in das Verzeichnis (bzw. starten dort eine Shell), in welchem die gescannten Bild-Dateien liegen. Dann führen wir folgenden Befehl aus:

Gegebenenfalls muss man den Pfad zu a2hocrpdf.sh vollständig angeben, damit es funktioniert. Alternativ kann man in der Bash auch a2hocrpdf.sh text.pdf *.png angeben, solange keine weiteren png-Dateien im Verzeichnis liegen.

Das Skript fängt dann an zu laufen und prüft zuerst einige Plausibilitätsgeschichten (Zeilen 13-40). Dann werden die Dateien einzeln konvertiert (Zeilen 44-58. Das Vorgehen macht gemischte Eingangs-Formate möglich, also z.B. png und gif können als Parameter übergeben werden). Die resultierenden Bilder werden mit Hilfe des PDF-Toolkit in eine PDF-Datei zusammengefasst (Zeile 62). Am Ende wird aufgeräumt und Erfolg gemeldet (Zeilen 65-72).

Das Skript ist nicht perfekt, funktioniert in der Praxis jedoch ganz gut. Für Verbesserungsvorschläge bin ich natürlich offen.