Apache Tika ist ein mächtiges Java-Tool, mit dem man unter anderem den reinen Volltext aus einem Dokument ziehen kann. Bei PDF-Dokumenten ist es manchmal sinnvoll, zu wissen, auf welcher Seite der Text steht. Dafür kann man sich eine einfache Java-Klasse bauen.

Weiterlesen