Aus gegebenen Anlass habe ich mich gerade gefragt. wie ich aus einer PDF-Datei den Text bekomme.
In einigen Fällen geht es leicht, da der Text wirklich als Text hinterlegt ist und auch kopiert werden kann.
Schwieriger wird es schon, wenn der Text geschützt ist.
Wirklich schwierig ist, wenn der Text als Grafik vorliegt. Bei kurzen Text ist Abtippen noch eine Option. Natürlich kann man die PDF-Datei auch anhängen, wenn mensch aber nur längere Auszüge aus einer Datei bringen will, wie geht das?
Ich dachte zuerst an Texterkennung (OCR-Texterkennung bzw. optische Texterkennung aus Grafik) und wirklich es gibt ein Programm namens FreeOCR, welches allerdings denn Nachteil hat, nur ein kleines Programm zum Runterladen anzubieten und der Rest wird Online nachgeladen.
Eine schnelle Alternative ist Free Online OCR, wo das PDF oder Bild Online gescannt wird. Dies sollte allerdings nur mit Texten gemacht werden die nicht vertraulich sind. Leider klappt es nur Seitenweise und Deutsche Umlaute, wie Ä Ö Ü funktionieren nur wenn unter Language German gewählt wird.