ist es schwer so etwas zu programmieren?
It depends.

Die erste Hürde ist das PDF lesen mit PHP. Es gibt zwar ein paar Libaries, aber die sind entweder a) teuer oder b) nicht wirklich stabil was die Weiterentwicklung angeht. Aktuell würde ich zu
Xpdf tendieren, das lässt auch mittels Composer inkludieren.
Dazu kommt dann natürlich die Problematik, das das PDF
gut sein muss. Das bedeutet: Kein Bild, sondern Text. Getrennte Wörter auch als solche gekennzeichnet, und nicht als zwei Wörter im PDF, uvm.
Dann muss man sich Gedanken machen, wie man das Suchergebnis anzeigt, wenn der Hit aus einem PDF kommt. Im XF Suchergebnis wird ja KiC angezeigt, also Keyword in Context.
Der Sinnvollste Ansatz aus dem Ärmel wäre es, beim hochladen des PDF dies einmal komplett zu lesen und in eine separate Tabelle zu schreiben, welche man in den Index mit aufnimmt, um dann auch aus dem Bereich den Kontext lädt.
Trivial ist es nicht, machnbar ist es. Aber es wird immer eine Grauzone geben.
werden die Dateien verschlüsselt oder werden die klar abgelegt?
Da wird nichts verschlüsselt. Aber es ist der Internal-Data Folder, da kommt man (bei richtiger Server Konfiguration) nicht öffentlich dran.