Optional keine Meta-Daten aus PDF-Dateien für die Suche extrahieren

5. Juni 2026

Die Extraktion von Meta-Daten aus PDF-, RTF- und MS-Office-Dateien für die Suche lässt sich durch globale Konfigurationen steuern.

OpenCms extrahiert für die Suche Texte aus Dokumenten diverser Formate. Für PDF-, RTF- und MS-Office-Dokumente werden standardmäßig auch die Meta-Daten (z.B. Autor, Titel, Keywords ...) extrahiert.

Diese Informationen sind teils nicht bewusst gepflegt, sondern werden von Programmen automatisch gesetzt. Zusätzlich enthalten sie ggf. Informationen, nach denen gar nicht gesucht werden soll. Beispielsweise ist der Autor eines Dokuments meist irrelevant für die Suche.

Über die globale Konfigurationsdatei opencms-search.xml lässt sich die Extraktion der Metadaten pro Dokumenttyp über den Parameter extract.metadata deaktivieren. Hier eine Beispiel-Konfiguration für PDF-Dokumente:

<!-- ... -->
<documenttype>
    <name>pdf</name>
    <class>org.opencms.search.documents.CmsDocumentPdf</class>
    <param name="extract.metadata">false</param>
    <mimetypes>
        <mimetype>application/pdf</mimetype>
    </mimetypes>
    <resourcetypes>
        <resourcetype>binary</resourcetype>
        <resourcetype>plain</resourcetype>
    </resourcetypes>
</documenttype>
<!-- ... -->

Die geänderte Einstellung wirkt sich nur auf neu indizierte Dokumente aus. Sollen für ein bestehendes Dokument die Metadaten für die Suche entfernt werden, gibt es zwei Möglichkeiten:

Das Dokument aktualisieren, dabei "Inhalt neu schreiben" auswählen und anschließend veröffentlichen
Den Suchindex neu bauen

Anmerkung: Die Kontext-Menü-Option "Neu indizieren" genügt nicht, da ein Caching-Mechanismus die Aktualisierung des indizierten Inhalts verhindert.