Metadaten in PDF werden nach dem Adobe Standard Extensible Metadata Platform (XMP) definiert. XMP "facilitates embedding metadata in files using a subset of RDF (WikiPedia)". Mehr Infos auf der Adobe Webseite zu XMP.
In ask23 wird XMP zum Einbetten von metadaten (WikiPedia) in PDF-dokumente verwendet, insbesondere für die Kennzeichnung der Urheberschaft und der Nutzungsrechte (CreativeCommons?).
Metadaten (und auch Text) in PDF Dokumenten können mit dem Kommandozeilen-Tool PDFTOTEXT (GPL) ausgelesen werden.
Anwendungsbeispiel in Perl
# read text from pdf open(README, "/usr/bin/pdftotext $file - |") or die "pdftotext doesn't exists"; while (<README>){ $output.=$_; }
Das Tool PDFTK (GPL) erlaubt das Schreiben von Metadaten.
Anwendungsbeispiel in Perl, aus PDF Metadata Editor by Brian High
# dump metadata pdftk test.pdf dump_data
# write new metadata into new PDF file system ( "pdftk \"$input_file\" " . "update_info \"$meta_file\" " . "output \"$output_file\" dont_ask" );
# sample content of a $meta_file InfoKey: Author InfoValue: Adolf Hoelzel
Beide Tools stehen als Debian Programmpakete zur Verfügung.
Metadaten im XMP Format lassen sich in Perl mit Image:ExifTool lesen und schreiben. (Siehe auch ExifTool Tagnames XMP and diesen Thread im Cpan Forum.)