domingo, 8 de septiembre de 2013

obteniendo los metadatos de ficheros pdf en python



En vista a todas las fugas de información que se están dando últimamente (y a que he tenido un poco de tiempo libre), me he decidido a programar un script en python para poder obtener de forma rápida y cómoda, en primera instancia, los metadatos de ficheros pdf.


Aunque algunas personas son capaces de analizar el contenido del fichero en sí, esto puede convertirse en árdua y tediosa tarea si el contenido pertenece a un ámbito fuera de nuestro alcance, o si se trata de una cantidad ingente de información. Sin embargo, los metadatos son datos relativos al archivo. Aunque los metadatos no se encuentran necesariamente presentes en todos los ficheros, de encontrase podríamos averiguar información interesante desde el punto de vista forense, por ejemplo el autor del archivo, las fechas de creación y/o modificación, el programa con el que se ha creado, la correlación entre el nombre y el título, etc.

El uso del script es sencillo:

$ python pdfMetadata.py -h
Muestra la ayuda

$ python pdfMetadata foo.pdf /foo/bar bar.pdf
Analiza los metadatos de los argumentos introducidos a través de la línea de comandos. Los argumentos pueden ser archivos pdf o directorios, y se pueden mezclar. Si el argumento es un directorio, lo escanea recursivamente analizando los pdfs contenidos en él.

$ python pdfMetadata foo.pdf /foo/bar bar.pdf --log foo.txt
Registra la salida a un fichero en texto plano.

$ python pdfMetadata foo.pdf /foo/bar bar.pdf --log bar.csv
Registra la salida a un fichero en formato CSV.

*Las opciones --log y --csv se pueden combinar

El script lo he subido a mi [recién estrenado] github: https://github.com/rubenhortas/pdfMetadata, por si queréis probarlo, ver el código fuente, contribuir o crear vuestro propio fork.

No hay comentarios:

Publicar un comentario