viernes, 22 de marzo de 2013

Dochive o como extraer datos de un PDF

DocHive

Los ficheros en formato PDF se han caracterizado por la imposibilidad de alterar su contenido fácilmente. Hasta ahora la única forma sencilla de extraer los datos que contienen un fichero en formato PDF era mediante la utilización de la versión profesional de Acrobat que es de pago y que muchos bolsillos no se pueden permitir o buscar por la red alguna web que realice la conversión del fichero en PDF a otros formatos como son las hojas de cálculo o cualquier otro formato con el que poder trabajar.

Para solventar este problema los hermanos Duncan Pardo, Charles y Edward han desarrollado una aplicación de código libre. Charles Duncan es editor de un modesto periódico, Raleigh Public Record  y para buscar información para sus artículos encontraba siempre el mismo problema, estaba en formato PDF y no podía obtener las imágenes, gráficos o textos que necesitaba para su publicación. Gracias a su hermano, Edward, que es programador informático crearon la solución a sus problemas, la aplicación DocHive.

La aplicación desarrollada por los hermanos Duncan Pardo, DocHive, tiene un funcionamiento simple convierte el documento PDF en un archivo de imagen mediante ImageMagick  y XML divide el contenido del fichero original en secciones más pequeñas que se almacenan en su propio archivo de imagen. Con el texto del fichero en PDF, Dochive, dispone de un sistema de reconocimiento óptico de caracteres (OCR) que lee el texto contenido en el fichero y lo graba en un fichero de texto CSV.

De esta forma tan sencilla, dispondremos gracias a DocHive, de varios ficheros con el contenido gráfico del fichero (imágenes, logotipos, gráficos…etc) y por otro lado un fichero de texto CSV con el texto del fichero original. Toda una gran ayuda para editores de periódicos, revistas o escritores que necesiten información procedente de ficheros en formato PDF.

Oficialmente DocHive ha sido lanzado el pasado 28 de febrero y presentado por sus creadores, los hermanos Duncan Pardo, en la conferencia NICAR de Louisville Kentucky. El código fuente del programa podemos localizarlo en GitHub . También se va a crear en el servidor una Wiki para que todos los usuarios de DocHive puedan compartir plantillas, documentación o cualquier información sobre la aplicación. Lo que todavía no se ha aclarado por parte de los creadores de la aplicación ha sido la elección del tipo de licencia que van a utilizar en la aplicación, sin duda alguna se trata de una buena herramienta con grandes posibilidades de crecimiento.

No hay comentarios:

Publicar un comentario

Registrate y Recibe noticias directo a tu correo, te invito a comentar las publicaciones