Cosas Interesantes

sábado, 13 de febrero de 2010

Cómo retocar con RegEx la conversión CALIBRE desde el formato PDF y conseguir mejores ebooks en ePUB para Mi reader PAPYRE 6.1 (Cap.01)

Coco profesorCómo seguramente ya sabréis, el formato PDF es uno de los más complicados a la hora de conseguir buenos resultados en la conversión hacia otros formatos, como ePUB. Sin embargo, PDF ha sido y sigue siendo, el formato estándar de facto para los documentos facsímiles de contenidos en papel. Por ello, muchas veces no nos quedará otro remedio que partir de un PDF para la creación de nuestro ebook en otro formato. Y hemos pedido ayuda a Coco para que nos muestre cómo mejorar los resultados obtenidos en la conversión.

CÓMO REALIZAR LA CONVERSIÓN DESDE PDFPAPYRE STREET
Existen herramientas para pre-procesar el archivo PDF y conseguir un mejor resultado en la conversión, y hablaremos de ellos en alguna otra entrada. Sin embargo, los resultados obtenidos suelen ser bastante irregulares; por lo que generalmente procedo sin más a convertir el archivo en CALIBRE, sin más; y luego retoco el resultado. Porque en cualquier caso, para conseguir un ebook decente en el formato de destino, es inevitable pasarlo por una fase de pos-proceso. En este caso, el ebook que vamos a utilizar para los ejemplos (“La nave de un millón de años” de Poul Anderson, que tenéis en la BIBLIOTECA), fue preprocesado en ADOBE ACROBAT PROFESIONAL, recortando el extremo inferior de las páginas para eliminar los números de página; y se realizaron otras operaciones para intentar eliminar lo más posible códigos que contaminaran el flujo del texto. Pero cómo comprobareis a continuación, las operaciones de preproceso no produjeron el resultado deseado. 
Sin embargo, es interesante recordar un parámetro que puede mejorar el output final en CALIBRE, asegurando la integridad de las frases y párrafos, evitando que aparezcan cortadas sin venir a cuento:

Click para IMAGEN Como se muestra en la imagen, en el apartado de ENTRADA PDF podemos jugar con el parámetro “Factor para unir líneas divididas”. Nos encontraremos menos líneas divididas si reducimos el valor por defecto de 0,5 (la longitud más frecuente de frase dentro del texto) a 0,25 ó 0,30.

PERO AL FINAL TOCA RETOCAR EL TEXTO…
Abrimos el texto en nuestra herramienta de pos-prensa preferida, SIGIL y encontramos varios tipos de errores en el texto convertido:

Números de página o de título partiendo un párrafo:
20091020002 Esto se produce por la confusión entre el contenido de los pies de página y el texto en el archivo PDF. Y queda HORRIBLE. Para subsanarlo aprovecharemos nuestros (escasos) conocimientos de RegEx (Expresiones Regulares) y preparamos una expresión de búsqueda que seleccione todas las ocurrencias de este error en el texto:
20091020003
Necesitamos encontrar “un espacio seguido de un número al lado de una etiqueta de fin de párrafo que a continuación tenga una marca de inicio de párrafo seguida de una palabra que comienza por minúscula”.


image 
servirá para seleccionar todas las ocurrencias en el texto. Pero OJO! habrá que marcar el check “Match Case” para distinguir entre mayúsculas y minúsculas, ya que el signo distintivo de este error es que el segundo párrafo empieza por MINUSCULA, quedando claro que es una frase que se ha partido por la mitad.


La expresión de reemplazo es sencilla:
20091020004 \2

para indicar que queremos reemplazar por el segundo grupo de “caracteres variables”, en este caso la letra inicial de la primera palabra del segundo párrafo.
Le damos a ENTER y ¡ale-hop!…
20091020005 20091020006


De un golpe hemos arreglado 153 errores en el texto. Y como esta entrada ya está quedando un poco larga, continuaremos con más ejemplos en el próximo capítulo.

1 comentario

© Cosas Interesantes