Cosas Interesantes

jueves, 22 de julio de 2010

Aplicamos las “BBPP de LARdT 1.0 para un ePUB decente” para la conversión de un PDF desde el principio hasta final (Cap.01)

A veces un ebook te puede volver loco Algunos lectores me han comentado que lo de las “Buenas prácticas de LARdT para un ePUB decente” (en adelante, BBPP LARdT 1.0), está muy bien pero que hablar sobre la teoría es fácil y que las complicaciones aparecen cuando se enfrenta uno a la edición y mejora de un libro en concreto. Y tienen razón. Por eso, he tomado un libro PDF (de los más antipáticos de convertir) y vamos a mostrar paso por paso las modificaciones realizadas para convertirlo en un ePUB decente.
Cómo es un poco largo no me ha quedado más remedio que dividir el contenido del POST en varios capítulos que irán publicándose diariamente (perdón por la molestia del “CONTINUARA…”).

La edición en SIGIL
Cargamos el ePUB según sale de la conversión desde PDF efectuada en CALIBRE. Por cierto, SIGIL me informa de que acaba de lanzar su actualización a la versión 0.23.
Empezamos a observar el libro y pronto encontramos un problema muy común en las conversiones desde PDF:
MUY IMPORTANTE: si copiais el código para utilizarlo en SIGIL, recordad que SIGIL admite el copiar-pegar de los retornos de carro (NEWLINE) en las cajas de texto del copiar-pegar. Debereis copiar el cambio de línea o bien sustituir en la expresión de busqueda por “(/n/s*)
Es decir, cuando copies el codigo y lo pegueis en SIGIL quedará:
image
 pero en realidad es:
image porque debemos COPIAR y PEGAR entre cada línea el RETORNO DE CARRO:
image


1. - Depuramos texto espurio (cabeceras y pies de páginas incrustados entre el texto) 
Efectivamente como podéis comprobar en la imagen encontramos encabezados con números de páginas entreverados con el texto, interrumpiendo el flujo del mismo. Podéis ver la imagen en detalle pulsando sobre ella, como siempre.
CLICK para IMAGE CLICK para IMAGE 
El código de BÚSQUEDA es:

<p class="calibre2">Valeri Massimo Manfredi</p>

<p class="calibre2">([\(\ÑñÓ/ÃÁÉÍÚáéíóúÜü¡!?¿*:«»"'-%…=–º©—“”#{(¼)\)
.,;a-zA-Z0-9\-_\s\c]*)</p>

<p class="calibre2"></p>

<p class="calibre2">([0-9]*)</p>


y no hay código de SUSTITUCIÓN porque se trata de ELIMINAR estas ocurrencias.


Seguimos eliminando ocurrencias similares pero en el caso en el que aparece el nombre del autor seguido del número de página: CLICK para IMAGE


image35 
El código de BÚSQUEDA es:


Valeri Massimo Manfredi</p>

<p class="calibre2">L o s i d u s d e m a r z o</p>

<p class="calibre2"></p>

<p class="calibre2">([0-9]*)</p>

<p class="calibre2"></p>

<p class="calibre2">

y no hay código de SUSTITUCIÓN porque se trata de ELIMINAR estas ocurrencias.


Otra variante similar, pero además cerrando la oración con un código de párrafo:


CLICK para IMAGE


image44 
El código de BÚSQUEDA es:



. Valeri Massimo Manfredi</p>

<p class="calibre2">L o s i d u s d e m a r z o</p>

<p class="calibre2"></p>

<p class="calibre2">([0-9]*)</p>


y el código de SUSTITUCIÓN:


.</p>




2. - Depuramos RETORNOS DE CARRO espúreos que dividen párrafos indebidamente:
CLICK para IMAGE image50


El código de BÚSQUEDA es:


([áéíóúa-zA-Z,;?!0-9])</p>

<p class="calibre2">([¿a-z])


y el código de SUSTITUCIÓN:


\1 \2




Y seguimos con una ligera variación sobre el mismo caso (el corte va precedido de un “Guión largo” (EMDASH):

CLICK para IMAGE
image56 
El código de BÚSQUEDA es:


([áéíóúa-zA-Z,;?!—])</p>

<p class="calibre2">([a-z¿])


y el código de SUSTITUCIÓN:


\1\2




Y aquí ha llegado el momento de parar para continuar en el CAP.02


No hay comentarios

Publicar un comentario

© Cosas Interesantes