Cosas Interesantes

Mostrando entradas con la etiqueta RegEx. Mostrar todas las entradas
martes, 3 de agosto de 2010

Más arreglos con RegEx (Expresiones Regulares) después de la conversión desde PDF a un ePUB para Mi PAPYRE 6.1 reader

Coco profesorPAPYRE STREETComo ya sabéis, los PDFs dan para mucho cuando de convertirlos a ePUB se trata, sobre todo por el tipo de “zurraspas” que nos quedan antes de lograr un ebook decente. Ya hemos comentado varios ejemplos en este BLOG (aquí y también aquí)  pero viendo estos ejemplos no he podido resistirme a preguntarle a Coco y compartir sus soluciones.
domingo, 20 de junio de 2010

Arreglando la conversión de un PDF en libro ePUB para Mi PAPYRE 6.1 reader ¡con muchas notas a pie de libro!

Para hacer la conversión del título “Corsarios de Levante” partimos de un PDF quePAPYRE STREET está protegido por lo que no ha sido posible realizar las tareas de pre-proceso (recortar pies y cabeceras, revisar el reflow, etc…) típicas para conseguir una conversión sin muchos problemas. Ha sido necesario por tanto depurar pies y cabeceras que aparecían mezclados en mitad del texto y otros errores típicos en estos casos de los que ya hemos hablado en este BLOG. Pero este libro se caracteriza además por incluir casi 100 notas a pie de libro (añadidas por el editor digital de la versión PDF, no por el autor original) que aclaran muchos de los términos marineros y militares del relato. Como mejoran bastante la experiencia de lectura me parecía necesario incluirlas en la versión ePUB.

Gestionando un montón de notas
notas en PDF
En el archivo PDF, las notas aparecen originalmente como se muestra en la foto, pero después de la conversión, como podéis comprobar aparecen simplemente como un número “pegado” a la palabra en cuestión. Un auténtico desastre multiplicado por cien.

Despues de convertir
Así que se impone utilizar RegEx para arreglar este entuerto.
Empezamos a buscar una expresión de búsqueda que nos encuentre todas las ocurrencias y nada más que las ocurrencias relacionadas con este error.
Necesitamos una expresión que encuentre palabras terminadas en un número y con un espacio o signo de puntuación a continuación. Desgraciadamente si no delimitamos cuantos números estamos buscando, la expresión nos encontrará también, cosas como nombres de estilo CSS (“calibre9”, por ejemplo). Así que lo partimos en 2 tandas, primero buscaremos 1 a 1 las palabras terminadas en un digito (las notas del 1 al 9), y reemplazaremos 1 a 1 excluyendo las otras cosas que podamos encontrar; y luego ya podremos de un sólo golpe reemplazar las notas del 10 al 95 ya que no se confunden con ninguna otra cosa.

La expresión de sustitución tendrá que incluir el código para convertir ese número en una nota dentro del texto. Así pues:

CLICK para CODEComo siempre, si pulsáis en la imagen accederéis al código. 
¡Ale-hop! y …
 Arreglado
es decir, donde antes ponía:

bajando la entena1.

ahora queda:

bajando la entena. <a title="[1]" href="#_ftn1" id="_ftnref1" name="_ftnref1"><span class="MsoPie">[1]</span></a>



Pero no hemos terminado ni mucho menos. Al final del libro nos quedan varias

Coco profesor

páginas con el texto aclaratorio de las notas (son 95) que tendremos que vincular a las notas situadas dentro del texto. El problema es que para cada nota, después de copiar-pegar el código tendríamos que realizar al menos 5 modificaciones (1 para cada vez que aparece el número de la nota); por lo que estamos hablando de casi ¡500 ediciones! No puede ser.
Nuestro amigo Coco, nos sugiere que hagamos algún invento que nos ahorre este trabajo tan tedioso.

CLICK para IMAGEN  
Lo primero va a ser copiar el texto de las notas a pie de libro en un archivo de texto plano TXT, de forma que cada nota ocupe una línea con su número de nota al inicio de la línea. Con un copiar-pegar y unos cuantos retornos de carro lo hacemos muy rápidamente:


Fichero de texto con las NOTAS
Y ahora vamos a crear un programita que mediante un bucle para los valores 1 a 95, lea la frase correspondiente con el texto de la nota, le añada el código necesario para convertirlo en una nota a pie de libro y escriba el resultado en otro archivo de texto.
 CLICK para CODE

Como siempre, si pulsáis en la imagen accederéis al código. 
Como soy un tío muy rarito el programa esta hecho en KIXTART, un dialecto BASIC interprete de MICROSOFT orientado al scripting para la gestión de sistemas pero convertirlo a algo más universal, como por ejemplo VISUAL BASIC es muy sencillo porque la sintaxis es muy similar.
Resumiendo:


Para n=1 a 95, leo el archivo con el texto de las notas frase a frase hasta que encuentro la línea con la nota número n; le quito el comienzo de la línea dónde está el número de la nota para dejar sólo el texto. A ese texto le añado delante el código necesario para que sea una nota a pie de libro, cuya parte variable es el número n de la nota. Escribo la frase resultante en otro archivo de texto, donde me quedaran al final 95 líneas, una para cada nota a pie de libro.
Este es el archivo DESTINO resultante:
CLICK para CODE Por último, solo queda hacer un copiar-pegar desde este archivo a nuestro e-book en ePUB y ¡Voilá!

CLICK para IMAGE

jueves, 10 de junio de 2010

Resolviendo dudas RegEx sencillas para mejorar los ePUB de Mi PAPYRE 6.1 reader

PAPYRE STREETKiermel nos envía la siguiente duda:





 Coco profesor
Coco va a explicarnos como hacerlo paso a paso.
Queremos encontrar, un rango de números. Pues bien:
0-9

y lo encerramos entre corchetes para indicar que es un rango de números. Pero ¿cuántos números puede haber juntos? Al menos habrá 1, pues eso lo indicamos con el metacarácter "+". Cuando queramos encontrar desde 1 a n ocurrencias de lo que estemos buscando, usaremos “+”; para encontrar de 0 a n ocurrencias lo indicaríamos con “*
[0-9+]

De momento, esto nos encontrará cualquier grupo de números de 1 o más cifras. Como es la expresión a mantener, la agrupamos encerrándola entre paréntesis. Así la expresión de búsqueda será:
<p class="title-p"><strong>([0-9+])</strong></p>

Y en la expresión de sustitución sólo tendremos que indicarle que queremos mantener sin reemplazar el PRIMER GRUPO (sólo hemos agrupado 1) de lo que encontramos en la expresión de búsqueda, y eso lo hacemos con "\1". Si tuviéramos 3 grupos y quisiéramos el tercer grupo, lo indicaríamos con "\3"
<h2>\1</h2>

Esperamos que nuestro amigo Kiermel lo haya entendido.

Y recordad, niños, ahora estoy CERCA image y ahora LEJOS image
miércoles, 9 de junio de 2010

Arreglando con RegEx los guiones largos perdidos(EM DASH) en un ebook ePUB para Mi reader PAPYRE 6.1 (Cap. 02)

Coco profesorPAPYRE STREETCoco nos comenta que el otro día encontró algo extraño en un ebook ePUB con relación a los guiones largos. Resulta que al abrir el libro en ADE de Adobe los guiones largos aparecían como “?” (cierre interrogación). Evidentemente lo mismo pasaba en el lector ADE de mi PAPYRE. ¿Qué misterio es este?  

 

 



 

image

La cosa es aun más misteriosa porque, como podéis comprobar en las imágenes, el texto ePUB se ve perfectamente tanto en el browser incorporado de CALIBRE como el editor SIGIL


Pues es una cuestión de “buenas prácticas” a la hora de editar el libro. El asunto

está en que ADE es más

estrict

o

en el manejo del conjunto de caracteres permitidos

, y resulta que aunque parezca un guión largo (EM DASH), lo que tenemos en este libro es el carácter “barra” que no es admitido por ADE, PORQUE NO ES UNA ENTIDAD HTML 4.0.



Cómo Arreglarlo
 


Pues sustituyéndolo por un carácter que estemos seguros que ADE va a aceptar. La

Click para IMAGE

buena práctica

será utilizar siempre ENTIDADES HTML 4.0 cuyo listado podéis ver en la Wikipedia.
Así, sustituimos por el GUIÓN LARGO (EM DASH) y para estar seguros de no equivocarnos lo escribiremos en su notación HTML, es decir:

&mdash;
Es una práctica que os recomiendo para cuando utilicéis caracteres "especiales" y así no tendremos sorpresas. Efectivamente después de sustituir, ¡Voilá!, texto arreglado.


 

 



image



Y recordad, niños, ahora estoy CERCA image y ahora LEJOS image
domingo, 30 de mayo de 2010

Cómo conseguir con RegEx un ebook ePUB con guiones largos (EM DASH) para Mi reader PAPYRE 6.1 (Cap. 01)

Coco profesorSiguiendo con las posibilidades que RegEx nos ofrece para mejorar nuestras libros electrónicos, hoy Coco va a ayudarnos a conseguir un texto con los guiones tipográficos cómo Dios manda. La verdad es que uno no se da cuenta de lo molesto que resulta para el ojo tener un texto con el “signo menos” (MINUS “-“) usado en lugar de los guiones propiamente dichos.
Podemos elegir entre el guión corto (“–“ “EN DASH” - combinación de teclas ALT+0150 bajo Windows) y el guión largo (“—“ “EM DASH” - combinación de teclas ALT+0151 bajo Windows).
La norma tipográfica consiste en

que el guion largo (“EM DASH”) sirve para indicar el cambio de interlocutor en un dialogo, detallar una observación dentro de una frase (es más estético que los paréntesis) o para presentar una enumeración. En relación a esto, a menudo es confundido con el guión corto o peor aún, con el signo “menos” (MINUS). Por lo tanto para las enumeraciones debemos utilizar el guion largo (“EM DASH”). Como r

eglaPAPYRE STREET general: debe dejarse un espacio antes y después del guion largo, pero no entre el guion largo y el texto a su interior.

El truco está en que debemos realizar la sustitución sin afectar a los guiones (“EN DASH”) o signos menos legítimos, como por ejemplo, los que separan las dos partes de un sustantivo compuesto (como en “hispano-romano”; p.ej.) o más importante aún en el caso que nos ocupa, los guiones que forman parte de la sintaxis de los estilos CSS (como en margin-bottom: 3px”). Si alteráramos este tipo de guión por error; podemos montar la marimorena en nuestro ePUB; nos quedamos sin libro electrónico.


Utilizando SIGIL vamos a depurar nuestro libro. Empezamos contabilizando las ocurrencias. En Buscar-Reemplazar” pulsamos “Count” y resulta que :

image
Tenemos 4793 “

signos menos” y la mayoría de ellos deberían ser guiones largos.



Comienzos de párrafo con cambio de interlocutor en el DIALOGO:


image Es la convención habitual indicar los diálogos de los personajes (a diferencia de los párrafos de narración) iniciándolos con un guión. Sustituiremos el “MINUS” seguido de espacio por un guión largo (“EM DASH”).


Como siempre podéis acceder al código para COPIAR y PEGAR pulsando encima de la imagen correspondiente.
Expresión de búsqueda y sustitución:

CLICK para CODELa gracia está en que utilizamos >- para asegurar que sólo encontramos los comienzos de párrafo. Y luego el espacio seguido de una expresión que cubra cualquier posible carácter que venga después en el párrafo completo; aunque bastaría para nuestro objetivo simplemente con el primer carácter del párrafo. Efectivamente:
EM DASH Uno  Pulsamos ENTER y ¡Voilá!…
image image

Guiones para detallar una observación dentro de una frase:


image Se utiliza en lugar del paréntesis “(“ porque resulta más elegante desde el punto de vista tipográfico. Tendremos un guión de inicio, el texto a resaltar y un guión de cierre.


El guión de inicio podremos encontrarlo con la siguiente expresión de búsqueda:
\s-(?!(\s))

Es decir, un espacio seguido de un “minus” QUE VAYA SEGUIDO DE UN CARACTER PERTENECIENTE A UNA PALABRA. Esto lo conseguimos con una negación: NO (?!(…)) CARATER ESPACIO \s

image   La expresión de sustitución es sencilla: un espacio y el guión largo (EM DASH) CLICK para CODE  
Pulsamos ENTER y ¡TA-CHÁN!…   image 
image




El guión de cierre podremos encontrarlo con la siguiente expresión de búsqueda:

([\w])-(?!([\w]))

Es decir, un final de palabra seguido de un “minus” NO QUE VAYA SEGUIDO DE UN CARACTER PERTENECIENTE A UNA PALABRA. Esto lo conseguimos con una negación: NO (?!(…)) CARATER PERTENECIENTE A UNA PALABRA \w


image 
La expresión de sustitución es sencilla: el final de palabra encontrado \1– y el guión largo (EM DASH)

CLICK para CODE 

Pulsamos ENTER y ¡Ale-Hop!…


image image

Únicamente nos quedarían los casos en que el guión de cierre viene después de un carácter de puntuación.
La expresión de búsqueda

([.;¿?’¡!…>])-(?!([\w]))
nos serviría para rematar esos casos. (22 ocurrencias en nuestro texto). La expresión de sustitución es la misma que para el caso anterior \1–

Por último, sólo nos quedarían algunos casos (generalmente errores) en los que el guión de cierre tiene delante un espacio. (5 ocurrencias en nuestro texto) que podemos buscar con la expresión de búsqueda: ([\s])-(?!([\w])) y procederemos a corregir eliminando el espacio con la expresión de sustitución guión largo (EM DASH)  
  
De esta forma hemos podido sustituir todos los MINUS por guiones largos propiamente dichos.


Y recordad, niños, ahora estoy CERCA image y ahora LEJOS image
domingo, 14 de febrero de 2010

Cómo retocar con RegEx la conversión CALIBRE desde el formato PDF y conseguir mejores ebooks en ePUB para Mi reader PAPYRE 6.1 (Cap.02)

Coco profesorEn el capítulo anterior habíamos pedido ayuda a Coco para que nos enseñara cómo arreglar los errores que se producen en la conversión de un archivo PDF hacia ePUB en CALIBRE.
Vamos a continuar utilizando RegEx para retocar el texto paraPAPYRE STREET conseguir un archivo ePUB sin errores.

ARREGLANDO LOS ERRORES MÁS HABITUALES
Los errores más habituales tienen que ver con la interrupción del flujo de texto, partiendose frases y párrafos en donde no procede.

Párrafo interrumpido por un RETORNO DE CARRO:
Retorno de carro Vemos como la frase se corta y empieza un nuevo párrafo.
La expresión de búsqueda será:
CLICK para CODE  
20091020009

He incluido las vocales acentuadas con la expresión “\()
20091020008 La expresión de sustitución es: \1 \3 Es decir, la última letra del primer párrafo, un espacio y la primera letra del segundo párrafo.
Además de seleccionar el check de “Match Case” para asegurar la diferenciación entre MAYUSCULAS y MINUSCULAS, conviene seleccionar “Minimal Matching” que asegura que se seleccionan los “segmentos” de texto más pequeños de todos aquellos que cumplen la condición de búsqueda.
Pulsamos ENTER y ¡Voilá!…
20091020010 
Carácteres espúreos al final de una frase:
CARACTERES ESPÚREOS Son números, correspondientes a la paginación del archivo PDF. En este caso, la expresión de búsqueda es sencilla:
20091020012  
Buscamos un bloque de entre 1 y 3
números (el libro no tiene más de 999 páginas) situado entre un punto “.” con un espacio detrás y una etiqueta de cierre de párrafo.
Lo sustituimos simplemente por un punto “.” seguido de la etiqueta de cierre de párrafo.
Pulsamos ENTER y “Abra-ca-dabra”…

CORREGIDO 
MÁS párrafos interrumpidos por un RETORNO DE CARRO
20091020014 ¿Pero NO HABIAMOS RESUELTO ESTE TIPO DE ERROR antes? preguntareis. Pues sí, pero NO. Porque en la expresión de búsqueda anterior no incluimos caracteres especiales cómo la coma “,” y la interrogación “¿”. Así pues nos queda cubrir los casos en los que intervienen estos caracteres que son escasos pero que en un libro de 300 y pico páginas pueden darse cerca de 50 veces. Lo resolvemos sin necesidad de RegEx, simplemente copiando la cadena a sustituir:
20091020015  Le damos al ENTER y ¡Zas!…
20091020016 
Parrafos interrumpidos por un RETORNO DE CARRO después de un guión largo
CON GUIÓN LARGO Al incluir otro tipo de carácter especial, el guión largo “” (EM Dash) también se escapó de la primera expresión de sustitución. A veces no queda más remedio que realizar este tipo de depuración “por capas de cebolla”, desde lo más general hasta los casos particulares. Aquí la expresión de búsqueda es más compleja:
CLICK para CODE
20091020018Como siempre en este caso, debemos marcar el check de “Match Case” para asegurarnos de discriminar entre MAYUSCULAS y MINUSCULAS. Pulsamos ENTER para ver la magia de RegEx en acción:
RESUELTO 
Parrafos interrumpidos por un RETORNO DE CARRO después de un guión largo cuando es un COMIENZO de FRASE
20091020020 

Ya sólo nos queda por resolver el caso más enrevesado y dificil de diferenciar del texto correcto. Es cuando después de guión largo “” (EM Dash) se rompe el párrafo; y el primer carácter del párrafo siguiente es una MAYÚSCULA, lo cual hace que sea muy dificil de distinguir de un principio de frase legítimo.
Tendremos como expresión de busqueda:


CLICK para CODE
20091020021OJO! con el “Match Case” y “Minimal Matching”; Pero aquí el truco para comprobar que efectivamente se ha roto la frase de forma incorrecta es que existe un punto “.” justo antes del guión largo “” (EM Dash); lo que indica que el mismo es el primer caracter de una nueva frase y no el último de la corriente.
Como siempre despúés de pulsar ENTER:
20091020022 
Los casos que hemos resuelto con estos retoques han eliminado cerca de 800 errores del texto, lo que supone la diferencia entre un ebook decente y una chapuza.

© Cosas Interesantes