Digitalización de textos
De Indianopedia
Contenido |
Software a instalar
- Instalamos alien, Xsane, Tesseract e Imagemagik usando synaptic, agregando también el paquete tesseract-ocr-spa (diccionario español) y los que correspondan a idiomas que vayamos a usar.
- Descargamos el rpm del script que une Tesseract a Xsane
- Instalamos el script desde la línea de comandos con
sudo alien -i tesseract-ocr-xsane-2.01-1mud2008.0.i586.rpm
Tras unos mensajes de advertencia, el paquete se instala bien, y solo quedará crear un nuevo directorio “tmp” en nuestra home, que es donde se almacenará el log del tesseract.
Configuración del software
- Arrancar xsane y pulsar “ALT+s” (“Preferences –> Setup”) y buscamos la pestaña OCR. Sustituimos el comando “gocr” por “xsane2tess.sh -l spa”, cambiando el idioma, si es necesario, con las tres letras del nombre del paquete instalado: “eng” para inglés o “por” para portugués.
- Dejamos las opciones “input” y “output” como están.
- Para automatizar al máximo el proceso, en el desplegable que aparece al lado del icono del punto de mira seleccionaremos “Save”, y en el campo de texto justo debajo, pondremos la ruta al directorio y al fichero que queremos, por ejemplo “/home/usuario/directorio/pagina0001.txt”.
- Debajo de la ruta, veremos dos desplegables más, uno con el tipo de fichero que queremos, y que cambiaremos a “TEXT”, y uno con una bota negra, que indica que hacer con los nombres de fichero para escaneos consecutivos. Si lo cambiamos a “+1″, una vez escaneada la página 1 y guardado en “/home/usuario/directorio/pagina0001.txt”, el siguiente fichero será “pagina0002.txt”, luego “pagina0003.txt”…
Trucos de edición
Para hacer más fácil el transporte del texto escaneado a la plantilla optimizada, una vez tenemos todos los ficheros “pagina*.txt”, hay que asegurarse de eliminar los posibles backups de los ficheros (pagina*.txt~), si es que hemos editado alguno para hacer alguna corrección. En el explorador de ficheros vamos al directorio, pedimos que nos muestre los ficheros ocultos, y los borramos todos.
Ahora ya podemos poner todo el texto junto en un solo fichero con el comando “cat” en la línea de comandos. En el directorio donde tengamos los ficheros, simplemente pondremos:
cat pagina* >> completo.html
Obtendremos un archivo txt bastante bueno de ese libro viejo y adorado que no queremos que el uso o las polillas destruyan finalmente. Pero del backup en txt a un uso cómodo en el Iliad hay todavía un trecho.
Del txt al OpenOffice
Abre un buen editor de texto plano como el Bluefish. Con el diálogo Reemplazar (CTLR+h) comenzaremos limpiando algunos errores comunes de escaneo:
- Reemplazaremos << por « y >> por »
- Reemplaza -- por —
- Reemplaza l\/l por M, l\I (o l\l) por N, /\ por A, () por 0, \/ por V y vv por w, a veces, dependiendo de la tipografía también 1n por m y l<por k
- Reemplaza v (con un espacio antes y después) por y (con espacios antes y después) , e igualmente rodeados de espacios en blanco O por o
- Un error muy frecuente es la confusión entre x,s y o por sus correspondientes mayúsculas. Lo que haremos será sustituir las mayúsculas por sus minúsculas cuando no vayan a principio de palabra (y por tanto no correspondan al comienzo de una línea o un nombre propio). En el menú *Reemplazar* marcaremos *Expresión regular* y la opción *Tipo Perl* y sustituiremos
(\S)(X) por \0x
(\S)(S) por \0s
(\S)(O) por \0o
(\S)(C) por \0c
Usando también expresiones regulares buscaremos los números de los capítulos y los marcaremos con <h2> (esto sólo es útil si los capítulos van numerados, no si tienen títulos), para ello sustituiremos
\n(\d{1,2})\n por \n<h2>\0</h2>\n
Ahora iremos por las palabras rotas. Antes que nada deshabilita las expresiones regulares. En su lugar marca la casilla que indica que las búsquedas tienen patrones de escape como \n (salto de línea) porque vamos a usarlo ampliamente. Después:
- Busca y reemplaza -\n\n\ por... nada, simplemente deja la casilla de reemplazo en blanco
- Luego sigue reemplazando -\n por nada. Así habremos fundido las líneas en las que una palabra estaba rota, por tanto no deberían quedar ya guiones cortos. Sustituye los que queden por los guiones largos de los diálogos
- Reemplaza .\n por .</p>\n<p>
- Reemplaza ?\n por ?</p>\n<p>
- Reemplaza :\n por :</p>\n<p>
- Reemplaza </h2> por </h2>\n<p>
Finalmente no nos olvidemos de las eses, ces y oes que hemos hecho minúscula y que iban al comienzo de un diálogo, reemplazando:
―s por ―S ―c por ―C ―o por ―O ¿s por ¿S y ¿o por ¿O
Cuando lo tengas hecho graba como html. La forma más cómoda de llevar a la plantilla el archivo resultante será abrirlo con Firefox, hacer un control A (seleccionar todo) y un control C (copiar) y finalmente pegar lo copiado sobre la plantilla para Iliad.
Te quedará tan sólo dar un paseito por los capítulos buscando los bloques en cursiva y arreglando detalles con el corrector ortográfico de OpenOffice.
