ENTRADA 028 -

OCR: Pasando imagen a texto.

Veo que ha conseguido el microfilm, procesémoslo.

Tienes la imagen de una captura de pantalla de un texto y quieres transcribirla, pero no puedes copiar/pegar porque las imágenes no lo permiten. Por suerte tienes tesseract.

Tesseract es un programa OCR, un motor de reconocimiento óptico de caracteres, multiplataforma, de los más precisos que existe. Tengo que decir que he probado gocr, ocrad y ocrfeeder y ninguno ha estado a la altura de tesseract.

La instalación es sencilla y necesitas 2 paquetes:

pacman -S tesseract tesseract-data-spa

El último paquete es el del idioma español, si quieres transcribir en otro idioma, añádelo. Podemos saber qué lenguajes tenemos disponibles con el modificador --list-langs

tesseract --list-langs
   List of available languages in "/usr/share/tessdata/" (2):
   osd
   spa

El funcionamiento es muy sencillo, le decimos el nombre de la captura, el nombre del archivo de texto SIN extensión, y el idioma de transcripción:

tesseract captura.png textfile -l spa

Tesseract analiza la imagen, hace las modificaciones necesarios para hacerla más legible y genera la transcripcción. Aun así, si la captura es mala, podemos mejorarla en Gimp antes de pasarla a tesseract.

Si la captura no tiene mucha calidad, también podemos decirle a tesseract que utilice un esquema más detallado, añadiendo dpi:

tesseract captura.png textfile -l spa --dpi 150

Tags #tesseract #archlinux #ocr

=> ◄ Listado de noticias | ◄◄ Inicio

Proxy Information

Original URL: gemini://moribundo.flounder.online/blog/028_tesseract.gmi
Status Code: Success (20)
Meta: text/gemini; charset=utf-8
Capsule Response Time: 657.601309 milliseconds
Gemini-to-HTML Time: 0.351426 milliseconds

This content has been proxied by September (ba2dc).